MiniCPM-V: Мощные Мультимодальные LLM для Мобильных Устройств 🚀

Сегодня я расскажу вам о проекте, который меня по-настоящему впечатлил – MiniCPM-V. Это не просто очередная языковая модель, а прорыв в области мультимодального ИИ, способный перенести возможности GPT-4o прямо на ваши мобильные устройства. Звучит амбициозно, не так ли? Давайте разберемся, что делает этот проект таким значимым.

Что такое MiniCPM-V? 🤔

MiniCPM-V — это серия эффективных мультимодальных больших языковых моделей (MLLM) от команды OpenBMB. Их основная цель — разработка моделей, способных работать на конечных устройствах (edge devices), таких как смартфоны, планшеты и носимые гаджеты. Эти модели обрабатывают изображения, видео и текст, генерируя высококачественные текстовые ответы. Представьте ИИ, который воспринимает мир как вы, но умещается в вашем кармане! 🤯

С февраля 2024 года OpenBMB активно развивает проект, выпустив 7 версий модели. Каждая итерация улучшает производительность и эффективность развертывания, делая MiniCPM-V идеальным решением для приложений, требующих обработки данных в реальном времени и минимальной задержки.

MiniCPM-V 4.5: GPT-4o на вашем телефоне 📱

Последняя и наиболее впечатляющая версия — MiniCPM-V 4.5. Несмотря на скромный размер в 8 миллиардов параметров, она превосходит GPT-4o-latest, Gemini-2.0 Pro и Qwen2.5-VL 72B в задачах понимания изображений и языка (vision-language capabilities). Это делает её самой производительной мультимодальной моделью с открытым исходным кодом, способной работать на устройстве. Просто невероятно! 🔥

Ключевые особенности MiniCPM-V 4.5:

Понимание видео (High-FPS и длинные видео): Эффективная обработка видеопотоков с сжатием токенов до 96x. Это позволяет анализировать видео в реальном времени для умных камер, систем безопасности и интерактивных помощников на устройстве.
Контролируемое гибридное мышление (Fast/Deep Thinking): Модель переключается между быстрым и глубоким анализом в зависимости от задачи, обеспечивая оптимальный баланс скорости и точности.
Распознавание рукописного текста (Handwritten OCR) и парсинг документов: Выдающиеся способности в распознавании рукописного текста и анализе сложных таблиц и документов, что полезно для автоматизации обработки информации.
Надежность и многоязычная поддержка: Сохраняет надежность и поддержку множества языков, делая её универсальным инструментом.
Развертывание на конечных устройствах: Главное преимущество — работа непосредственно на мобильных устройствах. Это снижает зависимость от облачных вычислений, повышает конфиденциальность и обеспечивает мгновенный отклик.

MiniCPM-o 2.6: Мультимодальность с Аудио 🎤

MiniCPM-o 2.6 расширяет возможности MiniCPM-V, добавляя поддержку аудиовхода и генерацию высококачественной речи. Эта модель достигает производительности, сравнимой с GPT-4o-202405, в задачах зрения, речи и мультимодального живого потокового вещания. Представьте голосового помощника, который видит, слышит и общается естественным голосом! 🗣️

Ключевые особенности MiniCPM-o 2.6:

Двуязычная голосовая беседа в реальном времени: Поддержка настраиваемых голосов и контроль эмоций, скорости и стиля речи. Открывает новые горизонты для интерактивных голосовых ассистентов и систем перевода.
Клонирование голоса и ролевые игры: Модель позволяет создавать клоны голоса и участвовать в ролевых играх.
Поддержка мультимодального живого потокового вещания на конечных устройствах: Благодаря высокой плотности токенов, MiniCPM-o 2.6 впервые позволяет осуществлять мультимодальное потоковое вещание на iPad.

Почему это важно для программистов? 💻

MiniCPM-V — значительный шаг вперед для разработчиков, ориентированных на мобильные и периферийные вычисления. Возможность запускать такие мощные модели на устройствах открывает двери для инновационных приложений, ранее требовавших значительных облачных ресурсов:

Оффлайн-приложения: Работа без постоянного подключения к интернету, высокая скорость и конфиденциальность.
Экономия ресурсов: Снижение затрат на облачные вычисления и повышение энергоэффективности.
Новые сценарии использования: Разработка приложений для дополненной реальности, умных камер, носимых устройств и других сценариев, где требуется обработка мультимодальных данных в реальном времени.

Пример использования и код 🛠️

Для демонстрации возможностей MiniCPM-V рассмотрим пример из официального репозитория. Этот код показывает, как запустить модель для обработки изображений и текста с помощью Gradio для создания простого веб-интерфейса.

#!/usr/bin/env python
# encoding: utf-8

import gradio as gr
from PIL import Image
import traceback
import re
import torch
import argparse
from transformers import AutoModel, AutoTokenizer

# README, How to run demo on different devices
# For Nvidia GPUs support BF16 (like A100, H100, RTX3090)
# python web_demo.py --device cuda --dtype bf16

# For Nvidia GPUs do NOT support BF16 (like V100, T4, RTX2080)
# python web_demo.py --device cuda --dtype fp16

# For Mac with MPS (Apple silicon or AMD GPUs).
# PYTORCH_ENABLE_MPS_FALLBACK=1 python web_demo.py --device mps --dtype fp16

parser = argparse.ArgumentParser(description='demo')
parser.add_argument('--device', type=str, default='cuda', help='cuda or mps')
parser.add_argument('--dtype', type=str, default='bf16', help='bf16 or fp16')
args = parser.parse_args()

device = args.device
assert device in ['cuda', 'mps']
if args.dtype == 'bf16':
    dtype = torch.bfloat16
elif args.dtype == 'fp16':
    dtype = torch.float16
else:
    dtype = torch.float32


model = AutoModel.from_pretrained('OpenBMB/MiniCPM-V', trust_remote_code=True, torch_dtype=dtype).to(device)
tokenizer = AutoTokenizer.from_pretrained('OpenBMB/MiniCPM-V', trust_remote_code=True)

def chat(image, text, history):
    if image is None:
        return "", history
    
    if history is None:
        history = []

    try:
        # Convert PIL Image to RGB if it's not
        if image.mode != 'RGB':
            image = image.convert('RGB')

        # Process single image
        if isinstance(image, Image.Image):
            msgs = [{'role': 'user', 'content': text}]
            if history:
                for h_text, h_image in history:
                    msgs.insert(0, {'role': 'assistant', 'content': h_text})
                    msgs.insert(0, {'role': 'user', 'content': h_image})
            
            res = model.chat(image, msgs, tokenizer=tokenizer, sampling=True)
            history.append((text, res))
            return res, history

        # Process multiple images (if supported by the model)
        elif isinstance(image, list):
            # This part would need specific implementation based on how MiniCPM-V handles multi-image input
            # For now, we'll just return an error or process the first image as a placeholder
            return "Multi-image input not fully supported in this demo.", history

    except Exception as e:
        traceback.print_exc()
        return f"Error: {e}", history


with gr.Blocks() as demo:
    gr.Markdown("# MiniCPM-V Demo")
    with gr.Row():
        with gr.Column():
            image_input = gr.Image(type="pil", label="Image")
            text_input = gr.Textbox(label="Prompt")
            submit_button = gr.Button("Submit")
        with gr.Column():
            output_text = gr.Textbox(label="Response")
            history_output = gr.State([])

    submit_button.click(
        fn=chat,
        inputs=[image_input, text_input, history_output],
        outputs=[output_text, history_output]
    )

demo.launch()

Пояснения к коду:

Импорты: gradio для веб-интерфейса, PIL для изображений, torch для тензорных операций, transformers для модели и токенизатора.
Аргументы командной строки: Скрипт принимает --device (cuda/mps) и --dtype (bf16/fp16) для настройки модели.
Загрузка модели: Модель OpenBMB/MiniCPM-V и токенизатор загружаются с AutoModel.from_pretrained и AutoTokenizer.from_pretrained (с trust_remote_code=True).
Функция chat: Обрабатывает изображение, текст запроса и историю чата. Преобразует изображение в RGB, формирует сообщения и вызывает model.chat.
Интерфейс Gradio: Создает простой веб-интерфейс с полями для изображения, текста, кнопкой отправки и полем вывода. История чата сохраняется в gr.State.

Как запустить этот пример:

Установите зависимости:

pip install -r requirements.txt

Файл requirements.txt находится в корневом каталоге репозитория MiniCPM-V.

Запустите скрипт:

python web_demo.py --device cuda --dtype bf16

Или fp16 для вашей GPU, или mps для Mac.

Этот пример демонстрирует базовую интеграцию MiniCPM-V в приложение, позволяя взаимодействовать с моделью через веб-интерфейс. Это отличная отправная точка для экспериментов и создания собственных приложений.

Заключение 🎉

MiniCPM-V — это мощный инструмент, открывающий новые возможности для разработки ИИ-приложений на конечных устройствах. Её способность обрабатывать мультимодальные данные, высокая производительность и оффлайн-режим делают её идеальным выбором для широкого круга задач. Если вы ищете проект, который может изменить правила игры в области мобильного ИИ, MiniCPM-V определенно стоит вашего внимания. Погрузитесь в код, экспериментируйте и создавайте что-то по-настоящему инновационное! Удачи! 😉