vLLM: быстрый инференс

vLLM — это высокопроизводительная библиотека для вывода (inference) больших языковых моделей, созданная исследователями из UC Berkeley. В отличие от существующих решений, vLLM достигает выдающейся производительности за счет инновационного подхода к управлению памятью и эффективного пакетирования запросов.

PagedAttention: революция в обработке внимания

В основе vLLM лежит PagedAttention — алгоритм, вдохновленный технологией виртуальной памяти операционных систем. В классических подходах к инференсу LLM для каждой последовательности выделяется непрерывный блок памяти, что приводит к значительным накладным расходам фрагментации памяти, особенно при работе с большими моделями или длинными последовательностями.

PagedAttention решает эту проблему, используя подход, аналогичный страничной памяти в ОС: память делится на блоки фиксированного размера (страницы), и для каждой последовательности выделяются только те страницы, которые фактически нужны. Это позволяет значительно снизить фрагментацию памяти и повысить общую эффективность использования ресурсов.

Как работает PagedAttention

В традиционных системах attention (например, в FlashAttention) ключи и значения (KV-кэши) для каждой последовательности хранятся в непрерывных блоках памяти. При этом многие последовательности могут иметь разную длину, что приводит к неэффективному использованию памяти — последовательности выделяют память под максимальную длину, но редко используют её полностью.

PagedAttention изменяет этот подход:

Каждая последовательность разбивается на блоки фиксированного размера (обычно 16 токенов).
Эти блоки могут располагаться в любой области доступной памяти, независимо друг от друга.
Для каждой последовательности ведется таблица страниц (page table), которая отображает логические позиции токенов на физические расположения блоков в памяти.

Основные преимущества PagedAttention:

Снижение фрагментации памяти: память используется эффективнее, так как блоки могут повторно использоваться для разных последовательностей.
Уменьшение требований к памяти: нет необходимости выделять память под максимальную длину для каждой последовательности.
Поддержка последовательностей переменной длиности: система может динамически выделять и освобождать блоки по мере необходимости.

Техническая реализация PagedAttention включает несколько ключевых компонентов:

Кэш KV с блокированной структурой (Blocked KV Cache): вместо хранения KV-кэша как непрерывного массива, он хранится как массив блоков фиксированного размера.
Таблица страниц (Page Table): структура данных, которая отслеживает, какие блоки памяти выделены для каждой последовательности.
Менеджер памяти (Memory Manager): компонент, отвечающий за выделение и освобождение блоков памяти, а также за повторное использование освобожденных блоков.

Batching и Continuous Batching: максимизация использования GPU

Efficient batching — ключ к высокой производительности инференса LLM. В отличие от последовательного выполнения запросов, batching позволяет обрабатывать несколько запросов одновременно, используя возможности параллельной обработки GPU.

Однако традиционный подход к batching имеет существенные ограничения:

Все запросы в пакете должны иметь одинаковый максимальный размер (или заполнение до него), что приводит к неэффективному использованию памяти и вычислительных ресурсов.
После завершения запроса пакет должен перестраиваться, что создает накладные расходы.

vLLM решает эти проблемы с помощью continuous batching (также известного как interleaved batching).

Continuous Batching: динамическое управление пакетами

В traditional batching система выбирает размер пакета (batch size) и максимальную длину последовательностей, а затем заполняет пакеты до этих значений. В continuous batching система динамически управляет пакетом в процессе выполнения:

Начальные запросы объединяются в пакет.
По мере завершения некоторых запросов в пакет добавляются новые запросы.
Система постоянно поддерживает пакет полностью загруженным, пока есть ожидающие запросы.

Основные преимущества continuous batching:

Устранение времени ожидания: GPU всегда занят обработкой полезной работы, без простоев.
Гибкое управление длиной: запросы могут иметь разную длиность без необходимости заполнения.
Повышение пропускной способности: система может обрабатывать больше запросов в секунду (RPS).

Реализация continuous batching в vLLM включает:

Динамическое планирование запросов: система постоянно оценивает состояние текущего пакета и добавляет новые запросы по мере освобождения слотов.
Эффективное управление памятью: PagedAttention позволяет быстро выделять память под новые запросы в пакете.
Оптимизированные вычисления: алгоритмы адаптированы для эффективного работы с пакетами переменного размера.

Практическое применение vLLM

Давайте рассмотрим, как использовать vLLM на практике. Установка vLLM проста:

pip install vllm

Базовый пример использования:

from vllm import LLM, SamplingParams

# Инициализация модели
llm = LLM(model="facebook/opt-13b")

# Настройки выборки
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Промпты для генерации
prompts = [
    "vLLM — это библиотека для",
    "PagedAttention — это технология",
    "Continuous batching позволяет"
]

# Генерация текста
outputs = llm.generate(prompts, sampling_params)

# Вывод результатов
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt}")
    print(f"Generated text: {generated_text}\n")

Для более сложных сценариев vLLM предоставляет расширенные возможности:

from vllm import LLM, SamplingParams, RequestOutput
import asyncio

async def async_generate():
    llm = LLM(model="facebook/opt-13b")
    sampling_params = SamplingParams(temperature=0.8, max_tokens=100)
    
    # Асинхронная генерация
    results = await llm.generate_async(
        ["The future of AI is", "Machine learning helps us"],
        sampling_params
    )
    
    for result in results:
        print(f"Prompt: {result.prompt}")
        print(f"Generated text: {result.outputs[0].text}")

# Запуск асинхронной генерации
asyncio.run(async_generate())

Настройка параметров производительности:

from vllm import LLM, SamplingParams

llm = LLM(
    model="facebook/opt-13b",
    tensor_parallel_size=2,  # Использование 2 GPU
    gpu_memory_utilization=0.9,  # Использование 90% GPU памяти
    max_num_batched_tokens=8192  # Максимальное количество токенов в пакете
)

sampling_params = SamplingParams(
    temperature=0.8,
    top_p=0.95,
    max_tokens=200
)

prompts = ["Explain quantum computing in simple terms"]
outputs = llm.generate(prompts, sampling_params)

Сравнение с другими решениями

На рынке существует несколько решений для ускоренного инференса LLM. Давайте сравним vLLM с основными альтернативами:

HuggingFace Transformers:

Плюсы: простота использования, широкий охват моделей
Минусы: низкая производительность на длинных последовательностях, отсутствие эффективного batching
vLLM значительно превосходит в скорости, особенно для длинных контекстов

DeepSpeed-Inference:

Плюсы: поддержка распараллеливания на уровне модели, оптимизация для больших моделей
Минусы: сложная настройка, ограничения на типы моделей
vLLM проще в использовании и обеспечивает более высокий throughput

TensorRT-LLM:

Плюсы: оптимизация для NVIDIA GPU, низкоуровневая оптимизация
Минусы: сложный конвейер сборки, ограниченная поддержка моделей
vLLM более гибок и проще интегрируется в существующие системы

Megatron-DeepSpeed:

Плюсы: отличная производительность для очень больших моделей
Минусы: сложность настройки и развертывания, требует глубокого понимания распределенных систем
vLLM обеспечивает сопоставимую производительность с гораздо меньшими усилиями по настройке

Ключевые преимущества vLLM:

PagedAttention: эффективное использование памяти, особенно для длинных последовательностей
Continuous batching: максимальное использование GPU без простоев
Простота интеграции: легкая интеграция с существующими системами
Поддержка различных моделей: широкий охват архитектур LLM

Узкие места и ограничения

Несмотря на очевидные преимущества, vLLM имеет ряд ограничений, которые важно учитывать при принятии решения о его использовании:

Требования к GPU: vLLM оптимизирован для современных NVIDIA GPU с поддержкой CUDA. Для CPU-инференса или других GPU поддержка может быть ограниченной. Это может быть проблемой для сред с гетерогенной инфраструктурой.
Поддержка моделей: Хотя vLLM поддерживает широкий спектр моделей, некоторые менее распространенные архитектуры или пользовательские модификации могут требовать дополнительных усилий по адаптации. Это может быть проблемой для организаций, использующих специализированные модели.
Сложность настройки для особых случаев: В некоторых сценариях (например, очень специфические требования к латентности или обработке потоковых данных) может потребоваться глубокая настройка параметров vLLM. Это требует понимания внутренних механизмов работы системы.
Ограничения в распределенных сценариях: Хотя vLLM поддерживает распределенный инференс, настройка для масштабирования на множество узлов может быть сложнее, чем в специализированных системах, таких как Megatron-DeepSpeed.
Память и другие ресурсы: PagedAttention, несмотря на эффективность, все равно требует значительных объемов памяти для KV-кэша, особенно для моделей с длинным контекстом. Это может быть ограничивающим фактором для развертывания на ресурсно-ограниченных устройствах.
Компромиссы в реализации Continuous Batching: Continuous batching может увеличивать латентность для отдельных запросов, так как система пытается максимизировать общую пропускную способность. Для приложений, требующих низкой латентности для каждого запроса, это может быть проблемой.

Оптимизация под конкретные сценарии:

Для получения максимальной производительности от vLLM важно правильно настроить параметры:

Настройка размера пакета:
- Для сценариев с низкой латентностью: меньшие пакеты, более частое обновление
- Для максимизации throughput: большие пакеты, эффективное использование GPU
Оптимизация использования памяти:
- Настройка параметра gpu_memory_utilization в зависимости от доступной памяти
- Выбор оптимального размера блока для PagedAttention (обычно 16 токенов)
Баланс между скоростью и качеством:
- Настройки sampling_params могут влиять как на скорость, так и на качество генерации
- Использование beam search может улучшить качество, но снизить скорость
Распределенный инференс:
- Настройка tensor_parallel_size в зависимости от количества доступных GPU
- Баланс между нагрузкой на GPU и сетевыми накладными расходами

Заключение: когда использовать vLLM

vLLM представляет собой значительный шаг вперед в области ускоренного инференса LLM. Комбинация PagedAttention и continuous batching позволяет достичь впечатляющих показателей производительности, особенно для сценариев с большим количеством запросов и длинными последовательностями.

vLLM особенно хорошо подходит для:

Сервисов с высокой нагрузкой: чат-боты, системы генерации контента, где важна пропускная способность.
Приложений с длинным контекстом: где требуется обработка больших объемов входных данных.
Систем, где важна простота интеграции: vLLM легко встраивается в существующие приложения с минимальными изменениями.
Сред с современным NVIDIA GPU: где можно полностью воспользоваться преимуществами оптимизаций CUDA.

Однако vLLM может не быть оптимальным выбором для:

Сценариев с очень строгими требованиями к латентности отдельных запросов.
Сред с ограниченными вычислительными ресурсами или без поддержки NVIDIA GPU.
Организаций, использующих очень специализированные или кастомные модели, требующие глубокой адаптации.

В конечном счете, vLLM — это мощный инструмент в арсенале разработчика, работающего с LLM. Его следует рассматривать как основной вариант для большинства продакшн-сценариев, где важна производительность и эффективность использования ресурсов. Для специфических требований может потребоваться дополнительная настройка или рассмотрение альтернатив, но в большинстве случаев vLLM обеспечивает оптимальный баланс между производительностью, простотой использования и гибкостью.