Logo Craft Homelab Docs Контакты Telegram
Экономика LLM-инференса: почему один запрос может быть дорогим Трендовые github проекты в нашем телеграм канале. Подпишись →
12 апреля 2026 г.

Экономика LLM-инференса: почему один запрос может быть дорогим

LLM кажется обычным API: отправил текст, получил ответ. Но под капотом каждый запрос — это вычисления на дорогих ускорителях, память для контекста, генерация токенов, иногда tool calls, retries и постобработка. Поэтому два внешне похожих запроса могут отличаться по стоимости в разы.

Если строить продукт на LLM, экономику инференса нужно понимать заранее. Иначе стоимость токенов внезапно станет главным ограничением архитектуры.

Input и output tokens

Базовая стоимость обычно считается по токенам: сколько отправили модели и сколько она сгенерировала. Output почти всегда дороже input, потому что генерация последовательная: модель производит токены один за другим.

Практический вывод: длинный ответ стоит не только денег, но и latency. Если продукту нужен краткий JSON, не просите модель писать эссе.

Контекст стоит дорого

Большой контекст удобен, но дорог. Если в каждый запрос отправлять всю историю диалога, документацию, schema, policy и примеры, цена будет расти даже для простого ответа.

Оптимизации:

  • summarization истории;
  • retrieval только нужных фрагментов;
  • short system prompt;
  • отдельные промпты для разных задач;
  • удаление повторяющегося boilerplate;
  • хранение состояния вне модели.

Контекст должен быть релевантным, а не максимальным.

Prompt caching

Некоторые модели поддерживают кэширование неизменяемой части prompt. Это полезно, если большой system prompt или документация повторяются между запросами.

Но кэш работает только при соблюдении условий: одинаковый префикс, достаточный размер, поддержка конкретной модели. Если каждый запрос чуть меняет начало prompt, кэш может не сработать.

Поэтому prompt нужно проектировать так, чтобы стабильная часть была в начале, а динамические данные — позже.

Tool calls и цепочки

Агентный сценарий дороже обычного чата. Один пользовательский запрос может превратиться в цепочку:

  1. понять задачу;
  2. вызвать поиск;
  3. прочитать документы;
  4. вызвать API;
  5. сгенерировать план;
  6. выполнить tool;
  7. проверить результат;
  8. написать ответ.

Каждый шаг — отдельный инференс или дополнительные токены. Если не контролировать количество итераций, стоимость агента становится непредсказуемой.

Latency тоже деньги

Медленный inference влияет на UX и инфраструктуру. Долгие запросы держат соединения, увеличивают timeouts, требуют очередей и усложняют retries.

Способы снизить latency:

  • выбирать модель по задаче;
  • ограничивать max tokens;
  • stream output;
  • использовать smaller model для классификации;
  • кэшировать ответы;
  • выполнять независимые операции параллельно;
  • заранее готовить контекст.

Не всё нужно отправлять в самую дорогую модель.

Модель по роли

Хорошая архитектура использует разные модели для разных задач:

  • дешёвая модель для routing;
  • средняя для черновика;
  • сильная для сложного reasoning;
  • embedding model для поиска;
  • отдельный reranker при необходимости.

Это похоже на microservices: не каждый запрос должен идти в самый тяжёлый сервис.

Практики контроля бюджета

Для production нужны лимиты:

  • max input/output tokens;
  • budget per user;
  • budget per task;
  • rate limits;
  • tracing стоимости;
  • алерты по аномалиям;
  • fallback на cheaper model;
  • отключение лишних tool calls.

Без observability по стоимости команда узнает о проблеме из счёта.

Итог

Стоимость LLM-инференса складывается из токенов, контекста, output, tool calls, latency и выбранной модели. Экономить нужно не за счёт ухудшения продукта, а за счёт архитектуры: короткие промпты, релевантный контекст, кэширование, routing и лимиты.

LLM API — это не магический endpoint, а вычислительный ресурс. Чем раньше продукт начинает считать его экономику, тем устойчивее будет архитектура.