Перейти к основному содержимому
  1. Теория на русском языке/
  2. LLM инференс база/

Где запускается инференс LLM?

·640 слов·4 минут
Оглавление

При внедрении LLM в продакшн выбор правильного оборудования критически важен. Разные типы железа дают разную производительность и экономическую эффективность. Три основных варианта: CPU, GPU и TPU. Понимание их сильных и слабых сторон поможет оптимизировать инференс.

CPU
#

Центральные процессоры (CPU) — универсальные вычислители, используемые во всех компьютерах и серверах. CPU доступны повсеместно и подходят для небольших моделей или редких запросов. Однако им не хватает параллелизма для эффективного запуска LLM. Для продакшн-инференса больших моделей или при большом потоке запросов CPU часто не справляются по задержке и пропускной способности.

GPU
#

Графические процессоры (GPU) изначально создавались для рендеринга графики и визуализации. Благодаря высокой параллельности они отлично подошли для ML и AI-задач. Сейчас GPU — стандарт для обучения и инференса генеративных моделей вроде LLM.

Архитектура GPU оптимизирована под матричные и тензорные операции — основу трансформеров. Современные фреймворки и рантаймы инференса (например, vLLM, SGLang, LMDeploy, TensorRT-LLM, Hugging Face TGI) используют все преимущества ускорения на GPU.

TPU
#

Тензорные процессоры (TPU) — специализированные чипы Google для ускорения AI-задач (обучение и инференс). В отличие от GPU, TPU изначально проектировались для тензорных операций — базовой математики нейросетей. Такая специализация делает TPU быстрее и эффективнее GPU для многих AI-задач, включая инференс LLM.

TPU лежат в основе самых продвинутых AI-приложений: агенты, рекомендательные системы, генерация изображений, видео и аудио и др. Google использует TPU в Search, Photos, Maps, а также для Gemini и DeepMind.


Вот сравнительная таблица:

ПараметрCPUGPUTPU
НазначениеУниверсальные вычисленияПараллельные вычисления для графики и DLОптимизированы для плотных тензорных операций
Сильная сторонаГибкость, любые задачиМасштабируемый параллелизм, отлично для обучения и инференсаЭкстремальная эффективность для тензорных задач
ПараллелизмНизкийВысокийОчень высокий
Лучше всего дляВетвистая логика, малые задачи, классические приложенияОбучение и инференс LLM, обработка изображений и видеоКрупномасштабное обучение и высокопроизводительный инференс
Тип памятиDRAMGDDR / HBMHBM
Пропускная способность памятиНизкаяВысокаяОчень высокая
ЗадержкаНизкая на ядроВыше, но компенсируется параллелизмомНизкая на матричных операциях
ЭнергоэффективностьСредняяСредняя/высокаяОчень высокая для ML
ПОЗрелое, универсальноеCUDA, ROCm, PyTorch, TensorFlowXLA, JAX, TensorFlow
СтоимостьНизкаяСредняя/высокаяВысокая, в основном в облаке
МасштабируемостьОграничена для DLХорошо масштабируется на мульти-GPU; LLM страдают от cold startОтличная масштабируемость в TPU-подах
ПримерыПрепроцессинг данных, бэкенды, локальные моделиОбучение и инференс LLMКрупные батчи, продакшн-инференс в Google

Как выбрать железо для инференса LLM
#

Выбор подходящего железа зависит от размера модели, объёма инференса, требований к задержке, бюджета и инфраструктуры. GPU остаются самым популярным выбором из-за универсальности и поддержки, TPU дают преимущества в отдельных сценариях, а CPU подходят для лёгких и бюджетных задач.

Подробнее о выборе GPU для разных LLM с открытым исходным кодом.

Как выбрать схему развёртывания
#

Схема развёртывания влияет на задержку, масштабируемость, приватность и стоимость. Каждая схема подходит для разных задач бизнеса.

  • Облако: Самый популярный вариант для инференса LLM. Доступ к мощным GPU и TPU по требованию, развитая экосистема сервисов, автоскейлинг, мониторинг.
  • Мультиоблако и кросс-регион: Гибкая стратегия распределяет нагрузку между разными облаками и регионами. Снижает задержку для глобальных пользователей, повышает доступность GPU, оптимизирует расходы, снижает vendor lock-in и помогает соблюдать требования по хранению данных.
  • Bring Your Own Cloud (BYOC): BYOC позволяет запускать ПО в своём облаке. Это сочетает управляемую оркестрацию с полным контролем над данными, сетью и расходами. Идеально для компаний, которым важны комплаенс, экономия и масштабируемость без полного self-hosting.
  • On-Prem: On-premises — запуск инференса LLM на собственной инфраструктуре, обычно в частном дата-центре. Даёт полный контроль над данными, производительностью и комплаенсом, но требует больше усилий по поддержке.
  • Edge: На edge-инференсе модель работает прямо на устройствах пользователя или локальных узлах, ближе к источнику данных. Это снижает сетевую задержку и повышает приватность, особенно для офлайн- или чувствительных задач. Обычно используются компактные, оптимизированные модели из-за ограниченных ресурсов.

Дополнительные ресурсы
#