Где запускается инференс LLM? ·

Оглавление

При внедрении LLM в продакшн выбор правильного оборудования критически важен. Разные типы железа дают разную производительность и экономическую эффективность. Три основных варианта: CPU, GPU и TPU. Понимание их сильных и слабых сторон поможет оптимизировать инференс.

CPU
#

Центральные процессоры (CPU) — универсальные вычислители, используемые во всех компьютерах и серверах. CPU доступны повсеместно и подходят для небольших моделей или редких запросов. Однако им не хватает параллелизма для эффективного запуска LLM. Для продакшн-инференса больших моделей или при большом потоке запросов CPU часто не справляются по задержке и пропускной способности.

GPU
#

Графические процессоры (GPU) изначально создавались для рендеринга графики и визуализации. Благодаря высокой параллельности они отлично подошли для ML и AI-задач. Сейчас GPU — стандарт для обучения и инференса генеративных моделей вроде LLM.

Архитектура GPU оптимизирована под матричные и тензорные операции — основу трансформеров. Современные фреймворки и рантаймы инференса (например, vLLM, SGLang, LMDeploy, TensorRT-LLM, Hugging Face TGI) используют все преимущества ускорения на GPU.

TPU
#

Тензорные процессоры (TPU) — специализированные чипы Google для ускорения AI-задач (обучение и инференс). В отличие от GPU, TPU изначально проектировались для тензорных операций — базовой математики нейросетей. Такая специализация делает TPU быстрее и эффективнее GPU для многих AI-задач, включая инференс LLM.

TPU лежат в основе самых продвинутых AI-приложений: агенты, рекомендательные системы, генерация изображений, видео и аудио и др. Google использует TPU в Search, Photos, Maps, а также для Gemini и DeepMind.

Вот сравнительная таблица:

Параметр	CPU	GPU	TPU
Назначение	Универсальные вычисления	Параллельные вычисления для графики и DL	Оптимизированы для плотных тензорных операций
Сильная сторона	Гибкость, любые задачи	Масштабируемый параллелизм, отлично для обучения и инференса	Экстремальная эффективность для тензорных задач
Параллелизм	Низкий	Высокий	Очень высокий
Лучше всего для	Ветвистая логика, малые задачи, классические приложения	Обучение и инференс LLM, обработка изображений и видео	Крупномасштабное обучение и высокопроизводительный инференс
Тип памяти	DRAM	GDDR / HBM	HBM
Пропускная способность памяти	Низкая	Высокая	Очень высокая
Задержка	Низкая на ядро	Выше, но компенсируется параллелизмом	Низкая на матричных операциях
Энергоэффективность	Средняя	Средняя/высокая	Очень высокая для ML
ПО	Зрелое, универсальное	CUDA, ROCm, PyTorch, TensorFlow	XLA, JAX, TensorFlow
Стоимость	Низкая	Средняя/высокая	Высокая, в основном в облаке
Масштабируемость	Ограничена для DL	Хорошо масштабируется на мульти-GPU; LLM страдают от cold start	Отличная масштабируемость в TPU-подах
Примеры	Препроцессинг данных, бэкенды, локальные модели	Обучение и инференс LLM	Крупные батчи, продакшн-инференс в Google

Как выбрать железо для инференса LLM
#

Выбор подходящего железа зависит от размера модели, объёма инференса, требований к задержке, бюджета и инфраструктуры. GPU остаются самым популярным выбором из-за универсальности и поддержки, TPU дают преимущества в отдельных сценариях, а CPU подходят для лёгких и бюджетных задач.

Подробнее о выборе GPU для разных LLM с открытым исходным кодом.

Как выбрать схему развёртывания
#

Схема развёртывания влияет на задержку, масштабируемость, приватность и стоимость. Каждая схема подходит для разных задач бизнеса.

Облако: Самый популярный вариант для инференса LLM. Доступ к мощным GPU и TPU по требованию, развитая экосистема сервисов, автоскейлинг, мониторинг.
Мультиоблако и кросс-регион: Гибкая стратегия распределяет нагрузку между разными облаками и регионами. Снижает задержку для глобальных пользователей, повышает доступность GPU, оптимизирует расходы, снижает vendor lock-in и помогает соблюдать требования по хранению данных.
Bring Your Own Cloud (BYOC): BYOC позволяет запускать ПО в своём облаке. Это сочетает управляемую оркестрацию с полным контролем над данными, сетью и расходами. Идеально для компаний, которым важны комплаенс, экономия и масштабируемость без полного self-hosting.
On-Prem: On-premises — запуск инференса LLM на собственной инфраструктуре, обычно в частном дата-центре. Даёт полный контроль над данными, производительностью и комплаенсом, но требует больше усилий по поддержке.
Edge: На edge-инференсе модель работает прямо на устройствах пользователя или локальных узлах, ближе к источнику данных. Это снижает сетевую задержку и повышает приватность, особенно для офлайн- или чувствительных задач. Обычно используются компактные, оптимизированные модели из-за ограниченных ресурсов.

Дополнительные ресурсы
#

NVIDIA Data Center GPUs Explained: From A100 to B200 and Beyond
How to Beat the GPU CAP Theorem in AI Inference
State of AI Inference Infrastructure Survey Highlights
3 Levels from Laptop to Cluster-Scale Distributed Inference

CPU#

GPU#

TPU#

Как выбрать железо для инференса LLM#

Как выбрать схему развёртывания#

Дополнительные ресурсы#