Выбор правильного GPU ·

Оглавление

Для команд, которые разворачивают LLM локально, выбор подходящего GPU — одно из ключевых решений на ранних этапах. От него зависят пропускная способность, задержки, ограничения по памяти и общая стоимость. Часто соблазнительно опираться на бенчмарки или сравнительные таблицы, но эти цифры редко отражают всю картину реальной нагрузки LLM в конкретном случае.

GPUs vs. Graphics Cards vs. Accelerators
#

Сначала уточним несколько терминов, которые часто используют как синонимы, но на деле они различаются.

GPU (Graphics Processing Unit)
#

GPU — это сам процессорный кристалл. Первоначально он разрабатывался для отрисовки графики, но способен выполнять тысячи параллельных вычислений. В современных задачах AI GPU выступает «мозгом», который выполняет основную вычислительную работу.

Графическая карта
#

Графическая карта — это полный аппаратный модуль, в котором устанавливается GPU. В неё входят кристалл, память (VRAM), система охлаждения, разъёмы питания и интерфейсные порты. Иногда используют термины «видеокарта» или «графический адаптер». GPU — лишь часть карты, но ключевая.

Ускорители
#

Ускорители — более широкая категория специализированного железа, созданного для ускорения конкретных вычислений. GPU — один из типов ускорителей, но существуют и другие:

ускорители для AI/ML (например, Google TPU, Intel NPU)
криптографические ускорители
процессоры физики (PPU)
FPGA, настроенные под конкретные задачи

Главное: все современные графические карты содержат GPU, и все GPU являются ускорителями, но не все ускорители — GPU и не все они ориентированы на графику. Сегодня многие GPU применяются преимущественно в не-графических задачах — для обучения и инференса ML/AI.

Если вы арендуете вычисления у облачного провайдера, в счёте обычно фигурирует позиция «GPUs». Но в документации важно понимать, о каком именно типе оборудования идёт речь.

Почему выбор GPU важен для LLM инференса
#

Современные AI-приложения всё чаще используют генеративные модели (GenAI), такие как LLM. В отличие от классических ML-моделей, их размеры могут достигать сотен миллиардов параметров (например, DeepSeek-V3.1 с 671B параметров). Для работы с такими моделями требуются очень мощные GPU, например NVIDIA H200 или AMD MI300X, чтобы раскрыть потенциал инференса и воспользоваться современными оптимизациями.

Тем не менее не все задачи требуют такой мощности. Небольшие открытые LLM, например Llama-3.1-8B, эффективно работают на среднеуровневых картах вроде NVIDIA L4 или AMD MI250. Лёгкие модели могут запускаться даже на бюджетных картах или стандартных облачных инстансах.

Главное — подобрать GPU под задачу, чтобы получить оптимальное соотношение цена/производительность. Неправильный выбор приводит к узким местам, снижению пропускной способности, увеличению задержек и росту затрат.

Понимание типов GPU
#

Не все GPU созданы для одних и тех же задач. В бенчмарках часто смешаны карты для дата-центров, потребительские видеокарты и даже мобильные чипы. Важно разобраться в основных категориях перед выбором железа для инференса.

Потребительские GPU
#

Потребительские GPU изначально ориентированы на игры, но их часто используют для небольших открытых LLM и экспериментов. У них обычно меньше VRAM, но они выгодны по стоимости. Примеры: NVIDIA RTX 4090, AMD Radeon RX 7900 XTX.

Workstation GPUs
#

Workstation-карты занимают промежуточное положение между потребительскими и дата-центровыми решениями. Они подходят профессионалам, которым нужен мощный вычислительный ресурс на одной машине — для 3D-дизайна, визуализации или прототипирования моделей. Примеры: NVIDIA RTX A6000, AMD Radeon Pro W6800.

Дата-центровые GPU
#

Дата-центровые GPU используются предприятиями для масштабного инференса и задач HPC. Они предлагают большой объём VRAM (40–192 ГБ), высокую пропускную способность памяти и возможности масштабирования — например MIG или NVLink. Примеры: NVIDIA A100, H100, B200, а также AMD MI300X и MI350X.

Для команд, аренующих облачные вычисления или разворачивающих LLM на собственной инфраструктуре (deploying LLM on-prem), дата-центровые GPU обычно являются наиболее практичным выбором.

Ключевые факторы при выборе GPU для LLM инференса
#

При выборе GPU помните, что одни лишь сырые бенчмарки не отражают всей картины. Оптимальный выбор зависит от сочетания аппаратных характеристик, размера рабочей нагрузки и уровня поддержки в экосистеме.

GPU memory (VRAM)
#

VRAM определяет верхний предел по размеру модели и длине контекста. Например, DeepSeek V3 и R1 с 671B параметров требуют 8 NVIDIA H200 (по 141 ГБ каждая). В то же время меньшие модели, такие как Phi-3, при квантовании могут помещаться в 16–24 ГБ.

Большая сложность — это KV-cache: его объём растёт линейно с длиной последовательности, поэтому задачи с большим контекстом быстро расходуют память. Чтобы избежать узких мест, применяют техники распределённого инференса: prefill-decode disaggregation и выгрузка KV-cache.

Пропускная способность
#

Пропускная способность памяти определяет, как быстро обрабатываются токены. Избежать замедлений помогают карты с высокой пропускной способностью, например NVIDIA H100 или AMD MI300X. Однако обязательно протестируйте модель и runtime инференса прежде чем запускать в продакшен.

Вычислительная пропускная способность
#

Часто карты сравнивают по FLOPS, но на практике важнее — токены в секунду. Это особенно критично в сценариях с высокой конкуренцией, где задержки напрямую влияют на опыт пользователей. Для увеличения пропускной способности применяют техники вроде speculative decoding.

Стоимость и доступность
#

Потребительские и workstation GPU доступны и дешевле, но часто имеют ограниченный объём VRAM. Дата-центровые карты обеспечивают масштаб и надёжность для корпоративных развёртываний, но по более высокой цене — особенно это касается H100 и H200.

Для команд корпоративного уровня большая проблема — так называемая GPU CAP Theorem: инфраструктура GPU не может одновременно гарантировать Control (контроль), on-demand Availability (доступность по требованию) и приемлемую Price (цена).

	Hyperscaler	NeoCloud (Serverless)	NeoCloud (Long-term Commitment)	On-Prem
Control	✅ High	❌ Low	🟡 Medium	✅ High
On-demand Availability	🟡 Medium	✅ High	❌ Low	❌ Low
Price	❌ High	🟡 Medium	✅ Low	🟡 Medium

Для подробностей см. How to Beat the GPU CAP Theorem in AI Inference.

Ecosystem and framework support
#

GPU эффективен только в связке с ПО. NVIDIA обладает зрелой экосистемой CUDA Toolkit и TensorRT-LLM. Стек AMD ROCm быстро развивается, и поддержка в PyTorch, vLLM и SGLang растёт.

Подробнее о дата-центровых GPU читайте в блог-постах:

Matching GPUs to open-source LLMs
#

Разные модели лучше работают на разных типах GPU. В таблице ниже сопоставлены популярные NVIDIA и AMD GPU с подходящими открытыми LLM. Некоторые модели требуют несколько GPU для удовлетворения требований по VRAM, а также могут потребовать оптимизаций вроде quantization.

GPU	VRAM	Memory Bandwidth	Example LLMs	Notes
NVIDIA T4	16 GB	320 GB/s	Llama-2-7B (4-bit quantized)	Entry-level graphic card; cost-effective inference for small models (<10GB)
NVIDIA L4	24 GB	300 GB/s	Llama-3-8B, Gemma-3-4B, Qwen2.5-7B, Ministral-8B-Instruct-2410	Cost-efficient mid-range GPU; widely available in cloud
AMD MI250	128 GB	3.2 TB/s	Llama-3.1-8B, Qwen2.5-7B, Phi-3-medium-4k-instruct, gemma-7b-it	Strong memory bandwidth; solid AMD mid-tier option
NVIDIA A100	40/80 GB	1.6–2.0 TB/s	Phi-3-medium-4k-instruct, Gemma-3-12B/27B, gpt-oss-20b, gpt-oss-120b, AI21-Jamba-Mini-1.5, Llama-3.3-70B, Qwen2.5-VL	Workhorse for medium to large models (>10GB) and complex computer vision tasks
NVIDIA H100	80 GB	3.35 TB/s	Llama-3.3-70B, Llama-4-Scout, Llama 4 Maverick, gpt-oss-120b, DeepSeek-R1-Distill-Llama-70B, Qwen3-Next-80B-A3B-Instruct, GLM-4.5V	Optimized for transformer inference; excellent throughput at scale
NVIDIA H200	141 GB	4.8 TB/s	DeepSeek-R1-0528, DeepSeek-V3.1-Terminus, DeepSeek-Prover-V2-671B, Qwen3-Coder-480B-A35B-Instruct	Large memory capacity; designed for next-gen LLMs
AMD MI300X	192 GB	5.3 TB/s	gpt-oss-120b, Llama-3.3-70B, Llama-3.1-405B, DeepSeek-R1-0528, DeepSeek-V3.1-Terminus	High memory capacity; strong choice for large models
AMD MI325X	256 GB	6.0 TB/s	gpt-oss-120b, Llama 3.3-70B, Llama-3.1-405B, DeepSeek-R1-0528, DeepSeek-V3.1-Terminus	3rd Gen CDNA architecture; built for massive multi-GPU clusters

Используйте эту таблицу только как справочную. Для продакшен-развёртываний всегда прогоняйте бенчмарки на ваших моделях и железе.

На что обратить внимание:

Поддержка FP8. Если вы выбираете NVIDIA, учтите, что модели с нативными FP8 весами работают только на H-серии (и новее), поскольку A-серия не поддерживает аппаратный FP8.
Одна карточка vs. несколько. Некоторые модели запускаются на одной карте, но производительность обычно растёт с добавлением GPU (особенно при высокой конкуренции).
Гибкость железа. Большинство моделей можно запускать на разном оборудовании. Например, gpt-oss-20b и gpt-oss-120b могут работать на NVIDIA A100, H100, H200, B200 или на AMD MI300X, MI325X, MI355X. Ограничение чаще связано с объёмом VRAM и размером кластера, а не с архитектурой. Узнайте, как calculate GPU memory for serving LLMs.

FAQ
#

Какой инструмент для сравнения графических процессоров лучше всего подходит для задач AI?
#

Большинство универсальных инструментов сравнения GPU ориентированы на игры и графику, что не отражает реальные нагрузки инференса AI. Для LLM нужны метрики пропускной способности и задержек, такие как TTFT и ITL (см. подробности).

Начать можно с открытых лидербордов от фреймворков vLLM, SGLang и TensorRT-LLM — они предоставляют скрипты для сравнения производительности инференса на разных GPU.

Однако такие фреймворки часто требуют ручной настройки и оптимизации, что занимает время.

Быстрый вариант — llm-optimizer, open-source инструмент для бенчмаркинга и оптимизации инференса LLM. Он работает с разными inference-фреймворками и поддерживает любые открытые LLM. В нём можно задать ограничения вроде «TTFT < 200ms» или «P99 ITL < 10ms», что помогает быстро найти оптимальные конфигурации под ваши цели по производительности.

Где можно купить или арендовать серверы с GPU?
#

Вы можете либо купить GPU-серверы для локального развёртывания, либо арендовать облачные GPU — выбор зависит от масштаба, требований к контролю и бюджета.

Облачные провайдеры, такие как AWS, Google Cloud и Azure, позволяют арендовать H100, H200 или MI300X по требованию.

NeoCloud-поставщики (например, CoreWeave, Nebius) предлагают более дешёвый доступ и гибкую тарификацию, но обычно дают меньше контроля и гарантий соответствия в регулируемых корпоративных средах.

Если вы предпочитаете владение оборудованием, можно покупать GPU-серверы у OEM-партнёров (Dell, GIGABYTE, HPE), которые сотрудничают с NVIDIA и AMD. Это даёт максимальный контроль, но подразумевает большие первоначальные затраты и длительные закупочные циклы.

Как узнать, какой GPU установлен на моей машине?
#

На большинстве систем быстро проверить тип GPU можно через командную строку:

Linux: nvidia-smi (NVIDIA) или amd-smi (AMD).
macOS: system_profiler SPDisplaysDataType.
Windows: откройте Диспетчер устройств → Видеоадаптеры.

Как важны версии CUDA и драйверов при выборе GPU?
#

Очень важно: производительность GPU зависит не только от железа. Драйвер NVIDIA, версия CUDA и сборки фреймворков (PyTorch, vLLM, SGLang, TensorRT-LLM) должны быть совместимы. При несовпадении вы получите ошибки, падение производительности или отсутствие возможностей вроде FP8 или FlashAttention.

Для NVIDIA:

Driver содержит CUDA Driver API и взаимодействует с GPU
CUDA toolkit предоставляет инструменты разработки, компиляторы и библиотеки
cuDNN, cuBLAS и NCCL обеспечивают низкоуровневые операции в PyTorch и большинстве inference-движков
Сборки фреймворков обычно компилируются под конкретную версию CUDA toolkit

Если какая-либо часть стека устарела, вы можете столкнуться с проблемами:

«CUDA driver version is insufficient»
Сбоями ядра
Падением пропускной способности
Отсутствием FP8, FlashAttention или аппаратных оптимизаций

Правило простое:

версия CUDA драйвера должна быть ≥ версии CUDA toolkit, под которую собран ваш фреймворк
новые драйверы обычно обратно совместимы со старыми CUDA toolkit
старые драйверы не поддерживают новые CUDA runtime

Проверить драйвер и GPU можно так:

nvidia-smi

# Example output:
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+

Это означает, что ваш драйвер поддерживает среду выполнения CUDA до версии 12.2. Ваш фреймворк может быть собран с поддержкой CUDA 12.2, 12.1, 11.8 и т.д., но не 12.3 или более новых версий.

Чтобы обновить, скачайте официальные пакеты CUDA toolkit и драйвера.

GPUs vs. Graphics Cards vs. Accelerators#

GPU (Graphics Processing Unit)#

Графическая карта#

Ускорители#

Почему выбор GPU важен для LLM инференса#

Понимание типов GPU#

Потребительские GPU#

Workstation GPUs#

Дата-центровые GPU#

Ключевые факторы при выборе GPU для LLM инференса#

GPU memory (VRAM)#

Пропускная способность#

Вычислительная пропускная способность#

Стоимость и доступность#

Ecosystem and framework support#

Matching GPUs to open-source LLMs#

FAQ#

Какой инструмент для сравнения графических процессоров лучше всего подходит для задач AI?#

Где можно купить или арендовать серверы с GPU?#

Как узнать, какой GPU установлен на моей машине?#

Как важны версии CUDA и драйверов при выборе GPU?#

Дополнительные ресурсы#