Для команд, которые разворачивают LLM локально, выбор подходящего GPU — одно из ключевых решений на ранних этапах. От него зависят пропускная способность, задержки, ограничения по памяти и общая стоимость. Часто соблазнительно опираться на бенчмарки или сравнительные таблицы, но эти цифры редко отражают всю картину реальной нагрузки LLM в конкретном случае.
GPUs vs. Graphics Cards vs. Accelerators#
Сначала уточним несколько терминов, которые часто используют как синонимы, но на деле они различаются.
GPU (Graphics Processing Unit)#
GPU — это сам процессорный кристалл. Первоначально он разрабатывался для отрисовки графики, но способен выполнять тысячи параллельных вычислений. В современных задачах AI GPU выступает «мозгом», который выполняет основную вычислительную работу.
Графическая карта#
Графическая карта — это полный аппаратный модуль, в котором устанавливается GPU. В неё входят кристалл, память (VRAM), система охлаждения, разъёмы питания и интерфейсные порты. Иногда используют термины «видеокарта» или «графический адаптер». GPU — лишь часть карты, но ключевая.
Ускорители#
Ускорители — более широкая категория специализированного железа, созданного для ускорения конкретных вычислений. GPU — один из типов ускорителей, но существуют и другие:
- ускорители для AI/ML (например, Google TPU, Intel NPU)
- криптографические ускорители
- процессоры физики (PPU)
- FPGA, настроенные под конкретные задачи
Главное: все современные графические карты содержат GPU, и все GPU являются ускорителями, но не все ускорители — GPU и не все они ориентированы на графику. Сегодня многие GPU применяются преимущественно в не-графических задачах — для обучения и инференса ML/AI.
Если вы арендуете вычисления у облачного провайдера, в счёте обычно фигурирует позиция «GPUs». Но в документации важно понимать, о каком именно типе оборудования идёт речь.
Почему выбор GPU важен для LLM инференса#
Современные AI-приложения всё чаще используют генеративные модели (GenAI), такие как LLM. В отличие от классических ML-моделей, их размеры могут достигать сотен миллиардов параметров (например, DeepSeek-V3.1 с 671B параметров). Для работы с такими моделями требуются очень мощные GPU, например NVIDIA H200 или AMD MI300X, чтобы раскрыть потенциал инференса и воспользоваться современными оптимизациями.
Тем не менее не все задачи требуют такой мощности. Небольшие открытые LLM, например Llama-3.1-8B, эффективно работают на среднеуровневых картах вроде NVIDIA L4 или AMD MI250. Лёгкие модели могут запускаться даже на бюджетных картах или стандартных облачных инстансах.
Главное — подобрать GPU под задачу, чтобы получить оптимальное соотношение цена/производительность. Неправильный выбор приводит к узким местам, снижению пропускной способности, увеличению задержек и росту затрат.
Понимание типов GPU#
Не все GPU созданы для одних и тех же задач. В бенчмарках часто смешаны карты для дата-центров, потребительские видеокарты и даже мобильные чипы. Важно разобраться в основных категориях перед выбором железа для инференса.
Потребительские GPU#
Потребительские GPU изначально ориентированы на игры, но их часто используют для небольших открытых LLM и экспериментов. У них обычно меньше VRAM, но они выгодны по стоимости. Примеры: NVIDIA RTX 4090, AMD Radeon RX 7900 XTX.
Workstation GPUs#
Workstation-карты занимают промежуточное положение между потребительскими и дата-центровыми решениями. Они подходят профессионалам, которым нужен мощный вычислительный ресурс на одной машине — для 3D-дизайна, визуализации или прототипирования моделей. Примеры: NVIDIA RTX A6000, AMD Radeon Pro W6800.
Дата-центровые GPU#
Дата-центровые GPU используются предприятиями для масштабного инференса и задач HPC. Они предлагают большой объём VRAM (40–192 ГБ), высокую пропускную способность памяти и возможности масштабирования — например MIG или NVLink. Примеры: NVIDIA A100, H100, B200, а также AMD MI300X и MI350X.
Для команд, аренующих облачные вычисления или разворачивающих LLM на собственной инфраструктуре (deploying LLM on-prem), дата-центровые GPU обычно являются наиболее практичным выбором.
Ключевые факторы при выборе GPU для LLM инференса#
При выборе GPU помните, что одни лишь сырые бенчмарки не отражают всей картины. Оптимальный выбор зависит от сочетания аппаратных характеристик, размера рабочей нагрузки и уровня поддержки в экосистеме.
GPU memory (VRAM)#
VRAM определяет верхний предел по размеру модели и длине контекста. Например, DeepSeek V3 и R1 с 671B параметров требуют 8 NVIDIA H200 (по 141 ГБ каждая). В то же время меньшие модели, такие как Phi-3, при квантовании могут помещаться в 16–24 ГБ.
Большая сложность — это KV-cache: его объём растёт линейно с длиной последовательности, поэтому задачи с большим контекстом быстро расходуют память. Чтобы избежать узких мест, применяют техники распределённого инференса: prefill-decode disaggregation и выгрузка KV-cache.
Пропускная способность#
Пропускная способность памяти определяет, как быстро обрабатываются токены. Избежать замедлений помогают карты с высокой пропускной способностью, например NVIDIA H100 или AMD MI300X. Однако обязательно протестируйте модель и runtime инференса прежде чем запускать в продакшен.
Вычислительная пропускная способность#
Часто карты сравнивают по FLOPS, но на практике важнее — токены в секунду. Это особенно критично в сценариях с высокой конкуренцией, где задержки напрямую влияют на опыт пользователей. Для увеличения пропускной способности применяют техники вроде speculative decoding.
Стоимость и доступность#
Потребительские и workstation GPU доступны и дешевле, но часто имеют ограниченный объём VRAM. Дата-центровые карты обеспечивают масштаб и надёжность для корпоративных развёртываний, но по более высокой цене — особенно это касается H100 и H200.
Для команд корпоративного уровня большая проблема — так называемая GPU CAP Theorem: инфраструктура GPU не может одновременно гарантировать Control (контроль), on-demand Availability (доступность по требованию) и приемлемую Price (цена).
| Hyperscaler | NeoCloud (Serverless) | NeoCloud (Long-term Commitment) | On-Prem | |
|---|---|---|---|---|
| Control | ✅ High | ❌ Low | 🟡 Medium | ✅ High |
| On-demand Availability | 🟡 Medium | ✅ High | ❌ Low | ❌ Low |
| Price | ❌ High | 🟡 Medium | ✅ Low | 🟡 Medium |
Для подробностей см. How to Beat the GPU CAP Theorem in AI Inference.
Ecosystem and framework support#
GPU эффективен только в связке с ПО. NVIDIA обладает зрелой экосистемой CUDA Toolkit и TensorRT-LLM. Стек AMD ROCm быстро развивается, и поддержка в PyTorch, vLLM и SGLang растёт.
Подробнее о дата-центровых GPU читайте в блог-постах:
- NVIDIA Data Center GPUs Explained: From A100 to B200 and Beyond
- AMD Data Center GPUs Explained: MI250X, MI300X, MI350X and Beyond
Matching GPUs to open-source LLMs#
Разные модели лучше работают на разных типах GPU. В таблице ниже сопоставлены популярные NVIDIA и AMD GPU с подходящими открытыми LLM. Некоторые модели требуют несколько GPU для удовлетворения требований по VRAM, а также могут потребовать оптимизаций вроде quantization.
| GPU | VRAM | Memory Bandwidth | Example LLMs | Notes |
|---|---|---|---|---|
| NVIDIA T4 | 16 GB | 320 GB/s | Llama-2-7B (4-bit quantized) | Entry-level graphic card; cost-effective inference for small models (<10GB) |
| NVIDIA L4 | 24 GB | 300 GB/s | Llama-3-8B, Gemma-3-4B, Qwen2.5-7B, Ministral-8B-Instruct-2410 | Cost-efficient mid-range GPU; widely available in cloud |
| AMD MI250 | 128 GB | 3.2 TB/s | Llama-3.1-8B, Qwen2.5-7B, Phi-3-medium-4k-instruct, gemma-7b-it | Strong memory bandwidth; solid AMD mid-tier option |
| NVIDIA A100 | 40/80 GB | 1.6–2.0 TB/s | Phi-3-medium-4k-instruct, Gemma-3-12B/27B, gpt-oss-20b, gpt-oss-120b, AI21-Jamba-Mini-1.5, Llama-3.3-70B, Qwen2.5-VL | Workhorse for medium to large models (>10GB) and complex computer vision tasks |
| NVIDIA H100 | 80 GB | 3.35 TB/s | Llama-3.3-70B, Llama-4-Scout, Llama 4 Maverick, gpt-oss-120b, DeepSeek-R1-Distill-Llama-70B, Qwen3-Next-80B-A3B-Instruct, GLM-4.5V | Optimized for transformer inference; excellent throughput at scale |
| NVIDIA H200 | 141 GB | 4.8 TB/s | DeepSeek-R1-0528, DeepSeek-V3.1-Terminus, DeepSeek-Prover-V2-671B, Qwen3-Coder-480B-A35B-Instruct | Large memory capacity; designed for next-gen LLMs |
| AMD MI300X | 192 GB | 5.3 TB/s | gpt-oss-120b, Llama-3.3-70B, Llama-3.1-405B, DeepSeek-R1-0528, DeepSeek-V3.1-Terminus | High memory capacity; strong choice for large models |
| AMD MI325X | 256 GB | 6.0 TB/s | gpt-oss-120b, Llama 3.3-70B, Llama-3.1-405B, DeepSeek-R1-0528, DeepSeek-V3.1-Terminus | 3rd Gen CDNA architecture; built for massive multi-GPU clusters |
Используйте эту таблицу только как справочную. Для продакшен-развёртываний всегда прогоняйте бенчмарки на ваших моделях и железе.
На что обратить внимание:
- Поддержка FP8. Если вы выбираете NVIDIA, учтите, что модели с нативными FP8 весами работают только на H-серии (и новее), поскольку A-серия не поддерживает аппаратный FP8.
- Одна карточка vs. несколько. Некоторые модели запускаются на одной карте, но производительность обычно растёт с добавлением GPU (особенно при высокой конкуренции).
- Гибкость железа. Большинство моделей можно запускать на разном оборудовании. Например, gpt-oss-20b и gpt-oss-120b могут работать на NVIDIA A100, H100, H200, B200 или на AMD MI300X, MI325X, MI355X. Ограничение чаще связано с объёмом VRAM и размером кластера, а не с архитектурой. Узнайте, как calculate GPU memory for serving LLMs.
FAQ#
Какой инструмент для сравнения графических процессоров лучше всего подходит для задач AI?#
Большинство универсальных инструментов сравнения GPU ориентированы на игры и графику, что не отражает реальные нагрузки инференса AI. Для LLM нужны метрики пропускной способности и задержек, такие как TTFT и ITL (см. подробности).
Начать можно с открытых лидербордов от фреймворков vLLM, SGLang и TensorRT-LLM — они предоставляют скрипты для сравнения производительности инференса на разных GPU.
Однако такие фреймворки часто требуют ручной настройки и оптимизации, что занимает время.
Быстрый вариант — llm-optimizer, open-source инструмент для бенчмаркинга и оптимизации инференса LLM. Он работает с разными inference-фреймворками и поддерживает любые открытые LLM. В нём можно задать ограничения вроде «TTFT < 200ms» или «P99 ITL < 10ms», что помогает быстро найти оптимальные конфигурации под ваши цели по производительности.
Где можно купить или арендовать серверы с GPU?#
Вы можете либо купить GPU-серверы для локального развёртывания, либо арендовать облачные GPU — выбор зависит от масштаба, требований к контролю и бюджета.
Облачные провайдеры, такие как AWS, Google Cloud и Azure, позволяют арендовать H100, H200 или MI300X по требованию.
NeoCloud-поставщики (например, CoreWeave, Nebius) предлагают более дешёвый доступ и гибкую тарификацию, но обычно дают меньше контроля и гарантий соответствия в регулируемых корпоративных средах.
Если вы предпочитаете владение оборудованием, можно покупать GPU-серверы у OEM-партнёров (Dell, GIGABYTE, HPE), которые сотрудничают с NVIDIA и AMD. Это даёт максимальный контроль, но подразумевает большие первоначальные затраты и длительные закупочные циклы.
Как узнать, какой GPU установлен на моей машине?#
На большинстве систем быстро проверить тип GPU можно через командную строку:
- Linux:
nvidia-smi(NVIDIA) илиamd-smi(AMD). - macOS:
system_profiler SPDisplaysDataType. - Windows: откройте Диспетчер устройств → Видеоадаптеры.
Как важны версии CUDA и драйверов при выборе GPU?#
Очень важно: производительность GPU зависит не только от железа. Драйвер NVIDIA, версия CUDA и сборки фреймворков (PyTorch, vLLM, SGLang, TensorRT-LLM) должны быть совместимы. При несовпадении вы получите ошибки, падение производительности или отсутствие возможностей вроде FP8 или FlashAttention.
Для NVIDIA:
- Driver содержит CUDA Driver API и взаимодействует с GPU
- CUDA toolkit предоставляет инструменты разработки, компиляторы и библиотеки
- cuDNN, cuBLAS и NCCL обеспечивают низкоуровневые операции в PyTorch и большинстве inference-движков
- Сборки фреймворков обычно компилируются под конкретную версию CUDA toolkit
Если какая-либо часть стека устарела, вы можете столкнуться с проблемами:
- «CUDA driver version is insufficient»
- Сбоями ядра
- Падением пропускной способности
- Отсутствием FP8, FlashAttention или аппаратных оптимизаций
Правило простое:
- версия CUDA драйвера должна быть ≥ версии CUDA toolkit, под которую собран ваш фреймворк
- новые драйверы обычно обратно совместимы со старыми CUDA toolkit
- старые драйверы не поддерживают новые CUDA runtime
Проверить драйвер и GPU можно так:
nvidia-smi
# Example output:
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03 Driver Version: 535.129.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+Это означает, что ваш драйвер поддерживает среду выполнения CUDA до версии 12.2. Ваш фреймворк может быть собран с поддержкой CUDA 12.2, 12.1, 11.8 и т.д., но не 12.3 или более новых версий.
Чтобы обновить, скачайте официальные пакеты CUDA toolkit и драйвера.
