Расчёт GPU памяти для LLM ·

Оглавление

Если вы планируете самостоятельно разворачивать LLM, одно из первых вопросов — сколько памяти GPU (VRAM) потребуется. Это в основном зависит от размера модели и точности представления весов, используемой при инференсе.

Размер модели (число параметров). Чем больше модель, тем больше памяти требуется. Модели с десятками или сотнями миллиардов параметров обычно требуют топовых GPU, таких как NVIDIA H100 или H200.
Битовая точность. Формат точности (например, FP16, FP8, INT8) влияет на объём занимаемой памяти. Меньшая точность существенно снижает объём памяти, но может повлиять на точность вывода. Подробности — в LLM quantization.

Приблизительная формула для оценки памяти, необходимой для загрузки LLM:

Memory (GB) = P * (Q / 8) * (1 + Overhead)

P: число параметров (в миллиардах)
Q: битовая точность (например, 16, 32); деление на 8 переводит биты в байты
Overhead (%): резерв памяти и временные буферы во время инференса (например, KV-cache, буферы активаций, состояния оптимизатора)

Например, для загрузки модели 70B в FP16 с 20% оверхедом потребуется примерно 168 ГБ GPU-памяти:

Memory = 70 × (16 / 8) × 1.2 = 168 GB

Дополнительные ресурсы
#

What is GPU Memory and Why it Matters for LLM Inference

Дополнительные ресурсы#

Дополнительные ресурсы
#