Перейти к основному содержимому
  1. Теория на русском языке/
  2. Начало работы/

Расчёт GPU памяти для LLM

·184 слов·1 минута
Оглавление

Если вы планируете самостоятельно разворачивать LLM, одно из первых вопросов — сколько памяти GPU (VRAM) потребуется. Это в основном зависит от размера модели и точности представления весов, используемой при инференсе.

  • Размер модели (число параметров). Чем больше модель, тем больше памяти требуется. Модели с десятками или сотнями миллиардов параметров обычно требуют топовых GPU, таких как NVIDIA H100 или H200.
  • Битовая точность. Формат точности (например, FP16, FP8, INT8) влияет на объём занимаемой памяти. Меньшая точность существенно снижает объём памяти, но может повлиять на точность вывода. Подробности — в LLM quantization.

Приблизительная формула для оценки памяти, необходимой для загрузки LLM:

Memory (GB) = P * (Q / 8) * (1 + Overhead)
  • P: число параметров (в миллиардах)
  • Q: битовая точность (например, 16, 32); деление на 8 переводит биты в байты
  • Overhead (%): резерв памяти и временные буферы во время инференса (например, KV-cache, буферы активаций, состояния оптимизатора)

Например, для загрузки модели 70B в FP16 с 20% оверхедом потребуется примерно 168 ГБ GPU-памяти:

Memory = 70 × (16 / 8) × 1.2 = 168 GB

Дополнительные ресурсы
#