Если вы планируете самостоятельно разворачивать LLM, одно из первых вопросов — сколько памяти GPU (VRAM) потребуется. Это в основном зависит от размера модели и точности представления весов, используемой при инференсе.
- Размер модели (число параметров). Чем больше модель, тем больше памяти требуется. Модели с десятками или сотнями миллиардов параметров обычно требуют топовых GPU, таких как NVIDIA H100 или H200.
- Битовая точность. Формат точности (например, FP16, FP8, INT8) влияет на объём занимаемой памяти. Меньшая точность существенно снижает объём памяти, но может повлиять на точность вывода. Подробности — в LLM quantization.
Приблизительная формула для оценки памяти, необходимой для загрузки LLM:
Memory (GB) = P * (Q / 8) * (1 + Overhead)- P: число параметров (в миллиардах)
- Q: битовая точность (например, 16, 32); деление на 8 переводит биты в байты
- Overhead (%): резерв памяти и временные буферы во время инференса (например, KV-cache, буферы активаций, состояния оптимизатора)
Например, для загрузки модели 70B в FP16 с 20% оверхедом потребуется примерно 168 ГБ GPU-памяти:
Memory = 70 × (16 / 8) × 1.2 = 168 GB