Обучение и инференс ·

Оглавление

Обучение и инференс LLM — это две разные фазы жизненного цикла модели.

Обучение: формирование понимания модели
#

Обучение происходит на начальном этапе создания LLM. Это процесс «обучения» модели распознавать закономерности и делать точные предсказания. Для этого модель подвергается анализу огромных массивов данных, а её параметры корректируются на основе этих данных.

Основные техники обучения LLM:

Обучение с учителем: Модели показывают примеры входных данных с правильными ответами.
Обучение с подкреплением: Модель учится методом проб и ошибок, оптимизируя результат на основе обратной связи или наград.
Самообучение: Модель учится, предсказывая пропущенные или искажённые части данных без явных меток.

Обучение требует больших вычислительных ресурсов, часто — дорогих кластеров GPU или TPU. Хотя начальные затраты очень высоки, это, по сути, разовая инвестиция. После достижения нужной точности переобучение требуется только для обновления или улучшения модели.

Инференс: использование модели в реальном времени
#

Инференс LLM — это применение обученной модели к новым данным для получения предсказаний. В отличие от обучения, инференс происходит непрерывно и в реальном времени, реагируя на пользовательские запросы или входящие данные. Это фаза, когда модель реально «используется». Чем лучше обучена и настроена модель, тем точнее и полезнее её инференс.

Вычислительные потребности инференса постоянны и могут быть очень высокими, особенно при росте числа пользователей и трафика. Каждый запрос инференса требует ресурсов (например, GPU). Хотя отдельный инференс менее затратен, чем обучение, суммарные расходы со временем могут стать значительными.

Вот сравнение обучения и инференса:

Пункт	Обучение	Инференс
Цель	Научить модель	Использовать модель
Данные	Огромные датасеты	Новые, пользовательские входные данные
Вычисления	Долгие, дорогие GPU/TPU задачи	Реальные, повторяющиеся нагрузки
Модель затрат	Почти разовая	Постоянная и растёт с трафиком
Оборудование	Мульти-ноды, кластеры	Меньшие кластеры, оптимизированные рантаймы и кэш
Время	Часы — недели	Миллисекунды — секунды
Инструменты	PyTorch, JAX, DeepSpeed, Megatron	vLLM, SGLang, TensorRT-LLM, MAX, LMDeploy

Частые вопросы
#

Где обучение и инференс в жизненном цикле LLM?
#

Обучение происходит в начале жизненного цикла. Модель изучает закономерности, структуру языка и общие знания. Затем модель проходит этапы согласования и, при необходимости, дообучения. Инференс — последняя стадия: модель развернута и обслуживает реальных пользователей. Обучение — это «создание модели», инференс — «использование модели».

Почему инференс LLM часто обходится дороже обучения?
#

Хотя обучение LLM дорогое, оно обычно проводится один раз. Инференс же запускается каждый раз, когда пользователь отправляет запрос. С ростом трафика увеличивается число инференс-вызовов. Каждый запрос использует GPU, память и сеть. Со временем постоянный спрос делает инференс основной статьёй расходов, особенно для приложений с большим количеством пользователей или длинными запросами.

Нужно ли обучать свою LLM?
#

В большинстве случаев — нет. Обучение новой LLM с нуля требует огромных датасетов, специализированного оборудования и отдельной исследовательской команды. Обычно компании получают лучшие результаты, начиная с открытой модели и дообучая её под свои задачи. Полное обучение имеет смысл только если существующие модели не справляются с вашей задачей или нужны строгие требования, которые нельзя реализовать дообучением.

Дообучение (fine-tuning) — это обучение или инференс?
#

Дообучение (fine-tuning) — это разновидность обучения. Вы обновляете часть весов модели с помощью новых данных, чтобы адаптировать её к конкретной задаче или области. Инференс не меняет веса — он только использует модель для генерации предсказаний. Подробнее см. раздел о дообучении.

Обучение: формирование понимания модели#

Инференс: использование модели в реальном времени#

Частые вопросы#

Где обучение и инференс в жизненном цикле LLM?#

Почему инференс LLM часто обходится дороже обучения?#

Нужно ли обучать свою LLM?#

Дообучение (fine-tuning) — это обучение или инференс?#