Перейти к основному содержимому
  1. Теория на русском языке/
  2. LLM инференс база/

Обучение и инференс

·505 слов·3 минут
Оглавление

Обучение и инференс LLM — это две разные фазы жизненного цикла модели.

Обучение: формирование понимания модели
#

Обучение происходит на начальном этапе создания LLM. Это процесс «обучения» модели распознавать закономерности и делать точные предсказания. Для этого модель подвергается анализу огромных массивов данных, а её параметры корректируются на основе этих данных.

Основные техники обучения LLM:

  • Обучение с учителем: Модели показывают примеры входных данных с правильными ответами.
  • Обучение с подкреплением: Модель учится методом проб и ошибок, оптимизируя результат на основе обратной связи или наград.
  • Самообучение: Модель учится, предсказывая пропущенные или искажённые части данных без явных меток.

Обучение требует больших вычислительных ресурсов, часто — дорогих кластеров GPU или TPU. Хотя начальные затраты очень высоки, это, по сути, разовая инвестиция. После достижения нужной точности переобучение требуется только для обновления или улучшения модели.

Инференс: использование модели в реальном времени
#

Инференс LLM — это применение обученной модели к новым данным для получения предсказаний. В отличие от обучения, инференс происходит непрерывно и в реальном времени, реагируя на пользовательские запросы или входящие данные. Это фаза, когда модель реально «используется». Чем лучше обучена и настроена модель, тем точнее и полезнее её инференс.

Вычислительные потребности инференса постоянны и могут быть очень высокими, особенно при росте числа пользователей и трафика. Каждый запрос инференса требует ресурсов (например, GPU). Хотя отдельный инференс менее затратен, чем обучение, суммарные расходы со временем могут стать значительными.


Вот сравнение обучения и инференса:

ПунктОбучениеИнференс
ЦельНаучить модельИспользовать модель
ДанныеОгромные датасетыНовые, пользовательские входные данные
ВычисленияДолгие, дорогие GPU/TPU задачиРеальные, повторяющиеся нагрузки
Модель затратПочти разоваяПостоянная и растёт с трафиком
ОборудованиеМульти-ноды, кластерыМеньшие кластеры, оптимизированные рантаймы и кэш
ВремяЧасы — неделиМиллисекунды — секунды
ИнструментыPyTorch, JAX, DeepSpeed, MegatronvLLM, SGLang, TensorRT-LLM, MAX, LMDeploy

Частые вопросы
#

Где обучение и инференс в жизненном цикле LLM?
#

Обучение происходит в начале жизненного цикла. Модель изучает закономерности, структуру языка и общие знания. Затем модель проходит этапы согласования и, при необходимости, дообучения. Инференс — последняя стадия: модель развернута и обслуживает реальных пользователей. Обучение — это «создание модели», инференс — «использование модели».

Почему инференс LLM часто обходится дороже обучения?
#

Хотя обучение LLM дорогое, оно обычно проводится один раз. Инференс же запускается каждый раз, когда пользователь отправляет запрос. С ростом трафика увеличивается число инференс-вызовов. Каждый запрос использует GPU, память и сеть. Со временем постоянный спрос делает инференс основной статьёй расходов, особенно для приложений с большим количеством пользователей или длинными запросами.

Нужно ли обучать свою LLM?
#

В большинстве случаев — нет. Обучение новой LLM с нуля требует огромных датасетов, специализированного оборудования и отдельной исследовательской команды. Обычно компании получают лучшие результаты, начиная с открытой модели и дообучая её под свои задачи. Полное обучение имеет смысл только если существующие модели не справляются с вашей задачей или нужны строгие требования, которые нельзя реализовать дообучением.

Дообучение (fine-tuning) — это обучение или инференс?
#

Дообучение (fine-tuning) — это разновидность обучения. Вы обновляете часть весов модели с помощью новых данных, чтобы адаптировать её к конкретной задаче или области. Инференс не меняет веса — он только использует модель для генерации предсказаний. Подробнее см. раздел о дообучении.