Выбор правильной модели ·

Оглавление

Первый шаг — определить, какой тип модели подходит для вашей задачи. Ниже приведён обзор распространённых типов моделей в контексте LLM.

Базовые модели
#

Базовые модели, также называемые foundation models, являются отправной точкой для большинства LLM. Обычно они обучаются на больших корпусах текстовых данных в режиме обучения без учителя, то есть без разметки.

На этапе предобучения (pretraining) модель усваивает общие языковые закономерности: грамматику, синтаксис, семантику и контекст. Она учится предсказывать следующее слово (или токен) и может выполнять простые few-shot задачи (решать задачу после нескольких примеров). Однако на этом этапе модель ещё не умеет следовать инструкциям и не оптимизирована для конкретных задач.

Чтобы сделать модель практичной, её обычно дообучают (fine-tuning) на специализированных наборах данных и применяют техники вроде instruction fine-tuning.

Instruction-tuned модели и чат-модели
#

Instruction-tuned модели строятся поверх базовых моделей. После предобучения они проходят вторую стадию обучения на наборах данных, состоящих из инструкций и соответствующих ответов.

Этот этап учит модель более надёжно выполнять пользовательские подсказки и согласовывать ответы с ожиданиями людей. Модель начинает лучше понимать намерение задачи и даёт более связные ответы на команды вроде:

“Summarize this article.”
“Explain how LLM inference works.”
“List pros and cons of remote work.”

Это делает такие модели более пригодными для реальных приложений: чат-ботов, виртуальных ассистентов и инструментов, взаимодействующих с пользователями напрямую.

Если в названии модели есть «Instruct», это обычно означает, что она дообучена на инструкциях. Тем не менее, «Instruct» модели не всегда являются полноценными чат-ботами: они оптимизированы для выполнения конкретной задачи или следования инструкции, а не для поддержания многократного диалога.

В отличие от них, чат-модели часто дополнительно дообучают (часто на диалоговых данных и с помощью RLHF/DPO) для работы в интерактивных сценариях. Они умеют поддерживать контекст между ходами общения и взаимодействовать с несколькими участниками. Подробнее: Instruction and Chat Fine-Tuning.

Mixture of Experts (MoE)
#

Модели Mixture of Experts (MoE), такие как DeepSeek-V3, используют иной подход по сравнению с традиционными dense-моделями. Вместо применения всех параметров к каждому входу они содержат несколько специализированных подсетей — экспертов, каждый из которых фокусируется на определённых типах данных или задачах.

Во время инференса активируется только подмножество экспертов в зависимости от характеристик входа. Механизм выбора позволяет маршрутизировать вычисления избирательно — разные эксперты задействуются в зависимости от содержимого или контекста. В результате MoE-модели достигают лучшей масштабируемости и эффективности, распределяя нагрузку по большой сети при контролируемой стоимости вычислений на один инференс.

Комбинирование LLM с другими моделями
#

Современные AI-приложения редко используют лишь одну LLM. Многие продвинутые системы строят композиции LLM с другими типами моделей, каждая из которых специализирована для своей модальности или задачи. Это позволяет выходить за рамки простой генерации текста и становится более мультимодальными и целеориентированными.

Типичные примеры:

Small Language Models (SLMs). Применяются для лёгких задач, где важны задержки и ограниченные ресурсы. Могут служить резервом (fallback) или работать на устройстве, обрабатывая простые взаимодействия без обращения к полноценной LLM.
Embedding models. Преобразуют входы (например, текст, изображения) в векторные представления, полезные для семантического поиска, RAG-пайплайнов, рекомендательных систем и кластеризации.
Image generation models. Модели вроде Stable Diffusion генерируют изображения по текстовым подсказкам. В связке с LLM они поддерживают расширенные text-to-image сценарии: креативные ассистенты, генерация контента и мультимодальные агенты.
Vision language models (VLMs). Модели, такие как NVLM 1.0 и Qwen2.5-VL, объединяют визуальное и текстовое понимание, поддерживая задачи описания изображений, визуального Q&A и рассуждения по скриншотам или диаграммам.
Text-to-speech (TTS) models. Преобразуют текст в естественное звучание речи. В интеграции с LLM их используют в голосовых ассистентах, доступных интерфейсах и иммерсивных приложениях.

Где брать модели
#

Когда вы определились с нужным типом модели, следующий вопрос: где их найти?

Сегодня большинство команд не обучают модели с нуля — они берут их из открытых хабов, адаптируют и развёртывают.

Hugging Face
#

Hugging Face — стандартная отправная точка для большинства команд. На платформе размещены сотни тысяч открытых моделей для задач текста, зрения, аудио и мультимодальности. Здесь можно найти базовые модели, instruct-версии, чат-модели, embedding и diffusion модели. Hugging Face также предоставляет множество fine-tuned и quantized model вариаций, что упрощает эксперименты с instruction-tuned или low-VRAM моделями без собственного дообучения.

Почему его выбирают:

Обширная экосистема и большое сообщество
Подробные карточки моделей с информацией о лицензии, бенчмарках и предназначении
Native support in most inference frameworks (e.g., vLLM, SGLang, TensorRT-LLM)
Лёгкий доступ к весам, конфигам и токенизаторам

Обратите внимание, что не все модели на Hugging Face доступны одинаково. Некоторые можно скачать без авторизации, другие — с ограниченным доступом и требующие принятия условий лицензии и использования Hugging Face API token для получения весов.

Обычно это происходит, когда:

У модели ограниченная или кастомная лицензия
Авторы хотят видеть, кто использует модель
Модель выпущена для исследовательских целей или контролируемого коммерческого использования

На практике это означает, что вам может понадобиться:

Создать аккаунт на Hugging Face
Сгенерировать API-токен
Передать этот токен в ваш inference framework или среду развёртывания (например, через переменную окружения HF_TOKEN)

Модели с закрытым доступом часто сопровождаются более строгими условиями использования, меньшей эксплуатационной готовностью или отсутствием гарантий долгосрочной доступности.

Простое правило: если модель требует токен и ручного одобрения, убедитесь, что она подходит под ваши производственные и юридические требования.

Другие моменты, на которые стоит обратить внимание:

Различия в лицензиях (Apache-2.0, MIT, custom)
Требования к VRAM, скрытые за числом параметров
Некоторые модели — исследовательские, а не продакшн-ready

Всегда читайте карточку модели перед тестированием — в ней указано, для чего модель подходит и где её ограничения.

ModelScope
#

ModelScope — крупный открытый хаб моделей от Alibaba. Он хорошо покрывает:

Китайские и многоязычные LLM
Vision-language модели
Модели для речи и мультимодальности
Модели, оптимизированные для локальных и региональных задач

Для команд, создающих продукты для китайскоязычных пользователей или разворачивающих сервисы в регионах, где доступ к Hugging Face может быть медленнее или ограничен, ModelScope часто является первоочередным местом поиска. Многие модели отсюда позже появляются на Hugging Face, но часть остаётся эксклюзивной для ModelScope на время.

OpenRouter
#

OpenRouter — это скорее слой доступа к моделям, чем традиционный хаб.

Вместо скачивания весов и собственного запуска моделей, OpenRouter позволяет:

Получать доступ к множеству открытых и проприетарных моделей через единый API
Сравнивать поведение, задержки и стоимость разных моделей
Динамически маршрутизировать трафик между моделями

Это удобно для раннего прототипирования, A/B-тестирования и оценки моделей перед собственным развёртыванием. Однако это не заменит владение собственным inference-стеком, если вам нужен жёсткий контроль над производительностью, данными и затратами в масштабе.

Базовые модели#

Instruction-tuned модели и чат-модели#

Mixture of Experts (MoE)#

Комбинирование LLM с другими моделями#

Где брать модели#

Hugging Face#

ModelScope#

OpenRouter#

Дополнительные ресурсы#