Первый шаг — определить, какой тип модели подходит для вашей задачи. Ниже приведён обзор распространённых типов моделей в контексте LLM.
Базовые модели#
Базовые модели, также называемые foundation models, являются отправной точкой для большинства LLM. Обычно они обучаются на больших корпусах текстовых данных в режиме обучения без учителя, то есть без разметки.
На этапе предобучения (pretraining) модель усваивает общие языковые закономерности: грамматику, синтаксис, семантику и контекст. Она учится предсказывать следующее слово (или токен) и может выполнять простые few-shot задачи (решать задачу после нескольких примеров). Однако на этом этапе модель ещё не умеет следовать инструкциям и не оптимизирована для конкретных задач.
Чтобы сделать модель практичной, её обычно дообучают (fine-tuning) на специализированных наборах данных и применяют техники вроде instruction fine-tuning.
Instruction-tuned модели и чат-модели#
Instruction-tuned модели строятся поверх базовых моделей. После предобучения они проходят вторую стадию обучения на наборах данных, состоящих из инструкций и соответствующих ответов.
Этот этап учит модель более надёжно выполнять пользовательские подсказки и согласовывать ответы с ожиданиями людей. Модель начинает лучше понимать намерение задачи и даёт более связные ответы на команды вроде:
- “Summarize this article.”
- “Explain how LLM inference works.”
- “List pros and cons of remote work.”
Это делает такие модели более пригодными для реальных приложений: чат-ботов, виртуальных ассистентов и инструментов, взаимодействующих с пользователями напрямую.
Если в названии модели есть «Instruct», это обычно означает, что она дообучена на инструкциях. Тем не менее, «Instruct» модели не всегда являются полноценными чат-ботами: они оптимизированы для выполнения конкретной задачи или следования инструкции, а не для поддержания многократного диалога.
В отличие от них, чат-модели часто дополнительно дообучают (часто на диалоговых данных и с помощью RLHF/DPO) для работы в интерактивных сценариях. Они умеют поддерживать контекст между ходами общения и взаимодействовать с несколькими участниками. Подробнее: Instruction and Chat Fine-Tuning.
Mixture of Experts (MoE)#
Модели Mixture of Experts (MoE), такие как DeepSeek-V3, используют иной подход по сравнению с традиционными dense-моделями. Вместо применения всех параметров к каждому входу они содержат несколько специализированных подсетей — экспертов, каждый из которых фокусируется на определённых типах данных или задачах.
Во время инференса активируется только подмножество экспертов в зависимости от характеристик входа. Механизм выбора позволяет маршрутизировать вычисления избирательно — разные эксперты задействуются в зависимости от содержимого или контекста. В результате MoE-модели достигают лучшей масштабируемости и эффективности, распределяя нагрузку по большой сети при контролируемой стоимости вычислений на один инференс.
Комбинирование LLM с другими моделями#
Современные AI-приложения редко используют лишь одну LLM. Многие продвинутые системы строят композиции LLM с другими типами моделей, каждая из которых специализирована для своей модальности или задачи. Это позволяет выходить за рамки простой генерации текста и становится более мультимодальными и целеориентированными.
Типичные примеры:
- Small Language Models (SLMs). Применяются для лёгких задач, где важны задержки и ограниченные ресурсы. Могут служить резервом (fallback) или работать на устройстве, обрабатывая простые взаимодействия без обращения к полноценной LLM.
- Embedding models. Преобразуют входы (например, текст, изображения) в векторные представления, полезные для семантического поиска, RAG-пайплайнов, рекомендательных систем и кластеризации.
- Image generation models. Модели вроде Stable Diffusion генерируют изображения по текстовым подсказкам. В связке с LLM они поддерживают расширенные text-to-image сценарии: креативные ассистенты, генерация контента и мультимодальные агенты.
- Vision language models (VLMs). Модели, такие как NVLM 1.0 и Qwen2.5-VL, объединяют визуальное и текстовое понимание, поддерживая задачи описания изображений, визуального Q&A и рассуждения по скриншотам или диаграммам.
- Text-to-speech (TTS) models. Преобразуют текст в естественное звучание речи. В интеграции с LLM их используют в голосовых ассистентах, доступных интерфейсах и иммерсивных приложениях.
Где брать модели#
Когда вы определились с нужным типом модели, следующий вопрос: где их найти?
Сегодня большинство команд не обучают модели с нуля — они берут их из открытых хабов, адаптируют и развёртывают.
Hugging Face#
Hugging Face — стандартная отправная точка для большинства команд. На платформе размещены сотни тысяч открытых моделей для задач текста, зрения, аудио и мультимодальности. Здесь можно найти базовые модели, instruct-версии, чат-модели, embedding и diffusion модели. Hugging Face также предоставляет множество fine-tuned и quantized model вариаций, что упрощает эксперименты с instruction-tuned или low-VRAM моделями без собственного дообучения.
Почему его выбирают:
- Обширная экосистема и большое сообщество
- Подробные карточки моделей с информацией о лицензии, бенчмарках и предназначении
- Native support in most inference frameworks (e.g., vLLM, SGLang, TensorRT-LLM)
- Лёгкий доступ к весам, конфигам и токенизаторам
Обратите внимание, что не все модели на Hugging Face доступны одинаково. Некоторые можно скачать без авторизации, другие — с ограниченным доступом и требующие принятия условий лицензии и использования Hugging Face API token для получения весов.
Обычно это происходит, когда:
- У модели ограниченная или кастомная лицензия
- Авторы хотят видеть, кто использует модель
- Модель выпущена для исследовательских целей или контролируемого коммерческого использования
На практике это означает, что вам может понадобиться:
- Создать аккаунт на Hugging Face
- Сгенерировать API-токен
- Передать этот токен в ваш inference framework или среду развёртывания (например, через переменную окружения
HF_TOKEN)
Модели с закрытым доступом часто сопровождаются более строгими условиями использования, меньшей эксплуатационной готовностью или отсутствием гарантий долгосрочной доступности.
Простое правило: если модель требует токен и ручного одобрения, убедитесь, что она подходит под ваши производственные и юридические требования.
Другие моменты, на которые стоит обратить внимание:
- Различия в лицензиях (Apache-2.0, MIT, custom)
- Требования к VRAM, скрытые за числом параметров
- Некоторые модели — исследовательские, а не продакшн-ready
Всегда читайте карточку модели перед тестированием — в ней указано, для чего модель подходит и где её ограничения.
ModelScope#
ModelScope — крупный открытый хаб моделей от Alibaba. Он хорошо покрывает:
- Китайские и многоязычные LLM
- Vision-language модели
- Модели для речи и мультимодальности
- Модели, оптимизированные для локальных и региональных задач
Для команд, создающих продукты для китайскоязычных пользователей или разворачивающих сервисы в регионах, где доступ к Hugging Face может быть медленнее или ограничен, ModelScope часто является первоочередным местом поиска. Многие модели отсюда позже появляются на Hugging Face, но часть остаётся эксклюзивной для ModelScope на время.
OpenRouter#
OpenRouter — это скорее слой доступа к моделям, чем традиционный хаб.
Вместо скачивания весов и собственного запуска моделей, OpenRouter позволяет:
- Получать доступ к множеству открытых и проприетарных моделей через единый API
- Сравнивать поведение, задержки и стоимость разных моделей
- Динамически маршрутизировать трафик между моделями
Это удобно для раннего прототипирования, A/B-тестирования и оценки моделей перед собственным развёртыванием. Однако это не заменит владение собственным inference-стеком, если вам нужен жёсткий контроль над производительностью, данными и затратами в масштабе.
Дополнительные ресурсы#
- Model composition
- The Complete Guide to DeepSeek Models: From V3 to R1 and Beyond
- The Best Open-Source Small Language Models (SLMs) in 2026
- A Guide to Open-Source Image Generation Models
- A Guide to Open-Source Embedding Models
- Multimodal AI: A Guide to Open-Source Vision Language Models
- Exploring the World of Open-Source Text-to-Speech Models
