Docker Model Runner: локальный ИИ без затрат на API | open-claw.su

Docker Model Runner (DMR) --- встроенный инструмент Docker Desktop для локального запуска языковых моделей. В отличие от облачных провайдеров, все данные остаются на вашем компьютере, а затраты на API --- нулевые.

Когда использовать DMR, а когда облако

Сценарий	Рекомендация
Максимальная приватность	DMR --- данные не покидают машину
Нулевые затраты	DMR --- только электричество
Лучшее качество ответов	Облако --- Claude Opus, GPT-5 по-прежнему сильнее
Работа офлайн	DMR --- после загрузки модели интернет не нужен
Слабое оборудование	Облако --- нет требований к GPU/RAM
Быстрая настройка	Облако --- достаточно API-ключа

Вывод: DMR отлично подходит для личного использования с упором на приватность, разработки и обучения. Для продакшн-задач, требующих максимального качества, облачные провайдеры пока сильнее.

Системные требования

Платформа	Требования
macOS	Apple Silicon (M1/M2/M3/M4)
Windows	NVIDIA GPU (драйвер 576.57+) или Qualcomm Adreno
Linux	CPU, NVIDIA (CUDA), AMD (ROCm) или Vulkan

Сколько нужно памяти

Размер модели	RAM	Для чего подойдёт
1—3B параметров	8 ГБ	Быстрые ответы, простые задачи
7—8B параметров	16 ГБ	Универсальный помощник, помощь с кодом
13B+ параметров	32 ГБ+	Сложные рассуждения, длинный контекст

Установка

Шаг 1. Docker Desktop 4.40+

Docker Model Runner требует Docker Desktop версии 4.40 или новее.

docker --version

Если версия старая --- обновите через docker.com/products/docker-desktop или:

# macOS через Homebrew
brew upgrade --cask docker

Шаг 2. Включение Model Runner

Откройте Docker Desktop
Перейдите в Settings (значок шестерёнки)
Features in development → Beta features
Включите Docker Model Runner
Нажмите Apply & restart

Или через CLI:

docker desktop enable model-runner --tcp 12434

Шаг 3. Проверка

docker model list

Если команда отработала без ошибок --- Model Runner активен.

Загрузка и тест модели

Тест модели

docker model pull ai/qwen2.5-coder
docker model run ai/qwen2.5-coder "Что такое рекурсия?"

Ответ должен появиться через 10—30 секунд (первый запуск --- загрузка модели в память).

Настройка OpenClaw

Укажите OpenClaw использовать локальную модель вместо облачного провайдера:

openclaw config set provider.name openai
openclaw config set provider.baseUrl http://model-runner.docker.internal/v1
openclaw config set provider.model ai/qwen2.5-coder
openclaw config set provider.apiKey "not-needed"

Примечание: model-runner.docker.internal --- специальное имя хоста, доступное внутри Docker. Если OpenClaw запущен вне Docker, используйте http://localhost:12434/v1.

Проверка

openclaw status

DMR vs Ollama

Оба инструмента запускают локальные модели, но подход разный.

Критерий	Docker Model Runner	Ollama
Установка	Встроен в Docker Desktop	Отдельное приложение
Управление ресурсами	Автоматическое (загрузка по запросу, выгрузка при простое)	Ручное
GPU-ускорение	Metal, CUDA, ROCm, Vulkan --- автоопределение	Metal, CUDA --- требует настройки
API	OpenAI-совместимый	Свой + OpenAI-совместимый
Движки инференса	llama.cpp, vLLM, Diffusers	llama.cpp
Для кого	Пользователи Docker Desktop	Все

Если Docker Desktop уже установлен --- DMR проще, потому что не требует отдельного приложения. Если Docker нет --- Ollama проще в установке.

Комбинирование с облаком

Можно использовать локальную модель для повседневных задач и переключаться на облако для сложных:

# Переключение на локальную модель
openclaw config set provider.baseUrl http://model-runner.docker.internal/v1
openclaw config set provider.model ai/qwen2.5-coder

# Переключение на облако
openclaw config set provider.baseUrl https://api.anthropic.com
openclaw config set provider.model claude-sonnet-4-20250514

Или используйте OpenRouter для автоматической маршрутизации между моделями.

Ограничения

Качество: локальные модели 7B—13B слабее Claude Opus и GPT-5 в сложных задачах
Контекст: обычно 4K—8K токенов (облачные модели --- 100K+)
Tool calls: не все локальные модели корректно работают с вызовами инструментов
Первый ответ: 10—30 секунд на загрузку модели в память
RAM: модель занимает 4—16 ГБ в памяти пока активна

Устранение неполадок

«Connection refused» --- убедитесь, что Docker Desktop запущен и Model Runner включён.

Медленные ответы --- проверьте доступную RAM. Если модель не помещается в память, она использует swap, что в разы медленнее. Попробуйте модель меньшего размера.

«Model not found» --- имя в конфиге OpenClaw должно совпадать с загруженной моделью:

docker model list

Высокое потребление памяти --- модели остаются загруженными для быстрых ответов. Для выгрузки:

docker model stop --all

Что дальше

Ollama: альтернативный способ локального запуска --- если нет Docker Desktop
Бесплатное использование OpenClaw --- все способы без оплаты
Модели и провайдеры --- сравнение облачных и локальных вариантов
Безопасность --- защита при любом способе развёртывания

Модель	Для чего	Команда
`ai/qwen2.5-coder`	Помощь с кодом (проверенная)	`docker model pull ai/qwen2.5-coder`
`ai/llama3.2`	Общение, универсальные задачи	`docker model pull ai/llama3.2`
`ai/mistral`	Быстрые ответы, баланс скорость/качество	`docker model pull ai/mistral`
`ai/gemma2`	Открытая модель Google	`docker model pull ai/gemma2`
`ai/deepseek-r1`	Продвинутые рассуждения	`docker model pull ai/deepseek-r1`