AI-инструменты в проектной работе

Как мы используем AI не только через веб-чат: модели, агенты, локальные установки и зачем каждое

15 мая 2026 г.

Разбираем, чем отличаются веб-чат, API, CLI, агенты, локальные модели и генераторы изображений, и зачем каждый инструмент нужен в реальном ландшафтном проекте.

Как мы используем AI не только через веб-чат: модели, агенты, локальные установки и зачем каждое

Большинство людей знакомятся с AI одним способом: открывают ChatGPT, Claude или Gemini в браузере, вводят вопрос, получают ответ. Это работает. Мы тоже так делаем - для быстрых вещей вроде определения, формулировки или перевода.

Но вкладка с чатом - это один из входов в гораздо больший набор инструментов. За ней стоят агенты, которые работают с вашими файлами, локальные модели, которые не отправляют данные никуда, генераторы изображений, модели с поддержкой фото, терминальные интерфейсы, программный доступ, навыки, которые можно использовать снова, вспомогательные подагенты, стандартные способы подключить инструменты. Ничего из этого не видно, если вы используете только чат.

Мы интегрируем AI в реальные ландшафтные проекты с 2024 года - на участках от одной сотки до трех гектаров, в России, Европе и ОАЭ. Именно настройка за пределами чата сделала AI полезным для серьезной проектной работы. Это карта этой настройки, простыми словами.

Разные инструменты для разных задач. В этом весь смысл.

Модель и интерфейс - две разные вещи

Люди постоянно их путают, и из-за этого все остальное становится непонятным.

Модель - это обученная система, которая выполняет работу: GPT, Claude, Gemini, Qwen, Gemma, Llama. Разные семейства, разные сильные стороны. Модель - это одно.

Интерфейс - это то, как вы с этой моделью разговариваете. Веб-чат - один вариант. Десктопное приложение - другой. Терминал (CLI) - третий. Плагин для IDE - четвертый. Прямой вызов API из вашего кода - пятый.

Одна модель, разные интерфейсы. Claude в веб-приложении - это тот же Claude, что и Claude Code в терминале. Модель не меняется. Меняется то, что вы можете у нее попросить и к чему она может получить доступ.

Еще один вопрос, который стоит держать отдельно: где модель реально работает - на чужих серверах (облако) или на вашей машине (локально). Это другой вопрос, не связанный с “какая модель” и “какой интерфейс”, и это следующий раздел.

Большинство споров “какой AI лучше” на самом деле споры об интерфейсе или о том, где модель запущена, а не о самой модели.

Первая реальная развилка: локально или в облаке

Здесь начинаются практические выборы.

Облако - модель работает на чужих серверах. Вы отправляете данные, они возвращают результат. ChatGPT, Claude, Gemini, Qwen через Model Studio. Не нужно железо, доступны самые сильные модели, но ваши данные покидают вашу машину.

Локально - вы скачиваете веса модели и запускаете их на своей видеокарте. Данные остаются у вас. Вы контролируете все. Но нужно железо, и нужно все настроить.

Топовые облачные модели все еще впереди того, что можно запустить локально, но разрыв на рутинных задачах сократился настолько, что локальный запуск стал реальным вариантом для серьезной работы, а не просто хобби.

Мы используем оба варианта, в зависимости от задачи.

Локально для: приватных проектных материалов, которые мы не хотим пропускать через сторонние сервисы - фото дома, планы участка, бриф владельца, бюджеты; рутинной сортировки, индексации, суммаризации; повторяющейся работы, которая сожрала бы облачную квоту; всего, где нам нужен полный контроль.

Облако для: тяжелого мультимодального рассуждения, с которым локальная модель не справится; разовых вопросов, где настройка избыточна; задач, где данные общие или анонимизированы; функций вроде очень длинного контекста или новейших сборок с поддержкой фото, до которых локальные версии еще не дошли.

Мы запускали локальные модели на железе от 5060 Ti до 4090, модифицированной до 48 ГБ VRAM (стоковая 4090 идет с 24 ГБ; апгрейд VRAM - известная процедура в энтузиастских и студийных кругах). Qwen, Gemma, gpt-oss, включая сборки с поддержкой фото через vLLM. Некоторые впечатлили. Некоторые удивили тем, что оказались заметно хуже на реальных фото участков, чем предполагала карточка модели. Разрыв между “поддерживает фото” и “полезна на реальных фото участков” может быть широким.

Подписка, API и CLI - разные оси, часто путаются

Это раздел, где большинство людей запутываются, потому что три разные вещи обсуждаются так, будто это одно.

Подписка - это модель оплаты: вы платите фиксированную месячную сумму ($20-200) и получаете квоту использования модели - обычно через веб-чат, десктоп, мобильное приложение и (для новых подписок) доступ через CLI. Вы платите за время, а не за использование.

API - это способ программного доступа: ваш код отправляет запрос, модель возвращает ответ, вы платите за использованные токены. Полезно, когда вы хотите автоматизировать, обработать много запросов или построить что-то поверх.

CLI - это интерфейс: терминальная программа, с которой вы разговариваете на обычном языке, которая может читать вашу файловую систему, выполнять команды и вызывать инструменты от вашего имени. Claude Code, Codex CLI, Gemini CLI.

Эти три вещи находятся на разных осях. CLI может использовать облачную модель через подписку, ту же облачную модель через API-токены или локальную модель, работающую на вашей машине. Один интерфейс, разные комбинации под капотом.

Для большинства людей практический вопрос не “подписка или API” - а “нужна ли мне автоматизация”. Если вы вводите один и тот же вопрос в чат в десятый раз, вам, вероятно, нужен либо навык (внутри CLI-агента), либо небольшой API-скрипт. Если вы хотите, чтобы агент работал с файлами, вам нужен CLI. Как платить - зависит от того, что вы делаете.

Что реально делает агент: вызов инструментов, навыки, подагенты, MCP

Это слой, который превращает AI из болтливой поисковой системы в рабочий инструмент.

Вызов инструментов - это базовая механика. Обычная языковая модель принимает текст, выдает текст. Модель с вызовом инструментов может дополнительно попросить систему что-то сделать - прочитать файл, показать содержимое папки, выполнить поиск, получить строку из базы данных, вызвать внешний API. Без вызова инструментов даже самая сильная модель не может ничего сделать, кроме как отвечать.

Агент - это модель с вызовом инструментов плюс цикл. Вы даете ему задачу на обычном языке. Он выбирает инструменты, использует их, проверяет результат, корректирует, повторяет, пока не закончит или не застрянет. Claude Code, Codex CLI и Gemini CLI работают с вашими файлами и командной оболочкой.

Навыки - это специализированные инструкции для агента, которые можно использовать снова. Вместо того чтобы каждый раз вставлять один и тот же длинный промпт, когда вам нужен код-ревью, проверка голоса или индекс фото, вы пишете один SKILL.md, и агент вызывает его, когда это уместно. По состоянию на 2026 год Claude Code, Codex, Gemini CLI и несколько IDE используют совместимый формат SKILL.md - один и тот же файл навыка работает в разных инструментах. Мы используем навыки для редакционной очистки, проверки источников, проверки голоса, индексации фото. Навык - это единица “мы всегда делаем это одинаково”.

Подагенты - это вспомогательные агенты, которых основной агент порождает для частей задачи. Каждый подагент получает свое окно контекста, свои разрешенные инструменты, иногда другую модель. Пока основной агент думает об общей структуре, один подагент параллельно выполняет поиск, другой проверяет факты в черновике, третий форматирует вывод. Они возвращают результат. Основной агент координирует.

MCP (Model Context Protocol) - это стандартный протокол связи между моделями и внешними инструментами. Вместо того чтобы каждый инструмент изобретал свою интеграцию, MCP определяет один протокол, на котором говорят все - Anthropic, OpenAI, Google, основные фреймворки. Вы подключаете MCP-сервер (для вашей файловой системы, календаря, базы дизайна, библиотеки изображений, чего угодно), и любой агент с поддержкой MCP может его использовать. По состоянию на 2026 год это фактически стандартный слой интеграции.

Ничего из этого не требует написания кода. Агент получает задачи на обычном языке. Нужна ясность в том, что вы хотите и к чему агенту разрешено прикасаться. Качество результата зависит гораздо больше от того, как описана задача, чем от того, какая топовая модель работает.

Разные модели для разных задач

Нет одной модели, которая делает все хорошо. Попытка заставить одну модель обрабатывать текст, фото, генерацию изображений и операции с папками - это классическая начальная ошибка.

Языковые модели читают и пишут текст. Брифы, саммари, противоречия в заметках, вопросы, черновики, переписка. Большинство современных моделей справляются с этим нормально.

Модели с поддержкой фото. Модели, которые читают изображения как часть разговора, а не только текст. Суффикс “VL” - это в основном то, что вы видите в названиях локальных моделей, например qwen3-vl, используется для обозначения, что эта конкретная сборка обрабатывает изображения, а не только текст. С облачными передовыми моделями обычно не нужно об этом думать: ChatGPT, Claude, Gemini работают с изображениями уже давно. Но это не автоматически - DeepSeek V4, например, только текстовая. Так что способность модели “видеть” - это свойство конкретной сборки, а не вопрос облако или локально.

После выезда на участок у нас есть фото: дом, забор, деревья, въезд, сырые места, узкие проходы, строительный мусор. Модель с поддержкой фото может описать, что в кадре - где дом и вход, в каком состоянии забор, где есть перепады высот - полезно для первого просмотра папки. Не замена выезду на место.

Генераторы изображений создают новые картинки из текстовых промптов. Они не читают существующие фото; они изобретают визуальные гипотезы. Полезны для настроения, плотности посадок, материалов дорожек, формы террасы. Сгенерированное изображение - это не проект - модель с радостью поставит дорожку через технический доступ, разместит бассейн на главном маршруте, уберет существующее дерево, потому что оно испортило композицию, придумает плоский газон там, где на участке уклон и стоячая вода. Относитесь к выводам как к визуальным идеям, с которыми можно поспорить, а не как к решениям.

Мультимодальные модели объединяют некоторые из вышеперечисленного. Последние варианты ChatGPT, Claude и Gemini обрабатывают текст, фото, а иногда и генерацию в одной модели. Качество в разных режимах неравномерное - модель может быть отличной в тексте и только нормальной в изображениях, или наоборот.

Модель с поддержкой фото и генератор изображений - это не один инструмент. Первые читают; вторые создают. Они не заменяют друг друга.

Что реально можно запустить локально

Снимок на май 2026 года. Это самый изменчивый раздел в статье.

Для локальной работы VRAM на видеокарте важнее, чем название модели.

8-16 ГБ VRAM - только маленькие модели (7B-20B параметров). Простые текстовые задачи. Текущий пример: gpt-oss-20b, разработанная OpenAI для локальных сценариев и работы на устройстве, требует около 16 ГБ.
24 ГБ VRAM - практичная локальная зона. Qwen3.6 27B, Gemma 4 26B, некоторые сборки 31B-35B в квантованной форме. Текст работает хорошо; поддержка фото зависит от сборки.
32 ГБ VRAM - комфортно. Более длинный контекст, более плавная работа агента, место для некоторых мультимодальных сценариев.
80 ГБ VRAM - территория рабочих станций/серверов. gpt-oss-120b помещается сюда. Не потребительский ноутбук.

Инструменты, которые запускают локальные модели:

Ollama - самый простой старт;
LM Studio - графический интерфейс, дружелюбный;
llama.cpp, vLLM - более технические, больше контроля.

Семейства моделей, с которыми мы работали:

Qwen3.6. Облачная версия qwen3.6-plus сильная: длинный контекст, поддержка изображений и видео, вызов функций, структурированный вывод. Открытые сборки 27B работают на карте 24 ГБ (Ollama указывает их около 17 ГБ); варианты 35B-A3B попадают в диапазон 22-24 ГБ в зависимости от квантования.

Gemma 4. Открытое семейство Google. Легковесные E2B/E4B для слабого железа и простых задач; 26B и 31B для серьезной локальной работы. Ollama указывает 26B/31B примерно на 18-20 ГБ с поддержкой текста и изображений.

gpt-oss. Открытые релизы OpenAI. gpt-oss-20b - это модель рассуждения с поддержкой вызова инструментов в доступном локальном диапазоне. gpt-oss-120b эффективно работает на одной видеокарте 80 ГБ по данным OpenAI.

Мы бы не покупали железо, не зная, какие задачи реально повторяются в вашем рабочем процессе. Понаблюдайте, что вы делаете снова и снова в чате несколько недель - если это рутина и приватно, это кандидат на перенос локально.

Генерация изображений: где ее найти

По состоянию на середину 2026 года генерацию изображений можно получить примерно четырьмя способами.

Встроена в облачные сервисы. ChatGPT, Gemini и Claude могут генерировать изображения прямо в чате. Google предлагает NanoBanana 2 и Imagen 4 через приложение Gemini, AI Studio и Vertex AI. OpenAI имеет GPT Image 1.5 и GPT Image 2. Китайские сервисы запускают Kling 3.0, Wan 2.7, Seedream. Качество варьируется; удобство непревзойденное - вы уже в чате.

Отдельные провайдеры. Midjourney, Higgsfield и другие, сфокусированные специально на изображениях и видео. Больше контроля, больше опций, более специализированные рабочие процессы.

Специализированные дизайнерские инструменты. Сервисы, которые оборачивают облачные модели генерации предварительно настроенными промптами и стилями для узкой области - ландшафт, интерьер, архитектура. Под капотом нет собственной генерации - они вызывают базовые модели от OpenAI, Google, xAI и других, с доменно-специфичным слоем поверх. Один пример - app.charmonye.com - инструмент, который мы построили для нашей собственной ландшафтной работы и используем каждый день; под капотом он вызывает несколько базовых моделей (ChatGPT, Google, Grok) в зависимости от задачи. Удобно, когда пресет инструмента совпадает с тем, что вам реально нужно.

Локальная генерация. Flux.2 лидирует по фотореализму; Stable Diffusion 3.5 имеет самое большое сообщество кастомных моделей и стилей. Оба работают через ComfyUI или Forge. Вход от 8 ГБ VRAM, комфортно от 16 ГБ. HunyuanImage 3.0 от Tencent - открытый исходный код. Полный контроль, данные не покидают вашу машину, настройка на вас.

Как это работает в реальном проекте

После выезда на участок в папке обычно есть фото, бриф владельца, замеры, заметки, первые визуальные проверки AI.

Локальный агент обрабатывает рутину приватно: строит структуру папок, перечисляет и описывает материалы, составляет индекс фото, вытаскивает вопросы из брифа, находит противоречия в заметках, готовит README, разделяет факты от гипотез.

Что мы отправляем в облачную модель: более тяжелый анализ фото, сравнение нескольких изображений, длинные папки документов, вопросы, которые требуют аккуратного соединения текста, фото и ограничений.

Обычно работаем смешанно. Сначала сортируем папку локально, готовим обезличенную сводку, затем отправляем только нужный фрагмент в облако - несколько выбранных фото, краткий контекст, конкретный вопрос. Не “проанализируй проект”, а: “Вот фото зоны забора и краткое описание ограничений. Не придумывай проект. Опиши, какие элементы на фото могут повлиять на будущую дорожку и посадки. Отдельно отметь, где ты не уверен”.

Наша позиция: AI - это не источник финальных ответов. Это инструмент для внимательного разговора с материалом.

Чего мы не ожидаем от AI

Локальная модель - это не дизайнер.

Модель с поддержкой фото - это не измеритель. Она угадывает размеры, иногда уверенно, иногда неправильно.

Генератор изображений - это не проектный документ. Он производит визуальные гипотезы для обсуждения, а не решения.

Облачный сервис - это не автоматически безопасно для приватных материалов. Это осознанное решение о том, какие данные покидают вашу машину и на каких условиях.

И любая конкретная рекомендация модели устареет через месяцы. Что остается - это структура: где работает модель, как вы платите, как вы взаимодействуете, какой тип модели подходит для какой работы, и какие агентные возможности находятся поверх.

Суть

Интересная работа в AI сейчас - это не выбор самой сильной одной модели. Это выбор правильной комбинации интерфейса, места запуска и возможностей для задачи, которая у вас реально есть.

Работающая настройка обычно смешанная: локальный агент для рутинной приватной работы, облачная модель для того, что локально еще не может, генератор для визуальных гипотез, и человек, который все это проверяет.

Веб-чат нормальный. Это просто один из многих инструментов. Остальной инструментарий - это то, что делает разницу между AI как поисковой системой, которая отвечает, и AI как рабочей частью проекта.

Понравилась статья? Поделитесь ей или обсудите с нами.

Связаться с нами