Сообщество - Лига программистов

Лига программистов

1 939 постов 11 763 подписчика

Популярные теги в сообществе:

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных

Извлечение признаков (feature extraction) из текстов — ключевой шаг при анализе документов: он является основной практической частью таких задач по обработке данных, как классификация, тематическое моделирование, NER, QA. Если раньше почти что для каждой из таких задач, и в особенности для разных модальностей данных использовались специализированные архитектуры нейронных сетей, то сейчас подобные системы обычно строятся вокруг LLM/VLM. Однако и современные модели на практике настраиваются под конкретные задачи через fine‑tuning или distillation, в связке с retrieval (RAG) и агентскими архитектурами.

В этой статье я рассматриваю свой опыт проектирования и разработки агентов для выполнения feature-extraction. При наличии мультимодальных данных с разнородной структурой - тексты, PDF, изображения - мне приходится извлекать нужные пользователю фрагменты информации. Для этого я перебрал различные подходы - в зависимости от сложности задачи - и теперь пора сравнить их эффективность и отметить сложности реализации.

Традиционный подход: LLM + RAG, которого уже не достаточно

Retrieval‑Augmented Generation (RAG) — тандем LLM и векторных баз для поиска релевантных фрагментов, вставляемых в контекст перед генерацией, который обрел популярность в последние год-полтора благодаря нескольким безусловным преимуществам.

Этот подход позволяет использовать модели общего назначения на узкоспециализированных доменах без полного дообучения. Он и сейчас является самым надежным и дешевым способом снизить галлюцинации, даёт ссылки на документы и улучшает точность ответа. RAG используется в цепочке следующих логических шагов, через которые проходят данные в системе: векторизация → recall → prompt → LLM → извлечение структурированных данных.

Теперь о минусах RAG. Описанная методика только дополняет контекст модели релевантными данными, но не повышает способность самой LLM к извлечению нужных признаков. Эта способность зависит от того, каким задачам и на каких данных модель была обучена. К тому же RAG добавляет несколько архитектурных и прикладных сложностей - пайплайн с векторной базой, embedding, поиск по индексу, чанкинг данных, который может быть нетривиальным процессом с применением различных методик (таких как Semantic Chunking).

Сейчас контекстное окно модели позволяет вместить намного больше данных, чем раньше - взять хотя бы 1 млн токенов у Llama 4, так что необходимость в чанкинге и самом RAG уже не настолько острая. Есть, конечно, проблема понимания длинного контекста. Важно понимать, что при решении практических задач точность LLM может падать пропорционально длине контекста - на эту тему есть интересный бенчмарк:

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных Искусственный интеллект, ChatGPT, Openai, Программирование, Машинное обучение, Lora, Длиннопост

Разные модели имеют разные показатели long context understanding, как видно из таблицы выше. Их точность для определенных задач можно увеличить двумя способами - SFT-файнтюнингом на размеченных данных и дистилляцией - передачей знаний от более сильной модели.

Fine‑tuning: точечное улучшение LLM

Файнтюнинг изначально был менее доступен, чем RAG - во-первых, он требует понимания того, как работает оптимизация весов большой языковой модели-трансформера (если мы не говорим про файнтюнинг каких-то других архитектур нейросетей). Во-вторых, он требует набора данных (как правило, размеченных, если мы говорим про Supervised Fine-Tuning), и в третьих, он требует вычислительных мощностей, таких как GPU-кластер.

В результате файнтюнинг позволяет настроить веса модели под конкретные инструкции, задачи, формат данных, что значительно повышает точность модели в определенном специализированном домене.

На своем опыте я сделал следующий вывод: файнтюнинг необходим для разработки агентов, особенно в области feature-extraction задач, это очень эффективная практика, которая должна быть взята на вооружение разработчиками, так как она закрывает недостатки RAG и служит необходимым компонентом прикладных ИИ систем. Перечисленные выше трудности файнтюнинга тоже постепенно решаются - во-первых, облачные провайдеры делают доступными вычислительные мощности. В моих статьях и видео достаточно гайдов по использованию облака для файнтюнинга. Чтобы экономить на GPU, по-прежнему остается актуальной методика Low-Rank Adaptation (LoRA), хотя во многих случаях и полный файнтюнинг, который модифицирует веса модели полностью, тоже возможен и оправдан. Ведь для узко специализированной задачи может быть достаточно обучить модель на совсем небольшом наборе данных - 100-500 примеров.

Динамическая квантизация в сочетании с LoRA (QLoRA) позволяет еще сильнее сократить расход видеопамяти и время обучения модели.

В целом SFT-файнтюнинг можно разделить на следующие шаги: подготовка датасета → формирование train и validation наборов → обучение → оценка. В моем последнем видео я "начал с конца" и разобрал прикладные аспекты оценки (evaluation) при разработке агентских систем. Лишь недавно я обратил внимание на библиотеки для evaluation, такие как openevals в экосистеме Langchain/Langsmith, о которых в знал и раньше, но обходился простым скриптингом. Для тех, кто только начинает знакомство с evals, будет полезен мой ноутбук с экспериментами на Langchain/Langsmith и openevals.

При подготовке данных для feature extraction важно выбрать итоговый формат данных, который будет понятен и человеку, и LLM. При небольшом объеме данных самое важное - качественные примеры ответов (output), которые готовятся обычно человеком, вручную. Это особенно актуально для специализированных случаев feature-extraction - например, если вы разрабатываете систему, которая будет читать технические спецификации изделий, товарные коды и тому подобные типы данных. Для составления такого датасета придется привлекать человека с профессиональными знаниями в соответствующем домене. А для LLM чем проще выходной формат данных, тем меньше вероятность галлюцинаций. Поэтому я руководствуюсь тремя принципами -

1. Не усложнять выходной формат данных применением, например, JSON или XML - простого текста в большинстве случаев достаточно;

2. Выполнять feature-extraction из минимальной единицы входных данных за одну генерацию. Это может быть одна PDF-страница, изображение, параграф текста;

3. Использовать Chain-of-Thoughts для валидации процесса извлечения.

Само обучение, как ни странно, вызывает меньше всего проблем - используйте готовые средства обучения библиотеки transformers или API OpenAI, контролируйте качество чекпоинтов, своевременно используя evaluation, и следите за оверфиттингом.

Distillation: перенос знания

Distillation — это обучение компактных или более слабых моделей на основе поведения более сильной LLM‑«учителя». Это еще один способ повысить качество модели, часто менее затратный, чем SFT-файнтюнинг - достаточно просто сгенерировать датасет с помощью модели-учителя, без участия человека.

Отличным практическим примером перечисленных методик может послужить исследование технологического института Джорджии, опубликованное в январе 2025.

Авторами была реализована следующая архитектура:

DistilBERT + fine‑tuning на 10 000 документов → компактная модель с эффективным временем обучения (4–9 ч на ПК) с 97% качества модели-родителя. Пайплайн извлечения признаков включал следующие шаги:

Как я разрабатываю агентские ИИ системы для извлечения признаков (feature-extraction) из мультимодальных данных Искусственный интеллект, ChatGPT, Openai, Программирование, Машинное обучение, Lora, Длиннопост
  • Сэмплинг 10k примеров из тестового корпуса (объявления вакансий) с целью извлечения признаков.

  • Разбивка на чанки с применением Semantic Chunking

  • Генерация ground‑truth с помощью LLM (Gemini).

  • Файнтюнинг DistilBERT - небольшой модели с архитектурой раннего трансформера, которая получена путем дистилляции знаний модели BERT. Дистилляция позволяет сохранить 97% процентов качества, при размере на 40% меньше, чем у исходной модели BERT

  • Prediction - извлечение признаков.

Логично предположить, что рассмотренные в этой статье методики извлечения признаков из документов можно и нужно комбинировать.

RAG — поиск релевантных фрагментов, Fine‑tuning для улучшения и стабилизации ответов модели, и Distillation в эффективной агентской системе дополняется промпт-инжинирингом и CoT, Chain‑of‑thoughts, для самовалидации системой извлеченной информации и ее автоматического итеративного приближения к ожидаемому результату.

Показать полностью 2

Как правильно начать вайбкодинг-проект с нуля?

Как правильно начать вайбкодинг-проект с нуля? Программирование, Чат-бот, Программа, Тестирование

Если вы решили вайбкодить новый проект, то самым первым шагом должен стать PRD (Product Requirements Document).

Что такое PRD?

По сути это краткая, но очень точная суть вашего проекта. В ней описано, на чём проект будет написан, какие задачи он решает, какие разделы в нём будут, а также как примерно выглядит архитектура.

После PRD хорошо бы сразу создать ещё два документа:

* tasks.txt — детализация задач вашего проекта. Этот файл может меняться и дополняться в процессе работы: сделали текущие задачи → придумали новые → обновили файл.

* docs.txt— более техническая документация, которая пишется параллельно реализации задач. Она не обязательна для маленьких проектов, поэтому подробнее о ней поговорим в следующем посте.

Сам PRD обычно остаётся стабильным и только иногда дополняется новыми деталями. Но как его правильно и быстро сделать?

📌 Два простых способа создать PRD:

1) Использовать мощные размышляющие LLM (GPT, Claude или Gemini)

Скажите модели, что вам нужен подробный PRD. Опишите проект настолько детально, насколько можете: знаете технологический стек — напишите его, есть мысли по архитектуре — отлично. Нет технических знаний, но есть чёткая суть и задачи — просто опишите это своими словами. Можно даже голосом.

Самый простой рабочий промпт примерно такой:

«Ты одновременно продакт и архитектор приложений с 20-летним стажем. Твоя задача — создать для меня подробный PRD для моего проекта. Я расскажу про проект, после чего ты можешь задать мне 3-5 уточняющих вопросов и затем создать PRD для разработки. Итак, я хочу создать...»

2) Использовать специализированные сервисы типа codeguide.dev

Это уже платный вариант (29 долларов), и интерфейс пока только на английском. Но взамен вы получите:

* Готовый PRD;

* Frontend Guidelines;

* App Flow и Tech Stack документы.

* и много другое

Для небольших проектов этот подход не обязателен, а вот сам PRD нужен всегда.

📌 Как быстро получить PRD, если проект уже есть?

Если ваш проект уже существует, будет удобно получить PRD через Codex, Gemini (обычный, не через aistudio, так как там можно подгрузить репозиторий при наличии подписки) или Traicer — они могут самостоятельно спарсить и проанализировать весь ваш код.

Если это не подходит, используйте сервис repomix.com — он превращает весь репозиторий в один текстовый документ, который легко скормить любой модели с большим контекстом (длинной «памятью»).

📌 Как использовать PRD в работе с ИИ-агентами?

Когда стартуете проект (или даже просто начинаете новый чат с ИИ-агентом), всегда первым сообщением отправляйте ему PRD, а также tasks.md и docs.md (если они есть). Попросите агента сделать краткое summary проекта, прежде чем он приступит к работе.

Это работает в любых популярных средах и редакторах:

* Cursor / Windsurf / Claude Code;

* Lovable / Bolt / Replit (добавляете PRD первым сообщением).

Это сделает вашу работу с ИИ гораздо эффективнее и прозрачнее, ну или он в случае проекта с нуля просто начнёт делать ваш проект, использовав PRD в качестве отправной точки.

--


Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью

Как про*бать клиентов

Как про*бать клиентов Опыт, Личный опыт, IT, Разработка, Эффективный менеджер, Стартап, Предпринимательство, Малый бизнес, Бизнес, Фриланс

Есть одна очень частая, но неочевидная ошибка в сервисных компаниях, которые поставляют ПО заказчикам.

«Я не очень в теме, давайте подключим к звонку нашего разработчика Олега».

И вот Олег, обычный разработчик, врывается в Zoom. Он просто умеет говорить складно и уверенно. На звонке — полный контакт: Олег легко находит общий язык с заказчиком, вместе что-то решают, правки согласовывают на лету. Все довольны, на первый взгляд.

А теперь к реальности.

Олегу не хочется сидеть ночами и делать сложные доработки. Поэтому он аккуратно направляет заказчика на “удобные” варианты. Подсказывает, как “сделать проще”. Где-то — сознательно занижает сложность. Где-то — отговаривает от идей.

И вы вроде бы заканчиваете проект. Даже в срок.

Но внутри — сырой продукт, с кучей компромиссов и недоговорённостей. Это не то, чем можно гордиться.

А заказчику, возможно, даже понравилось — он ведь не знает, как могло быть.

А теперь представь, что этот проект — ваше лицо.

Вы — не просто “закрыли задачу”. Вы оставили на рынке визитку с надписью: “У нас говёненько”. И если таких проектов 5–10 — клиенты потом даже не смогут вспомнить, зачем к вам обращаться. Репутация съедается молча

Интересно?

Такие ситуации я всё чаще вижу, общаясь с фаундерами и командами.
Поэтому делюсь опытом и кейсами в Telegram, но без фреймворков и терминов — на пальцах, по делу.

👉 Канал “Техдир на пальцах”, если интересно.

P.S. К Олегам — только уважение. Просто не стоит перекладывать на них то, за что должен отвечать менеджмент

Показать полностью 1

Считаете себя киноманом 80 LVL?

Залетайте проверить память и сообразительность → Будет интересно

1

Придумал новый челлендж



Смотрим что пушат в мастер и не осуждаем

Как я запускаю MVP за неделю вместо 3 месяцев: стек, который заменил команду разработчиков

Три месяца назад я бы потратил приличное количество денег на команду разработчиков для создания простого веб-приложения. Проект тянулся бы 4 месяца, бюджет бы всё время пересматривался, а в итоге — MVP, который никому не нужен или имеет огромные денежные вливания на рекламу, а ведь уже потрачено и так много денег на разработку.

Сегодня я собираю аналогичные MVP за неделю. Без команды. Без переплат. Только я, Cursor IDE и 4 сервиса, которые делают меня full-stack разработчиком.

Звучит как реклама курсов? Сейчас покажу конкретный стек с примерами.


Почему классическая разработка — это боль

Когда ты не фулстек-программист или вообще не программист (я вот вообще мобильный разработчик, но иногда хочется протестировать идею для Web приложения или сделать бэкэнд), но хочешь проверить бизнес-идею, сталкиваешься с классическими проблемами:

Красивый UI — Cursor создаёт рабочий код, но интерфейс оставляет желать лучшего (для более-менее сносного варианта нужны тонкие настройки и хороший промптинг)

Бэкенд — написать авторизацию и базу данных без опыта = месяцы изучения. В простых бэкендах нет особой сложности, но когда ты можешь его настроить за час, это меняет правила игры.

API-интеграции — подключить ChatGPT или Stripe через Cursor можно, но малейшая ошибка ломает всё. Однажды Cursor мне переписал половину приложения, чтобы добавить Stripe...

Деплой — загрузить готовое приложение в интернет превращается в квест

Я решил эти проблемы раз и навсегда. Теперь у меня есть стек, который позволяет за неделю создавать продукты, на которые раньше уходили месяцы.


Мой стек MVP за выходные

1. UI: Lovable.dev, V0 by Vercel или иные подобные ИИ-сервисы

Что решает: Cursor не умеет в красивый дизайн
Как работает: Загружаешь техническое задание, получаешь готовый интерфейс

Лайфхак: У каждого сервиса есть 5 бесплатных запросов. Кажется мало? При правильном промпте хватает 1-2 попыток. Пишу: «Создай дашборд для [описание продукта] в стиле Notion» — и получаю то, что нужно.

Секрет: Добавляю в промпт «Скопируй дизайн с сайта airbnb.com» — ИИ действительно копирует стиль и цветовую схему.

Мелкое корректирование или следование заложенному дизайну на новых экранах можно уже делать с помощью Cursor, так как, имея начальный контекст, Cursor уже намного лучше может писать код.

2. Backend: Supabase и аналоги

Что решает: Авторизация пользователей и база данных без написания кода
Как работает: Регистрируешься, создаёшь таблицы через интерфейс, получаешь готовые API

Пример: Для приложения заметок создал таблицу «notes» с полями user_id, title, content. Supabase автоматически генерирует API для создания, чтения, обновления записей.

Лайфхак: Cursor отлично понимает документацию Supabase. Просто пишешь «Подключи Supabase auth» — и через 5 минут у тебя работает регистрация через Google и email.

3. Логика и API: N8N

Что решает: Сложные интеграции с внешними сервисами без кода
Как работает: Визуальный конструктор, где ты соединяешь блоки как в Scratch

Реальный кейс: Создаю чат-бота для поддержки:

  1. Пользователь пишет в Telegram

  2. N8N отправляет запрос в ChatGPT

  3. Ответ идёт обратно в Telegram

  4. Параллельно сохраняется в Google Sheets

На это ушло 30 минут вместо недели программирования.

Секрет: В Coolify есть деплой N8N в один клик. Поднимаешь на своём сервере и интегрируешь с чем угодно.

4. Деплой: Vercel или Coolify

Что решает: Выкладывание приложения в интернет за минуты
Как работает: Подключаешь GitHub-репозиторий, нажимаешь кнопку — сайт онлайн

Vercel — для фронтенда, работает моментально
Coolify — для full-stack приложений, свой сервер, больше контроля


Реальный кейс: SaaS за выходные

Пятница вечер: Идея — сервис для автоматической генерации описаний товаров для интернет-магазинов

Суббота:
• 2 часа — создал интерфейс в Lovable.dev (форма загрузки фото + текстовый редактор) и после доработка в Cursor
• 1 час — настроил Supabase (регистрация, база описаний)
• 3 часа — собрал логику в N8N (фото → ChatGPT → готовое описание)

Воскресенье:
• 1 час — задеплоил на Vercel
• 2 часа — тестирование и фиксы

Итого: 9 часов вместо 2-3 недель, а может и месяцев разработки (Agile — страшная вещь, где сроки могут уплыть у большой команды ИТ-специалистов).


Ограничения такого стека

Этот стек не подходит для:
• Highload-проектов (миллионы пользователей)
• Сложной бизнес-логики (банки, биржи)
• Уникальных алгоритмов

Не стоит ожидать идеальный код и создания Amazon или Google за один вечер. Но для 90% MVP и micro-SaaS подходит идеально.


Сколько стоит

Lovable.dev — $20/месяц за 100 запросов в месяц (бесплатный тариф — 5 бесплатных запросов в день)
Supabase — до 50,000 запросов бесплатно, потом от $25/месяц
N8N — бесплатно на своём сервере (это просто огонь, если нужна отдельная статья про этот сервис, ставьте лайк и пишите комментарии)
Vercel — бесплатно для личных проектов

Итого: можно начать за $0, масштабировать за $45/месяц.

Вместо сотен тысяч на команду разработки продукта, который не факт что взлетит.


Этот стек уже помог мне сделать 5 рабочих MVP.

Хочешь узнать больше про запуск продуктов с ИИ? Подписывайся на мой телеграм-канал — делюсь кейсами, инструментами и результатами: t.me/ai_samurai_path

А какой ваш любимый инструмент для быстрого MVP? Пишите в комментариях!

Показать полностью
36
Лига программистов
Серия СВО

Такая работа

Между постами о развитии России, иногда хочется поделиться личными достижениями, ведь все же мое главное дело сейчас не "Сделано у нас", и 90% своего времени я трачу на задачи связанные со службой. И порой иногда удается сделать что-то, о чем хочется рассказать, и что скоро будет наводить ужас на врага.

Вообще, началось всё с довольно тривиальной задачи. Я давно хочу начать делать FPV дроны для сбросов. Но не для этих пукалок ВОГов, а для нормальных таких сбросов, по взрослому. И тут нам волонтеры подогнали 4 крупных FPV дрона. И делов-то - приладить туда камеру поворотную, чтобы вниз могла смотреть, и сброс на сервоприводе. Пустяки.

Такая работа FPV, Arduino, Программирование, Программист, Разработка, Длиннопост

Кратко расскажу как это вообще делается в принципе. Обычно у полетного контроллера (FC) есть 8 выводов для моторов, из них 4 занято, но целых 4 свободно, и на них можно повесить сервоприводы, переназначив туда пины контроллера. Тогда они начинают работать как ШИМ (Широтно-импульсная модуляция - регулирование основанное на подаче на электродвигатель импульсов напряжения с фиксированной амплитудой, но различной длительностью). Первым делом я так и сделал. Но оказалось не всё так просто.

Я хотел повесить это дело на трехпозиционный переключатель на пульте. У нас итак дефицит всяких кнопочек на пульте, и логично выглядело: шелк тумблер вниз - камера смотрит вниз - прицелились - щелк еще раз тумблер вниз - пошел сброс. Но это так не работает.

Во-первых, как оказалось, так реализовать нельзя, чтобы клац тумблером - работал один серво, клац второй раз - работает второй серво. Нифига, первый тоже работает при этом. Если два серво привязать к одному переключателю (в терминах FC это AUX), то на оба положения AUX реагируют оба серво.

Во-вторых, нельзя поменять направление серво. В моем случае получилось так, на верхнее положение мой сброс открыт, на нижнее он закрыт. А мне надо наоборот. И выход - физически переделать сброс, перевернув сервопривод. Там, кстати, на Гитхабе целое обсуждение этого поведения Betaflight, и в новой версии 4.6 они даже что-то исправили, но она пока не вышла. Да и делать это надо через smix reverce, а для этого... короче это не подходит, и все равно не решает проблему 1.

В-третьих, после долгих манипуляций FC просто сгорел нахрен. Вместе с ESC.

Я достал из своих запасов контроллер Mamba F405 MK2 - довольно популярный и качественный FC. Все припаял, захожу в CLI, ввожу resource и вижу... что у него только 4 пина под моторы, а не 8 как обычно. Свободных нет.

Такая работа FPV, Arduino, Программирование, Программист, Разработка, Длиннопост

Да где наша не пропадала, там есть 2 LED, подцепимся к ним... но это не работает, так как эти пины не связаны с таймером, и на них ШИМ не заводится.

Короче, оказалось что у Mamba вообще нет ни одного ШИМ выхода, серво там цеплять вообще не к чему. Точнее там есть CAM_CONTROL, но физически площадку на плате я так и не нашел, в распиновке она не указана. Да и один ШИМ не спасет отца русской демократии.

Вообще, я из-за невозможности реализовать это на одном AUX был готов уже сделать это на двух, один управляет камерой, другой сбросом. Но тут совсем облом, тут просто некуда прицепить серво. Тупик? Нет, конечно можно взять другой контроллер. Но ёпт, опять все 12 проводов моторов перепаивать? В ЛЛ мне выпишут анафему.

Короче, тут я вспомнил про Arduino. Это решало вообще все вопросы. Во-первых, ШИМ там 6 штук (ну то есть можно подключить 6 сервоприводов). Во-вторых, программно можно их заставить делать что угодно, работать как угодно и в любую сторону. И легко повесить их на один AUX.

Такая работа FPV, Arduino, Программирование, Программист, Разработка, Длиннопост

Вопрос в том, как из FC прочитать значение AUX из Arduino, чтобы узнать положение переключателя. И это оказалось довольно несложно. Я давно задумывался, что означает переключатель в первом столбце на вкладе "Порты" в Betafliht. Что за "Конфигурация и MSP" такая.

Такая работа FPV, Arduino, Программирование, Программист, Разработка, Длиннопост

Оказалось, что он нужен для того, чтобы на этом UART включить протокол MSP (MultiWii Serial Protocol). Он позволяет общаться с FC извне, многое о нем узнавать, и даже им управлять через стандартный порт UART.

У MSP есть команда MSP_RC (105) которая возвращает значения AUX. Его надо распарсить, и вытащить из него в моём случае значение AUX5. И дальше простая логика:

AUX5 = 1000...1400 - камера прямо - сброс закрыт

AUX5 = 1400...1800 - камера вниз - сброс закрыт

AUX5 = 1800...2000 - камера вниз - сброс отрыт

Такая работа FPV, Arduino, Программирование, Программист, Разработка, Длиннопост

Добавил контроль чексуммы, так как иногда приходит в ответ мусор. И сброс может, упс, и открыться просто так, хотя ты ничего не нажимал. Потом добавил еще проверку - сброс открывается только если пришло два одинаковых ответа подряд. Потом моя паранойя заставила добавить еще проверку, что перед открытием сброса была опущена камера - просто быстро клацнуть вниз переключателем - сброс не сработает.

Ну и, мне это всё так понравилось, что я еще и добавил вывод положений серво на экран в очки через OSD.

Применение Arduino открывает очень широкие возможности! Можно организовать любую логику работы нескольких серво, и даже можно реализовать управление дроном - через MSP можно управлять стиками, а значит наводить птичку. Понятно, что Arduino не потянет компьютерное зрение и распознавание целей, но для этого можно использовать уже что-то более мощное, Raspberry Pi, например, главное принцип, который мне теперь понятен.

А еще я на дроне реализовал переключение каналов видео-передатчика 1.2ГГц c пульта по нажатию кнопки, при том, что программное управление у этого видеопередатчика (через протоколы Trump или SmartAudio) не предусмотрено. Но это уже другая история.

И все таки, подписывайтесь на Телеграм «Сделано у нас» тут, а на сообщество на Пикабу можно подписаться здесь, это умиротворит мою душу, и придаст мотивации в новых начинаниях на благо нашей Победы.

Показать полностью 5

Как одно расширение увеличило мою продуктивность с Cursor в 5 раз

Знакомо ли вам это чувство? Даёшь Cursor сложную задачу, а он использует всего 5 из 25 доступных инструментов, говорит "готово" и сваливает. А потом каждая мелкая правка — это новый запрос. И так твои драгоценные ~500 месячных запросов тают как мороженое на солнце.

Знакомьтесь: Review Gate V2 — разработка, которая заставляет ИИ работать до победного конца, добавляет голосовые команды и превращает одну сессию в полноценный марафон продуктивности.


💰 Математика боли: почему каждый запрос на вес золота

Давайте считать честно:

  • Cursor Pro — ~$20/месяц за 500 запросов

  • Один запрос ≈ $0.04

  • Недоиспользованный потенциал — до 20 упущенных инструментов на запрос

Стандартный сценарий:

  1. Просишь создать компонент → ИИ делает базовую версию (5 инструментов из 25)

  2. "Добавь валидацию" → новый запрос (-$0.04)

  3. "Оптимизируй код" → ещё запрос (-$0.04)

  4. "Добавь тесты" → и снова (-$0.04)

Итого: 4 запроса = $0.16 вместо одного глубокого за $0.04


🚀 Review Gate V2:

Представьте: ИИ больше не убегает после первого ответа. Вместо этого открывается popup с вопросом: "Что ещё нужно доделать, босс?"

🎤 Голосовое управление нового уровня

• Нажал микрофон → говоришь что нужно изменить → ИИ слышит и делает
Локальная обработка речи (Faster-Whisper AI) — никаких облаков, никаких утечек
• Работает на macOS безупречно, Windows поддерживается

📷 Визуальный контекст

• Перетащи скриншот ошибки прямо в popup
• Покажи макет интерфейса — ИИ поймёт что делать
• Поддержка PNG, JPG, GIF, WebP

🎯 Главная фишка: итеративная работа

Вместо цепочки: запрос → ответ → новый запрос → ответ
Получаешь: запрос → ответ → popup → уточнение → ещё работа → popup → доработка → готово

Результат: Один платный запрос = работа пяти обычных запросов


🛠️ Как это работает под капотом?

Review Gate V2 интегрируется через протокол MCP (Model Context Protocol) — стандарт взаимодействия с ИИ-системами.

Магия в 5 шагов:

  1. Ты: Даёшь задачу Cursor (1 запрос засчитан)

  2. ИИ: Выполняет основную работу

  3. Review Gate: Автоматически открывает popup "Что ещё нужно?"

  4. Ты: Говоришь/пишешь/показываешь что доработать

  5. ИИ: Продолжает работу БЕЗ нового запроса

Цикл повторяется, пока не напишешь TASK_COMPLETE


⚡ Установка за 2 минуты

Шаг 1: Автоматическая настройка

git clone https://github.com/LakshmanTurlapati/Review-Gate.git
cd Review-Gate/V2
./install.sh # для macOS

Шаг 2: Добавить правило в Cursor Скопировать содержимое ReviewGateV2.mdc в настройки Cursor → Rules

Готово! Теперь при каждой сложной задаче ИИ будет спрашивать разрешения перед завершением.


🎭 История успеха: как один репозиторий собрал 1400+ звёзд

Автор Review Gate, Lakshman Turlapati, создал V1 из личной боли — Cursor постоянно "недорабатывал" сложные задачи. После 100+ форков и тысяч скачиваний сообщество запросило:
• Голосовое управление ✅
• Поддержку изображений ✅
• Красивый интерфейс ✅
• Простую установку ✅

V2 — это ответ на каждую просьбу пользователей.


⚠️ Честные минусы

Экспериментальная технология — может сломаться при обновлениях Cursor
Windows поддержка не так хорошо оттестирована как macOS
Нужен Python + SoX для голосовых команд
Локальная обработка речи требует дополнительной памяти (не самая важная функция)


🔮 Будущее ИИ-разработки

Review Gate V2 показывает, куда движется индустрия:
Итеративное взаимодействие вместо одноразовых запросов
Мультимодальность — текст + голос + изображения
Экономия ресурсов через умную оркестрацию

Пока OpenAI берёт $20 за GPT Plus, а Anthropic дерёт $25 за Claude Pro, каждый сэкономленный запрос — деньги в кармане.


💡 Главный инсайт

Review Gate V2 — это не просто расширение. Это философия работы с ИИ:

"Не позволяй ИИ уходить, пока работа не сделана полностью."

В мире, где время разработчика стоит дорого, а запросы к ИИ ограничены, инструменты как Review Gate становятся не роскошью, а необходимостью.


🎯 Вывод: стоит ли попробовать?

Если вы:
• Используете Cursor для серьёзной разработки
• Часто упираетесь в лимит запросов
• Цените эффективность и экономию времени

То Review Gate V2 — мастхэв!

Установка занимает 2 минуты, а экономия — десятки долларов в месяц. В эпоху дорогого ИИ это не просто удобно, это стратегически важно.


🎯 Больше лайфхаков по ИИ

Если Review Gate V2 показался интересным, рекомендую мой Telegram-канал AI Samurai Path — там регулярно публикую проверенные лайфхаки по работе с ИИ.

Например, недавно разобрал: Cursor AI лайфхаки без дополнительных программ — как выжать максимум из редактора встроенными средствами.


А вы уже попробовали автоматизировать свои запросы к ИИ? Поделитесь в комментариях, какие инструменты используете для экономии токенов!

P.S. Если статья была полезна — ставьте лайк, а ссылку на Review Gate V2 найдёте в GitHub: LakshmanTurlapati/Review-Gate

Показать полностью
148

Лишь бы работало

Телеграм - Пиксель

Отличная работа, все прочитано!