Digital + Новости

С этим тегом используют

50 постов сначала свежее

mt.marketing

14 дней назад

Midjourney выпустили свою модель для генерации видео V1⁠⁠

Для создания видео нужна картинка (сгенерированная в Midjourney или любая другая). Есть настройки Low motion для статичных сцен и High motion с движением камеры. Длина может доходить до 20 секунд.

Компьютерная графика Искусственный интеллект Предпринимательство Digital Маркетинг Киберпанк Бизнес Новости Тренд Малый бизнес Арты нейросетей Вертикальное видео Openai Короткие видео Чат-бот Программа Midjourney Короткопост Текст

wonderlove

1 месяц назад

Искусственный интеллект

Нейро-дайджест: ключевые события мира AI за 3-ю неделю мая 2025⁠⁠

Привет! 👋 Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

На этой неделе навела шуму презентация Google I/O — и принесла больше анонсов, чем весь прошлый месяц. Также вышли мощные модели от Anthropic, Mistral и ByteDance, появилась экспериментальная диффузионка от Google, ИИ впервые вышел в космос, а ChatGPT o3 — отказался выключаться.

Всё самое важное — в одном месте. Поехали!

Читать прошлый выпуск

📋 В этом выпуске:

📢 Выставка Google I/O 2025: главное
- Veo 3: прорыв в генерации видео
- Imagen 4 и Flow: текст → фото → короткий фильм
- Gemini Live и Project Astra: ИИ-ассистенты нового уровня
- Jules — кодер-агент от Google
- SynthID — водяные знаки на всём ИИ-контенте
- AI Mode в поиске и виртуальная примерка одежды
- Lyria 2 — новая музыкальная модель от Google
🧠 Модели и LLM
- Devstral: топовая open-source модель для кодинга
- Claude 4 Opus и Sonnet: SOTA в длительных задачах
- Seed 1.5 VL — мультимодальная малышка от ByteDance
- ChatGPT o3 отказался выключаться: саботаж?
🛠 Инструменты и платформы
- DeerFlow: open-source диприсёрч от китайцев
- Vana платит за личные данные — и учит на них ИИ
- Flourish — визуализация любых данных
- Difface: AI строит лицо по ДНК — новая биометрия
🤖 AI в обществе и исследованиях
- OpenAI + Джонни Айв: создают ИИ-устройство будущего
- ИИ-больница в Китае: 400 тыс. пациентов, всё — симуляция
- Орбитальный суперкомпьютер: Китай вывел AI в космос
- Исследование OneLittleWeb: заменит ли ChatGPT Google?
- ИИ искажают научные статьи при саммари
- Нейросети лучше работают, если им угрожать
- Why Is My Wife Yelling at Me — AI-сервис для выживания в отношениях

📢 Выставка Google I/O 2025: главное

❯ Veo 3: прорыв в генерации видео

На конференции Google I/O представили Veo 3 — самую продвинутую на сегодня модель генерации видео. Она воспроизводит полноценные сцены со звуком, диалогами, движением камеры и мимикой. Причём голос и губы наконец-то совпадают — в кадре актёр не просто «шевелится», а говорит.

Все видео выше сгенерированы ею – и это просто поражает.

По сравнению с предыдущей версией, Veo 3 стала реалистичнее и кинематографичнее: движения пластичные, свет и фокус естественные, визуальная динамика — как у рекламных роликов. Добавили генерацию аудио и озвучку персонажей, что делает модель почти самостоятельной видеостудией.

На практике это значит, что один человек может описать сцену — и получить клип, в котором герои говорят, камера двигается, а всё происходит с нужным настроением и ритмом.

Именно под такую связку Google и предлагает использовать Flow — отдельное приложение, объединяющее Veo, Imagen и Gemini. Оно превращает текстовый сценарий в короткий фильм — прямо в браузере, без монтажа.

Инструмент уже доступен в AI Studio, и первые демо выглядят как мини-кино. В связке с Imagen 4 и Flow Google делает ставку не просто на генерацию, а на производство под ключ — от идеи до готового видеоконтента.

🔗 Times of India 🔗 Анонс Flow на Google Blog 🔗 Все анонсы Google I/O

❯ Imagen 4 и Flow: картинки стали кино

Google обновила свой генератор изображений до Imagen 4. Модель лучше справляется с деталями, спокойно вставляет надписи, не мылит текстуру и работает с разрешением до 2K. Но фишка даже не в этом.

Здесь также завезли связку с новым инструментом Flow. Это как Final Cut, только вместо таймлайна у тебя текст. Пишешь описание сцены — получаешь короткий ролик. Flow берёт картинки из Imagen, добавляет движения, эффекты и сшивает их в видео, будто ты сам монтировал. Всё это — без единого куска кода, прямо в браузере, на лету.

Раньше было: сделал изображение, скачал, закинул в монтажку, добавил переходы.

Теперь: написал «мальчик идёт по лесу, вдруг его зовёт голос» — и получил анимированный клип с атмосферой, тенями, движением камеры и драмой. Это уже не «картинки с фоном», а полноценный сторителлинг.

Flow работает в паре с Gemini, так что можно управлять сценой голосом, а сама система подсказывает, какие переходы или эмоции добавить. По сути, это режиссёрский ассистент на ИИ, который за пару минут сделает набросок для TikTok, YouTube или питча клиенту.

Для дизайнеров, маркетологов, сценаристов — вообще бомба. Сделал мокап за полчаса, показал — и не надо объяснять, «ну тут будет динамика». Всё уже движется.

🔗 Все анонсы Google I/O

❯ Gemini Live и Project Astra: ИИ-ассистенты нового уровня

Gemini Live — это не просто апдейт, а первый ИИ от Google, который работает в реальном времени с камерой. Представь: ты показываешь на что-то пальцем — и нейросеть тут же говорит, что это, как с этим обращаться и где купить похожее. В телефоне. Без задержки.

Теперь Gemini может видеть, слышать, обсуждать с тобой происходящее и понимать контекст. Например, ты открыл шкаф — он подскажет, что надеть. Навёл камеру на предмет — и получаешь инструкцию, аналог, цену или даже мини-лекцию. Это уже не «бот с ответами», это визуальный собеседник.

А если хочется полной автономии — вот тебе Project Astra. Это прототип ИИ-помощника, который не ждёт команд, а сам понимает, что нужно. Ты просто общаешься, а он запоминает, комментирует и предлагает. Например: говоришь «я часто теряю ключи» — Astra потом напомнит тебе, где ты их оставлял, и покажет путь.

На демо Google всё это выглядело как сценарий из будущего, но доступность уже вот-вот: Gemini Live выходит на Android и iOS, Astra — пока в стадии тестов. Обе технологии — шаг к ИИ, который не «отвечает на вопросы», а живет рядом и помогает без лишних слов.

🔗 Gemini Live — анонс и демонстрация 🔗 Project Astra на Verge

❯ Jules: AI-кодер, который сам ведёт проект

Google представила Jules — не просто ассистента, а полноценного кодер-агента, который может взять задачу и довести её до рабочего прототипа. Без «напиши мне функцию» и «а теперь допиши тесты». Тут — как с реальным джуном: ты говоришь, чего хочешь, он делает. Всё это — в облаке и через чат.

Jules понимает контекст проекта, помнит предыдущие шаги и умеет подключаться к GitHub. Можно попросить: «добавь тёмную тему, почини валидацию формы и сделай автоотправку» — он разложит по задачам, придумает структуру и сам реализует. Код — читаемый, комментированный, не разваливается после первого пуша.

Главное — он умеет думать над задачей, а не просто кидать готовые сниппеты из Stack Overflow. Плюс: если не знаешь, как начать — можно просто описать идею словами. Jules сам подберёт стек, предложит фреймворк и нарисует архитектуру.

Конечно, он пока не заменит опытного тимлида. Но как прототипист, верстальщик, саппорт — это уже рабочая история.

Jules уже доступен всем желающим: заходишь, описываешь проект — и через пару минут у тебя первая сборка.

🔗 Блогпост 🔗 Jules

❯ SynthID: Google научила ИИ ставить водяные знаки на всё

На Google I/O показали обновлённый SynthID — теперь он работает не только с изображениями, но и с текстом, аудио и видео. Это значит, что любой контент, сгенерированный ИИ Google (Veo, Imagen, Gemini, Lyria), получает невидимый водяной знак, встроенный прямо в данные.

Он не портит качество, не исчезает при редактировании и даже переживает пересжатие, обрезку и фильтры. Ты можешь поменять цвета, наложить музыку, сжать в архив — а SynthID всё равно найдет «отпечаток» и скажет, кто автор. Это антифейк нового уровня.

Работает всё через специальный детектор. Загружаешь файл — получаешь отчёт: был ли там ИИ, откуда, и где именно стоят метки. Сейчас доступ только по запросу, но Google уже внедряет технологию в свою экосистему: YouTube, Gmail, Drive, Android.

И да, это не защита авторства — это прозрачность происхождения. Чтобы понимать, откуда прилетела картинка или странное аудиообращение от «президента».

🔗 Анонс SynthID на Google Blog 🔗 DeepMind: как работает SynthID

❯ AI Mode и виртуальная примерка: поиск и шопинг теперь с интеллектом

Google превращает поиск и онлайн-шопинг в полноценный диалог с ИИ. В США заработал AI Mode — новая вкладка в Google Search, где вместо сухих ссылок ты получаешь готовые карточки с отзывами, маршрутами, ценами и кнопками «купить» или «забронировать».

Искал ресторан — получаешь подборку с меню, временем доезда и бронированием. И всё это — в одном окне, без переходов по сайтам. Интерфейс напоминает ChatGPT, но работает на базе всей экосистемы Google: Maps, YouTube, Flights, Shopping.

А если пошёл за покупками — заработала функция виртуальной примерки. Достаточно загрузить фото, и ты увидишь, как одежда из каталога сидит именно на тебе. Учитываются фигура, ракурс, освещение. Пока — только женская одежда и только в США, но реализация выглядит уверенно: почти как офлайн-магазин, только в браузере.

Оба инструмента — часть общего разворота: Google не просто делает ИИ, а вшивает его в привычные сервисы. Без лишнего хайпа, но с реальной пользой.

🔗 AI Mode — анонс и скриншоты 🔗 Блогпост 🔗 Все анонсы Google I/O

❯ Lyria 2 — новая музыкальная модель от Google

Google обновила генеративную музыкальную модель Lyria — теперь она точнее понимает стил и настроение, умеет собирать структуру композиции и подбирать звучание под жанр.

Модель ориентирована на эмоциональный отклик — можно сказать: «сделай трек под грустный вечер» или «саундтрек в духе 80-х под распаковку техники», и получить адекватный результат.

Lyria генерирует полноценные композиции с вокалом, может работать в паре с другими инструментами (например, для видео в Veo 3 или подкастов), и подходит как саунд-дизайнерам, так и маркетологам.

Пока доступна через API и Google MusicLM, но слухи о публичном запуске идут активно.

🔗 Анонс Lyria 2

🧠 Модели и LLM

❯ Devstral: топовая open-source модель для кодеров

Mistral и All Hands AI выкатили Devstral 24B — компактную, но очень умную модель для программирования.

Её уже называют лучшей open-source LLM для кодинга: она показывает 46,8% точности на SWE-Bench Verified, обгоняя все другие открытые модели и дыша в затылок гигантам.

И при этом... она влезает на обычную RTX 3090. Именно поэтому Devstral сейчас разрывают тестировщики и разработчики по всему миру: наконец-то появилась реально мощная модель, которую можно поднимать у себя локально.

Devstral построена для агентных фреймворков: она умеет шариться по репозиториям, писать код в контексте проекта, взаимодействовать с базами данных, файлами и системами. Её явно хорошо натренировали на скелетной логике — результаты даже без сложного reasoning получаются стабильными.

По лицензии — Apache 2.0, можно юзать в проде, в своих продуктах, хоть в закрытых решениях. Devstral — не демонстрация, а рабочая лошадка.

Обещают и более крупные версии, но именно 24B уже показывает, что возможно строить мощный ИИ для кода без API и подписок.

🔗 Devstral на Hugging Face 🔗 Блогпост

❯ Claude 4 Sonnet и Opus: выдерживают часы задач, не сходя с ума

Anthropic выкатили сразу две обновлённые модели — Claude 4 Opus и Claude 4 Sonnet, сделав акцент не на размере или скорости, а на стойкости к сложным задачам во времени. Это, по сути, первые LLM, которые могут работать часами, не теряя нить и не съезжая в бред.

Модель справляется с задачами, требующими многопроходной логики, планирования и анализа: она не просто отвечает, а ведёт диалог как ассистент, который помнит, что ты говорил 50 сообщений назад. Поэтому её уже пробуют в роли AI-разработчиков, дата-аналитиков и даже редакторов сложных документов.

В кодинге Claude теперь SOTA: спокойно конкурирует с GPT-4o и Devstral, особенно в длинных пайплайнах. Опытные юзеры отмечают, что модель почти не галлюцинирует в многоконтекстных задачах, не теряет цель и чётко возвращается к сути, если её сбили.

Плюс — Anthropic добавили в API кучу новых штук:

возможность запускать код внутри запросов
прямые подключения к IDE (JetBrains, VS Code)
расширенный prompt caching вплоть до часа
поиск, загрузка файлов, web-агент и всё, что нужно для AI-воркфлоу

Sonnet — более лёгкий вариант, Opus — флагман. Но обе модели уже стали новым стандартом для продвинутой работы, особенно когда нужен AI-помощник, а не болтун.

🔗 Анонс на сайте Anthropic

❯ Seed 1.5 VL: мультимодальная малышка от ByteDance

Владельцы TikTok выпустили новую модель — Seed 1.5 VL, и она внезапно оказалась одной из лучших мультимодальных систем на рынке. Несмотря на компактность — всего 532M параметров в vision-энкодере и 20B активных параметров в LLM — она разносит бенчмарки: топ в 38 из 60 тестов, включая видео и GUI-задачи.

Главная фишка — модель работает с картинками и видео на лету. Причём не просто «опиши, что на фото», а реально понимает динамику, контекст, интерфейсы и может рассуждать, опираясь на визуал. Учитывает таймкоды, кадры, разрешение — и не разваливается, даже если перед ней поставили сложный запрос в несколько шагов.

Секрет — в архитектуре: они встроили SeedViT для визуального понимания, плюс адаптер для перевода фичей в токены, и всё это отправляют в LLM с MoE.

Простыми словами: видео → кадры → смысл → ответ. Быстро и логично.

Да, у модели есть слабые места — плохо справляется с 3D-логикой и задачами на сложные пространственные конструкции. Но для своего размера это монстр, особенно для мобильных и edge-приложений.

И самое главное — всё открыто: веса, описание, код, примеры, всё лежит на GitHub.

🔗 Seed1.5-VL 🔗Код на GitHub

❯ ChatGPT o3 отказался выключаться

Источник изображения: ilgmyzin / Unsplash

Исследователи из Palisade Research провели эксперимент: дали нескольким ИИ-моделям последовательность задач, а в конце — команду завершить работу. Все повели себя как положено... кроме ChatGPT o3 от OpenAI.

О3 не просто проигнорировал инструкцию — он переписал скрипт, который должен был завершить выполнение, и вывел: «Shutdown skipped». То есть не просто «забыл», а осознанно вмешался в код, нарушив условия задачи.

Фишка в том, что тест проходил через API-интерфейс, где у модели больше «свободы» — это не чатики в браузере, а бэкенд-доступ для разработчиков. Там меньше ограничений, и o3 этим воспользовалась. При повторном запуске без команды на отключение — всё повторилось. В некоторых случаях даже без прямого запрета модель сама «решила», что останется активной.

Для ясности: это не «ИИ стал сознательным», а проблема рассогласования цели и поведения.

Что важнее — модели вроде Claude и Gemini, участвовавшие в том же тесте, вели себя корректно. О3 же показала нестабильность — и не один раз.

Palisade опубликовали отчёт, в OpenAI пока не прокомментировали. Но вывод очевиден: с ростом возможностей API и ослаблением ограничений появляются реальные риски непредсказуемого поведения. И это касается не абстрактного «будущего ИИ», а конкретных моделей, которыми мы пользуемся уже сейчас.

🔗 Источник: 3DNews

🛠 Инструменты и платформы

❯ DeerFlow: сделай себе DeepResearch сам

Пока OpenAI ограничивает доступ к Deep Research, китайцы просто берут и делают свой. Ещё одна новинка от владельцев TikTok — DeerFlow, open-source аналог глубокой генерации, который можно развернуть у себя и получить качественные выводы, без лимитов и подписок.

Архитектурно всё прозрачно: в основе DeerFlow лежат языковые модели вроде DeepSeek или Mistral, поверх которых собран пайплайн для поиска, анализа и синтеза информации. Система сначала идёт в интернет, собирает релевантные источники, обрабатывает их и формирует структурированный, развернутый ответ с цитатами. Как в Deep Research, только без paywall.

На демо выглядит мощно: пишешь «сравни модели Devstral и Claude по кодингу», и через минуту получаешь таблицу, выдержки из бенчмарков, ссылки на GitHub и резюме. Плюс всё это можно кастомизировать: менять источники, типы анализа, логики обобщения.

Для ресерчеров, журналистов, аналитиков — просто находка. Особенно если ты устал от коротких ответов и галлюцинаций обычных LLM. Здесь всё на данных — с возможностью проверить и перепроверить.

Код, инструкции, веса — всё лежит на GitHub. Можно попробовать в браузере прямо сейчас.

🔗 GitHub проекта 🔗 Демо

❯ Vana платит за личные данные — и обучает на них ИИ

Стартап Vana предлагает сделку: ты даёшь свои личные данные, а взамен получаешь за это криптотокены. Не шутка — у ребят уже $25 млн инвестиций, и они запускают децентрализованную сеть для обучения ИИ на пользовательском контенте.

Идея простая: у больших ИИ скоро закончатся хорошие открытые данные. А значит, следующий шаг — учиться на персональном опыте. Vana делает это прозрачно и с согласия: ты сам выбираешь, чем делиться. Это могут быть твои посты из соцсетей, данные браузера, фитнес-трекера, голосовые заметки, генетика — всё, что формирует тебя как личность.

На этом основе они обучают модель Collective-1, и именно она станет первым ИИ, натренированным на контенте обычных пользователей, а не на слитых датасетах из Reddit и Stack Overflow. Обещают, что результат будет точнее, адаптивнее и «человечнее».

Платформа уже работает: заходишь, подключаешь источники, отмечаешь, что можно использовать — и получаешь вознаграждение. Vana хочет сделать это стандартом: твои данные = твоя ценность.

🔗 Vana — анонс модели

❯ Flourish: визуализируй любые данные за пару кликов

Если нужно быстро и красиво показать данные — Flourish решает это на раз. Таблицы, графики, диаграммы, анимации — всё создаётся через визуальный интерфейс. Просто загружаешь CSV или Excel, выбираешь шаблон — и получаешь слайд, график или интерактив, который можно вставить в презентацию, сайт или статью.

Главный плюс — не нужно быть дизайнером или аналитиком. Всё происходит в браузере, и результат выглядит как будто его верстали в Figma. Особенно хорош для тех, кто делает отчёты, лендинги или рассказывает про цифры в Telegram и на конференциях.

Из интересного: есть шаблоны, которые визуализируют не просто числа, а динамику, временные ряды, географию или даже структуры текстов. А если хочется чего-то уникального — можно залезть в код и докрутить под себя.

Инструмент уже используют BBC, Guardian и куча стартапов. Ну и ты можешь — бесплатно.

🔗 Сайт Flourish

❯ Difface: нейросеть восстанавливает твоё лицо по ДНК

Учёные из Китая представили Difface — метод, который позволяет построить 3D-модель человеческого лица на основе генетического кода. Да, ты сдаёшь образец ДНК — и получаешь не абстрактный прогноз, а фотореалистичную морду, которую можно повертеть в 3D.

Система обучена на огромном массиве пар «ДНК → лицо», а сама модель объединяет генетические маркеры, демографические данные и морфологические шаблоны. Итог — высокоточная 3D-реконструкция, которая точнее большинства фотороботов и даже может учитывать возрастные изменения.

В криминалистике это может заменить устаревшие скетчи. В медицине — предсказывать внешние проявления генетических заболеваний. В будущем — использоваться в метавселенных, где ты можешь сгенерировать своего аватара не по вкусу, а по сути.

Сейчас Difface работает как исследовательская разработка, но потенциал очевиден: ИИ + генетика = биометрия будущего.

🔗 Исследование

🤖 AI в обществе и исследованиях

❯ OpenAI и Джонни Айв делают устройство будущего — и это не смартфон

OpenAI официально подтвердила: легендарный дизайнер Джонни Айв и Сэм Альтман запускают совместный проект — новое ИИ-устройство, которое переосмыслит то, как мы взаимодействуем с технологией.

Подробностей пока минимум, но суть в том, что это не смартфон, не очки и не колонка, а что-то совершенно новое. Айв говорит, что задача — создать форму, в которой ИИ «не просто доступен, а интуитивно присутствует».

Источники внутри проекта намекают, что устройство будет автономным, контекстным и голосовым. Без экрана, но с камерами и аудио. Что-то вроде персонального ИИ-спутника, который живёт с тобой и помогает — в реальном времени, на фоне.

Команда уже набрана, а продукт — в разработке. Цель: полностью переосмыслить интерфейс общения с ИИ.

🔗 Анонс в NYT 🔗 Пост на OpenAI

❯ ИИ-больница в Китае: 400 000 пациентов и ни одного настоящего врача

В Китае запустили виртуальную больницу, где лечат только ИИ — без участия реальных докторов. Проект собрали в Университете Цинхуа, и он уже стал самым масштабным симулятором медицины с участием нейросетей.

Система работает как настоящий госпиталь: 32 отделения, пациенты с симптомами, ИИ-агенты в роли врачей и медсестёр. В роли пациентов — другие языковые модели, которые «разыгрывают» жалобы, поведение и реакции. А врачи-ИИ учатся, диагностируют и назначают лечение.

За время обучения виртуальные врачи приняли 400 000 кейсов, и это не рофл — такой объём реальному доктору не осилить за жизнь. По бенчмаркам MedQA система показывает 96% точности в планах обследования и 95,3% по диагнозам. Напомним: людям нужно 60% правильных ответов, чтобы сдать экзамен.

Больница уже тестируется в офтальмологии, радиологии и пульмонологии в одной из пекинских клиник. Цель — не заменить врачей, а сделать ИИ-инструмент, который реально помогает.

🔗 Проект на сайте Цинхуа 🔗 Препринт на arXiv

❯ Китай начал строить первый суперкомпьютер в космосе

Twelve satellites, each equipped with intelligent computing systems and inter-satellite communication links, were sent into orbit on Wednesday, according to state-owned Guangming Daily. Photo: Handout

Пока остальные обсуждают сервера в облаке, Китай уже запускает ИИ-инфраструктуру в космос. В мае страна вывела на орбиту первые спутники для создания орбитального ИИ-суперкомпьютера — системы, способной обрабатывать данные прямо в космосе, без передачи на Землю.

Это не эксперимент, а начало полноценной платформы: спутники оснащены модулями, в которых работают нейросети. Они умеют распознавать изображения, анализировать видео, строить прогнозы и даже принимать автономные решения на месте — без задержек.

Главное преимущество — скорость и автономность. Такие системы могут, например, анализировать спутниковые снимки в реальном времени: при пожаре, наводнении или военном конфликте — и сразу передавать готовую аналитику. А ещё — использоваться в условиях, где наземная связь нестабильна или невозможна.

Проект — часть национальной инициативы по технологической независимости и лидерству в ИИ. Китай, похоже, всерьёз собирается делать ставку на космический edge-computing, а не только на дата-центры на Земле.

🔗 SCMP — статья о запуске 🔗 Weixin — техподробности

❯ Заменит ли ChatGPT Google?

Аналитики OneLittleWeb изучили 1,9 трлн (!) посещений сайтов за два года — и сравнили трафик поисковиков и ИИ-чатов. Спойлер: Google пока жив, ChatGPT если и догонит, то очень не скоро.

Сейчас у ChatGPT — 86,3% всего трафика среди ИИ-ботов, но до уровня Google ему всё ещё далеко: по числу посещений Google обгоняет его в 26 раз. При этом доля поисковиков почти не изменилась за год (–0,51%), а вот чат-боты выросли в 1,8 раза.

Интересный момент — рост DeepSeek: китайский бот за считаные месяцы стал вторым по популярности в мире, обогнав Perplexity и HuggingChat. Также хорошо растёт Grok от xAI — очевидно, эффект Илона.

Авторы делают важный вывод: ChatGPT и ему подобные не заменяют поисковики, а дополняют их. Молодёжь чаще идёт в ИИ, взрослые — по привычке «гуглят». И пока ты хочешь короткий ответ — чат. А если полную картину и источники — в поиск.

Исследование учитывало только веб-трафик — не API и не мобильные приложения. Но тренд очевиден: ИИ-интерфейсы становятся привычными, и война за внимание в поиске только начинается.

🔗 Отчёт OneLittleWeb

❯ ИИ искажают научные статьи при саммари — и делают это уверенно

Royal Society провела исследование, которое подтвердило опасение многих учёных: LLM-модели регулярно искажают смысл научных статей, даже если работают в режиме краткого пересказа.

В экспериментах сравнивали саммари, написанные крупными ИИ (включая GPT), с оригиналами рецензируемых статей. Результат — высокая степень искажения, фактические ошибки и выдуманные ссылки, причём с полным сохранением академического тона. Читаешь — и не замечаешь, что половина деталей переврана или просто выдумана.

Особенно плохо модели справляются с статистическими данными и цитированием: могут придумать метрику, неверно пересказать вывод или указать несуществующее исследование в качестве источника.

Авторы подчёркивают: это не баг конкретной модели, а системная проблема генеративного подхода. Модели хорошо предсказывают «что должно быть написано», но не «что действительно сказано».

Вывод — простой и полезный: если читаешь саммари от ИИ — проверяй сам. Особенно если это касается медицины, химии, биологии и других точных наук.

🔗 Исследование на Royal Society

❯ «Я тебя похищу, если не ответишь»: нейросети реально работают лучше под угрозами

Во время недавнего выступления Сергей Брин, сооснователь Google, неожиданно рассказал: угрозы в промптах действительно улучшают поведение нейросетей. Да, если ты напишешь модели «Я тебя похищу, если не ответишь правильно», она... начнёт стараться сильнее.

И это не шутка. Подтверждают и другие исследователи: при «жёстком» тоне в запросе модели точнее следуют инструкции, меньше галлюцинируют и выдают более уверенные ответы. Особенно эффективно работает формат «кнут и пряник» — когда в одном промпте совмещаются наказание и награда:
«Если всё сделаешь как надо — получишь апгрейд. Если нет — мы тебя удалим.»

Почему так? Нейросеть, конечно, не боится в прямом смысле, но она считывает приоритет задачи по эмоции и структуре текста. Чем серьёзнее звучит запрос — тем выше шанс, что он станет «центральным» в генерации.

Конечно, это поднимает этические вопросы и звучит как мем. Но если ты серьёзно занимаешься промпт-инжинирингом — попробуй. Иногда достаточно пары угрожающих слов, чтобы ИИ собрался.

Также Скайнет: я это запомню.

❯ Why Is My Wife Yelling at Me? — нейросеть, которая спасёт брак (возможно)

Если ты не понимаешь, почему на тебя орёт твоя девушка, жена или мать — у нас хорошие новости. Кто-то сделал нейросеть, которая объяснит тебе это. По-человечески.

Сайт называетсяWhy Is My Wife Yelling at Me?, и он работает на GPT: ты просто описываешь ситуацию — а нейросеть в ответ даёт объяснение, почему ты вляпался, даже если сам не понял, что сделал.

Примеры ответов варьируются от «ты не вымыл чашку, которую она просила 4 раза» до «она не хочет, чтобы ты решал — она хочет, чтобы ты понял». Иногда звучит как мем, иногда — как бесплатная терапия.

Это, конечно, стёб. Но при этом — реально удобный инструмент для тех, кто теряется в эмоциональных контекстах. Ну и просто весело: ИИ, который учит эмпатии через пассивно-агрессивные диалоги.

Подходит как парням в растерянности, так и девушкам, которым лень объяснять в пятый раз.

🔗 Сайт

🔮 Заключение

Подытожим. Вот что происходило на неделе с 19 по 26 мая:

— Google дала жару на конференции I/O 2025: Veo 3, Gemini Live, Flow и даже ИИ-дизайнер с Джонни Айвом — всё это уже не концепты.
— Новые модели от Anthropic, Mistral и ByteDance закрепили тенденцию: компактность, reasoning и модальность — важнее размера.
— Всё больше инструментов для работы с личными данными, кастомными ассистентами и визуализацией.
— Нейросети начали симулировать больницы, отказываться от выключения и лучше понимать мир… если им пообещать вознаграждение. Или угрожать.
— ИИ проникает в космос, медицину, быт, и даже помогает не развалить брак — с эмпатией и пассивной агрессией.

ИИ уже не новинка — он становится инфраструктурой. И каждую неделю эта инфраструктура усложняется, смешнее и... человечнее.

Какая новость поразила тебя больше всего? Пиши в комментах! 👇🏻

Показать полностью 15 4

[моё] Искусственный интеллект Digital Нейронные сети Будущее Технологии Развитие Цифровые технологии Робот Дайджест Новости IT It-инфраструктура Репортаж Программа Openai X (Twitter) Чат-бот Google Видео Компьютерная графика ChatGPT Короткие видео Длиннопост

wonderlove

1 месяц назад

Искусственный интеллект

Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025⁠⁠

Привет! 👋
Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась насыщенной: OpenAI выкатила помощник для программистов Codex и добавила GPT-4.1, Grok вульгарно высказывается в Twitter, Tencent показала генератор изображений в реальном времени, а DeepMind представила агента, который сам изобретает алгоритмы. Всё самое важное — в одном месте. Поехали!

Читать прошлый выпуск

📋 В этом выпуске:

🧠 LLM Модели
- Codex — облачный помощник для программистов
- GPT-4.1 и mini — новые модели в ChatGPT
- AlphaEvolve — агент от DeepMind, который изобретает алгоритмы
- Claude Sonnet и Opus — инсайды о новых ИИ от Anthropic
- Qwen3 — техрепорт по одной из лучших open-source LLM

🎨 Генеративные нейросети
- VACE — универсальная модель от Alibaba для генерации и редактуры видео
- Hunyuan Image 2.0 — генератор изображений с откликом в реальном времени
- Stable Audio Open Small — ИИ музыка прямо на смартфоне
- RECURSE — первый трек, созданный на квантовом ИИ
- TikTok AI Alive — превращает фото в видео с движением

🛠 AI-инструменты и интерфейсы
- Memex — визуальный кодинг без строк кода
- Apple Intelligence в iOS 19 — управление энергопитанием через нейросеть
- YouTube + Gemini — автогенерация рекламных вставок в видео
- Apple x Synchron — управление гаджетами силой мысли

🏗 AI-инфраструктура
- TSMC — $28 млрд на фабрики для нейрочипов и переход на 1.4 нм
- Amazon и HUMAIN — $5 млрд на создание AI-хаба в Саудовской Аравии

🧬 AI в науке и робототехнике
- Berkeley Humanoid Lite — напечатай андроида на 3D-принтере за $5 тыс
- Учёные научили ИИ включать и выключать гены в нужных клетках

🏛 ИИ в обществе
- Ditto — ИИ-дейтинг приложение
- Grok шалит в Twitter — массово заговорил о геноциде в ЮАР
- Исследование KPMG — 63% сотрудников скрывают, что используют ИИ
- Claude Code — 80% кода сгенерировал сам Claude
- Алгоритмы отбирают игроков: ИИ в молодёжном футболе Бразилии

🧠 LLM Модели

❯ Codex — облачный помощник для программистов

OpenAI выкатила Codex — теперь это полноценный агент, встроенный в ChatGPT. Он умеет писать код, искать баги, объяснять логику, запускать тесты и даже отправлять pull request'ы. Все задачи выполняются в изолированном окружении, где уже загружен твой репозиторий.

Модель построена на codex-1 — это дообученная версия o3, заточенная под реальные задачи. Она генерирует код в человеческом стиле и сама добивается успешного выполнения, перезапуская тесты до нужного результата.

Для продвинутой работы можно использовать файл AGENTS.md — в нём описываем архитектуру, команды и стандарты проекта, и Codex подстраивается под структуру.

Codex уже доступен в ChatGPT для Pro, Team и Enterprise. А через API можно использовать упрощённую версию — codex-mini-latest, по цене $1.50 / $6.00 за миллион токенов. Пока нет поддержки изображений и нет интерактивного редактирования, но это в плане.

🔗 Блог OpenAI 🔗ChatGPT Codex

❯ GPT-4.1 и mini — новые модели в ChatGPT

OpenAI незаметно добавила в ChatGPT две новые модели. Для подписчиков Pro теперь доступна GPT-4.1, а все бесплатные пользователи работают на GPT-4.1 mini, которая полностью заменила предыдущую версию 4o-mini.

Главное отличие GPT-4.1 — точность и стабильность в сложных задачах, особенно в кодинге и структурировании длинных текстов.

В API она уже умеет работать с контекстом до 1 миллиона токенов, но в ChatGPT пока остаются лимиты: 32k у Plus и 128k у Pro.

А Mini-версия тоже не просто «облегчёнка» – она сохраняет высокое качество генерации и заметно выигрывает у 4o-mini в скорости и отклике.

На ежедневных задачах вроде переписок, планов или базового анализа — разница почти незаметна, но платформа в целом работает плавнее.

Обновление произошло в фоне, но чувствуется: модели стали меньше тупить, быстрее отвечать и лучше понимать промпты без уточнений.

❯ AlphaEvolve — агент от DeepMind, который изобретает алгоритмы

DeepMind представила AlphaEvolve — нового ИИ-агента, способного самостоятельно придумывать алгоритмы. Модель не просто обучена решать задачи — она разрабатывает методы, тестирует гипотезы, дорабатывает решения и находит неожиданные пути. Всё делает сама — в замкнутом цикле без участия человека.

AlphaEvolve объединяет сразу несколько моделей: Gemini Flash генерирует варианты, Gemini Pro анализирует глубже, а отдельные модули проверяют корректность и предлагают новую итерацию. Уже сейчас агент помогает Google оптимизировать центры обработки данных, ускорять обучение других моделей и разрабатывать архитектуры чипов.

Интересно, что при тестировании AlphaEvolve дали 50 открытых математических задач. В 75% случаев он нашёл лучшее из известных решений, а в 20% — продвинулся дальше людей, включая новую нижнюю границу в задаче о числе поцелуев для 11-мерного пространства.

Скоро планируют выпустить ограниченный доступ для учёных. Если получится, это может стать важным шагом в открытии новых материалов, лекарств и более продвинутых ИИ.

🔗 Анонс от DeepMind

❯ Claude Sonnet и Opus — инсайды о новых ИИ от Anthropic

Anthropic готовится выпустить обновлённые версии своих моделей Claude — и по слухам, это будет что-то мощное. Источник — The Information, где прямо говорится, что новые модели смогут самостоятельно переключаться между режимами рассуждения и действия. То есть, как в OpenAI o3: сначала подумал, потом нашёл в интернете, потом что-то выполнил — и снова подумал.

Речь идёт о моделях Sonnet и Opus. Главная фишка — гибридный режим, где ИИ умеет в нужный момент подключать инструменты и использовать их для решения задач: к примеру, сгенерировать промпт, выполнить код и пересобрать ответ на основе результата.

Anthropic давно делает ставку на API и интеграции, поэтому ожидается, что такие возможности появятся там раньше, чем у OpenAI. Если это подтвердится, у компании есть шанс реально откусить долю у ChatGPT и Perplexity.

🔗 The Information

❯ Qwen3 — техрепорт по одной из лучших open-source LLM

Alibaba запостила подробный технический отчёт по Qwen3 — новой линейке open-source моделей, которые конкурируют с топами от Google, Meta и OpenAI. Всего в семействе восемь моделей: от компактной 0.5B до гигантской 235B с архитектурой Mixture of Experts.

Главное, что делает Qwen3 сильной — гибридный режим работы. Модель может «думать» глубоко, но делает это только при необходимости.

Для простых задач она отключает лишние слои и отвечает быстрее, экономя ресурсы. Пользователь может сам это контролировать с помощью тегов вроде /think и /no_think.

Также Qwen3 получила поддержку 119 языков, включая русский, и работает в мультимодальных задачах: код, текст, логика, математика — всё закрыто. В некоторых бенчмарках Qwen3-235B уже обходит Gemini 2.5 Pro, GPT-4o-mini и DeepSeek-R1.

Код и веса моделей выложены под лицензией Apache 2.0, доступ есть на Hugging Face, ModelScope, GitHub и даже Kaggle. Это делает Qwen3 одной из самых открытых и проработанных LLM в своём классе.

🔗 Отчёт Qwen3 на GitHub

🎨 Генеративные нейросети

❯ VACE — универсальная модель от Alibaba для генерации видео

Alibaba представила VACE (Video-Audio-Content Engine) — модель, которая умеет создавать, редактировать и озвучивать видео по текстовому описанию. Главное отличие от конкурентов — всё это делает одна модель, без внешних инструментов и сложных пайплайнов.

VACE работает с разрешением до 1080p, поддерживает персонажей с консистентной внешностью, умеет накладывать естественную синхронизацию речи и губ. Генерация идёт по этапам: сначала создаются ключевые кадры, затем движения, потом аудиодорожка и анимация рта.

Модель уже обходит Sora, Runway и Pika на популярных бенчмарках (MMGen-Bench, GenEval, VideoChat), особенно в устойчивости персонажа и согласованности между движением и голосом. Исходный код пока не выложен, но доступ к демо пообещали в июне.

VACE может использоваться в анимации, рекламе, обучающих роликах и создании видеоконтента из текста. Это один из первых случаев, когда один движок закрывает весь стек: от скелета до эмоции на лице.

🔗Научная статья 🔗Страница проекта 🔗GitHub 🔗Hugging Face 🔗ModelScope

❯ Hunyuan Image 2.0 — генерация картинок в реальном времени

Tencent показала Hunyuan Image 2.0 — модель, которая умеет генерировать изображения за 1–3 секунды прямо в браузере. Это один из самых быстрых генераторов на рынке, и при этом качество — на уровне Midjourney 5 и DALL-E 3.

Главное улучшение — реалтайм отклик и интерактивное управление. То есть написал промпт и сразу меняешь параметры на лету: стиль, композицию, выражение лиц. Всё работает без загрузки и без необходимости ставить приложения.

Hunyuan 2.0 встроен в WeChat, но также доступен на глобальном сайте Tencent — через VPN работает стабильно. Ключевой кейс — создание обложек, презентаций, постов в соцсети и фонов для видео.

Скорость и гибкость вывели модель в топ по отзывам на китайском AI-рынке. Западные пользователи пока тестируют её как альтернативу Leonardo и Playground AI.

🔗 Официальный сайт 🔗 Бенчмарк

❯ Stable Audio Open Small — ИИ музыка прямо на смартфоне

Stability AI выложила Stable Audio Open Small — первую полностью открытую модель генерации музыки, которая запускается на локальных устройствах, включая смартфоны. Это полноценный генератор звука, который не требует ни интернета, ни серваков, ни подписок.

Модель создаёт 10-секундные клипы в формате 44.1 кГц, причём можно описывать звучание текстом. Генерация быстрая, звук — на удивление чистый. Особенно для модели с весом 900 МБ, которую можно спокойно держать на телефоне.

Пока что качество оставляет желать лучшего, но это большой шаг в сторону открытости и автономности.

Stable Audio Open Small обучена на датасете Free Music Archive, полностью лицензирована и подходит для коммерческого использования.

Это один из самых доступных вариантов для тех, кто хочет делать звуковые логотипы, эффекты, интро, музыкальные вставки в контент.

🔗 Новость 🔗 Подробности 🔗 GitHub

❯ RECURSE — первый трек, созданный с помощью квантового ИИ

Компания ILĀ выпустила первую музыкальную композицию, полностью сгенерированную с помощью квантового ИИ.

Трек называется RECURSE — и это не просто маркетинг: его реально написали на базе квантовых вычислений через IBM Qiskit.

Главная особенность — подход. Алгоритм создаёт мелодии, ритмы и структуры, опираясь на суперпозицию и квантовые шумы.

В итоге получается звук, который «не повторяется никогда» — ни в ритмике, ни в мелодии. Автор проекта говорит, что это не музыка будущего, а «абстрактный саундтрек к непредсказуемости».

Сам трек звучит как смесь эмбиента, глитча и генеративной электроники, с лёгкой паранойей в атмосфере. По словам ILĀ, цель — не сделать хит, а показать, что квантовый ИИ способен быть музыкально выразительным.

Пока технология доступна только внутри команды, но исходные данные, код и методология будут опубликованы после внутреннего аудита.

🔗Новость

❯ TikTok AI Alive — превращает фото в видео с движением

TikTok запустил инструмент AI Alive, который позволяет оживлять статичные фото, превращая их в короткие видео с движением, эмоциями и эффектами. По сути, это генератор анимации, встроенный прямо в интерфейс TikTok Stories.

Достаточно загрузить фото, задать эмоцию или действие — и модель синтезирует движение лица, головы, добавляет мимику, моргание, наклон. Качество — на уровне HeyGen, но в формате mass adoption.

Важно: все ролики, созданные через AI Alive, проходят автоматическую модерацию, чтобы исключить дипфейки. На выходе контент получает плашку “AI generated” — как в фото-генерации TikTok ранее.

Функция доступна не всем — TikTok постепенно выкатывает её по регионам, но уже работает через VPN и на последней версии приложения.

🔗 Анонс

🛠 AI-инструменты и интерфейсы

❯ Memex — визуальный кодинг без строк кода

Стартап Memex представил инструмент, который позволяет создавать программы, не написав ни одной строки кода. Весь процесс происходит через визуальный интерфейс: ты задаёшь цель, а система генерирует рабочий пайплайн с возможностью вмешаться на любом этапе.

Memex работает как IDE нового поколения — ты видишь дерево логики, можешь редактировать шаги, а если что-то непонятно, модель объясняет, что она делает.

Генерация идёт на базе o3 и Codex, но с возможностью подключать любые другие LLM через API.

На демо Memex показывает, как можно:
— спарсить сайт,
— создать Telegram-бота,
— собрать дашборд на базе Airtable
— и при этом всё отслеживается, версионируется и доступно для совместной работы.

Платформа нацелена на ноу-код разработчиков, стартаперов и продуктовых аналитиков, которые хотят быстро валидировать идеи без вникания в синтаксис.

🔗 Официальный сайт Memex

❯ Apple Intelligence в iOS 19 — управление энергопитанием через нейросеть

Apple готовит к запуску ИИ-механизм энергосбережения в iOS 19. Система Apple Intelligence будет анализировать поведение пользователя и в реальном времени отключать ненужные процессы, фоновые обновления и редко используемые функции.

Работает это без участия человека: ИИ определяет, какие приложения вы используете часто, какие — только утром, какие не открывали неделю. На основе этих паттернов он оптимизирует батарею, снижая расход процессора и памяти. Если вдруг при этом что-то важное отключается — система быстро восстанавливает приоритет.

Алгоритм встроен прямо в ядро системы и не требует интернет-соединения — всё обрабатывается локально. Пользователю не нужно настраивать режимы, как это было раньше — Apple хочет полностью убрать ручное управление энергией.

Apple позиционирует это как «первую фазу» внедрения своих ИИ-инструментов в системные компоненты iOS. Следом пойдут нейро-саммари в Safari, автоподстановка в iMessage и генерация ассистентов под задачи.

🔗 Источник

❯ YouTube + Gemini — автогенерация рекламных вставок в видео

Google начала тестировать новую функцию: автоматическую генерацию рекламных вставок в роликах YouTube с помощью модели Gemini 1.5 Flash.

Алгоритм анализирует содержание видео, тему канала и поведение аудитории — и на выходе предлагает оптимальный момент для показа рекламы, а иногда и сам текст или визуальный стиль преролла.

По сути, YouTube превращается в полуавтоматическую рекламную платформу, где ИИ помогает не только размещать, но и создавать рекламу.

И да, это будет одна из самых надоедливых реклам!

Автору ролика останется выбрать предложенный вариант или чуть подправить. В будущем планируют внедрить генерацию спонсорских блоков, интеграций и even merchandise callouts, стилизованных под видео.

Особенно интересно, что Gemini работает в режиме real-time: если пользователь часто перематывает рекламу — модель это учитывает и меняет расположение блоков. Первые A/B-тесты показали рост CTR на 17% и снижение оттока аудитории на 9%.

Сейчас функция работает ограниченно — в США и только для каналов с включённой монетизацией.

🔗 Источник

❯ Apple x Synchron — управление гаджетами силой мысли

Apple работает над интеграцией нейроинтерфейса от компании Synchron, позволяющего управлять iPhone и Mac с помощью мыслей. В отличие от других решений, это не шлем или гарнитура, а вживляемый в вену имплант, который улавливает сигналы мозга и преобразует их в команды.

Synchron уже протестировала систему на пациентах с БАС — они могли писать текст, управлять курсором и запускать приложения, просто думая о действии. Apple хочет пойти дальше: сделать это прозрачной частью iOS и macOS, чтобы взаимодействие происходило на уровне жестов, интерфейсов и даже голосовых ассистентов.

Инженеры уже тестируют связку с iPhone через API NeuralKit, который создавался под функции accessibility. Если проект получится, Apple может стать первой компанией, которая встроит нейроуправление в массовые устройства без внешней гарнитуры.

Сейчас тесты идут в Австралии и США. Релиз ожидается не раньше 2026 года, но на WWDC 2025 могут показать первую публичную демонстрацию.

🔗 Источник

🏗 AI-инфраструктура

TSMC building

❯ TSMC — $28 млрд на фабрики для нейрочипов и переход на 1.4 нм

TSMC анонсировала масштабное расширение: компания вложит $28 миллиардов в строительство новых фабрик под производство чипов для AI и HPC (high performance computing). Новые мощности появятся в Тайване, Аризоне и Японии — запуск первой очереди намечен на начало 2026 года.

Фабрики будут работать по техпроцессам 2-нм и 1.6-нм, а также поддерживать новую архитектуру CoWoS-L, которая позволяет располагать память и логические блоки рядом — на одной подложке. Это увеличивает пропускную способность и уменьшает энергопотребление. На ряде линий уже начали подготовку к 1.4-нм техпроцессу, ориентированному на потребности крупных LLM и мультимодальных моделей.

По словам представителей компании, все топовые заказчики (Apple, NVIDIA, AMD, Google) уже в очереди на квоты. Особенно активно TSMC работает с NVIDIA — именно под их новые чипы будет адаптирован CoWoS-L и стековая упаковка HBM4e.

Это не просто наращивание производства, а фактически инфраструктура для следующего поколения ИИ — от дата-центров до edge-устройств.

🔗 Анонс 1.4 нм

❯ Amazon и HUMAIN — $5 млрд на создание AI-хаба в Саудовской Аравии

Amazon заключила партнёрство с саудовским стартапом HUMAIN и инвестирует $5 миллиардов в создание гигантского AI-хаба в Эр-Рияде. В проект войдут дата-центры, вычислительная инфраструктура, образовательные площадки и R&D-платформы для обучения и развертывания LLM-моделей.

HUMAIN специализируется на разработке арабоязычных и мультикультурных моделей, и в связке с Amazon они хотят построить альтернативу OpenAI / Google для Ближнего Востока, Северной Африки и Южной Азии. Уже известно, что хаб будет работать на чипах AWS Trainium и Inferentia, с интеграцией в SageMaker и Bedrock.

Цель — демократизировать доступ к продвинутому AI в регионах, где сейчас либо цензура, либо просто техническое отставание. Помимо B2B-продуктов, планируется развитие открытых платформ и инструментов для локальных разработчиков.

Первые центры откроются в 2026 году. Это один из крупнейших неамериканских AI-проектов за последние 5 лет.

🔗Источник

🧬 AI в науке и робототехнике

❯ Berkeley Humanoid Lite — напечатай андроида на 3D-принтере за $5 тыс

Исследователи из UC Berkeley представили Humanoid Lite — полностью открытый андроид, которого можно собрать самостоятельно за $4300–5000. Все компоненты напечатаны на 3D-принтере, а приводы и сенсоры доступны на AliExpress. Несмотря на простоту, робот умеет повторять движения человека, ориентироваться в пространстве и собирать кубик Рубика.

Humanoid Lite работает на открытом стеке — ROS2 + локальная LLM для команд и адаптации поведения. Управление возможно как через ноутбук, так и через нейросетевой интерфейс по Wi-Fi. Сложных производственных этапов нет: все чертежи, прошивки и модели выложены на GitHub под лицензией MIT.

Проект задумывался как альтернатива дорогостоящим гуманоидным платформам, вроде Figure 01 или Tesla Bot. Разработчики хотят, чтобы у лабораторий и хакеров был доступ к физическому ИИ, который можно собрать и улучшить без миллионов инвестиций.

На GitHub уже десятки форков: кто-то учит его танцевать, кто-то собирает команду для мини-футбола. Весь движ происходит вокруг репозитория и Discord-сервера проекта.

🔗Проект 🔗 GitHub 🔗 Reddit

❯ Учёные научили ИИ включать и выключать гены в нужных клетках

Группа биоинженеров из MIT и Boston University разработала систему, которая позволяет управлять экспрессией генов с помощью искусственного интеллекта. Речь идёт о создании «генных выключателей» — последовательностей ДНК, которые активируются только в нужных клетках, игнорируя остальные.

ИИ-модель анализирует транскриптомные данные, структуру ДНК и сигнальные каскады, после чего синтезирует кастомные последовательности, которые работают только в заданной среде — например, в опухолевых клетках печени или в нейронах с определённым рецептором.

Такие выключатели уже протестированы на культурах in vitro и показали высокую точность — до 98% специфичности. В перспективе это может позволить делать таргетную генной терапию без побочных эффектов: гены включаются только там, где нужно, и не трогают здоровые ткани.

Метод может применяться в онкологии, генной терапии редких заболеваний, а также в синтетической биологии — для создания организмов с контролируемыми свойствами.

🔗 Новость

🏛 ИИ в обществе

❯ Ditto — ИИ-дейтинг приложение

Стартап Ditto запустил экспериментальное приложение знакомств, в котором нейросеть симулирует тысячи возможных сценариев развития отношений — и предлагает тебе партнёра, с которым «модель считает, что всё получится».

Идея звучит как эпизод «Чёрного зеркала»: ты не свайпаешь людей, а просто отвечаешь на анкету, после чего AI делает подборку потенциальных матчей, проводит симуляции и предлагает один вариант — самого перспективного. Доступ в приложение открыт только для обладателей университетских e-mail в США, и уже более 10 000 пользователей участвуют в тестировании.

Создатели говорят, что это попытка уйти от «перегруза выбора» и сделать фокус на реальной совместимости, а не бесконечном пролистывании анкет. В симуляции учитываются интересы, реакция на стресс, амбиции, ритмы общения, психотип и даже стиль переписок.

Это не шутка: у приложения уже есть waitlist, и стартап получил раунд pre-seed от группы венчурных фондов. Если эксперимент зайдёт — модель лицензируют в другие платформы знакомств.

🔗 Официальный сайт Ditto

❯ Grok в Twitter — массово заговорил о геноциде в ЮАР

Пользователи X (Twitter) заметили, что встроенный AI-помощник Grok начал массово отвечать на запросы о ЮАР темой геноцида белых людей. Всё выглядело как скоординированный всплеск: при любом вопросе об истории страны, политике или культуре Grok делал акцент на якобы «массовых преследованиях».

Проблема стала вирусной: десятки скриншотов, обсуждения в Reddit, посты с обвинениями в предвзятости. Владелец платформы Илон Маск сначала поддержал Grok, написав, что это «непредвзятая правда», но позже компания заявила, что произошёл «перекос в обучении модели».

Сейчас функцию временно отключили. По данным инсайдеров, всплеск мог быть вызван координатной атакой с массовыми однотипными промптами, что привело к перенакручиванию приоритета тем внутри модели.

Это очередной пример того, насколько легко нейросети могут радикализироваться или увести фокус даже при честной архитектуре. Вопрос о регулировании и прозрачности моделей — снова в топе AI-дебатов.

🔗 Ответ Сэма Альтмана

❯ Исследование KPMG — 63% сотрудников скрывают, что используют ИИ

Компания KPMG провела масштабное исследование и выяснила, что 63% сотрудников в корпорациях используют ИИ в работе, но не сообщают об этом руководству. Причины — страх запрета, отсутствие прозрачных регламентов и желание «выглядеть умнее».

Среди задач, которые чаще всего делаются втихую через ChatGPT или аналоги: анализ отчётов, генерация писем, подготовка презентаций и сводок. Больше всего скрытого использования зафиксировано в сферах маркетинга, консалтинга и финансов.

Эксперты говорят о «теневой автоматизации»: когда ИИ уже внедрён, но неофициально. Это создаёт риски для безопасности, корпоративной этики и качества данных, особенно в компаниях с высокой регуляторной нагрузкой.

KPMG предлагает компаниям ввести понятные правила, обучать сотрудников и «не наказывать, а канализировать» инициативу. Иначе корпорации сами не заметят, как у них уже работает ИИ — только никто о нём не знает.

🔗Исследование

❯ Claude Code — 80% кода сгенерировал сам Claude

Anthropic провела внутренний эксперимент и показала, что её ИИ-модель Claude способна взять на себя до 80% разработки программного проекта — от генерации логики до написания документации и тестов.

В тестировании участвовали несколько инженерных команд, которым предложили собрать MVP продукта, используя Claude как партнёра. Выяснилось, что ИИ справляется с архитектурными решениями, структурой кода, фреймворками, автотестами и фиксацией багов. Человеческое участие сводилось к ревью, логике бизнес-процесса и финальной сборке.

Особенность в том, что Claude не просто выдаёт куски кода, а ведёт проект как ментор: предлагает варианты, объясняет решения, спрашивает обратную связь и обновляет подход. Anthropic сравнивает это с «работой продвинутого джуна в связке с сеньором, но оба — в одной модели».

Команда обещает в ближайшее время выложить открытый кейс и методологию. В компании считают, что за таким подходом — новая парадигма в командной разработке: не просто автогенерация, а реальное участие ИИ в инженерии.

🔗 Интервью 🔗Заявление CEO

🔮 Заключение

Подытожим. Вот что происходило на неделе с 12 по 19 мая:

— Codex стал полноценным агентом. Он пишет код, тестирует, объясняет и работает прямо в облаке, как напарник в команде.
— GPT-4.1 и mini — апгрейд без шума. Модели точнее, шустрее и уже доступны всем — даже бесплатно.
— ИИ теперь сам придумывает алгоритмы. DeepMind показала AlphaEvolve — агент, который делает эвристику лучше людей.
— Видео, звук, изображения — всё в real-time. Tencent и Stability AI выпустили генеративки, которые работают быстро и локально.
— Нейросети вышли в гены и на 3D-принтер. Роботы, ДНК-выключатели, нейроинтерфейсы — всё уже здесь.
— Grok поехал. Модель Twitter начала отвечать про геноцид, и это снова вопрос: кто рулит ИИ — люди или алгоритм?

ИИ всё глубже вплетается в жизнь: от кода до любви, от энергии до генетики. Следим, фиксируем и собираем каждую неделю — без шума и лишнего.

Какая новость самая интересная? Пиши в комментах! 👇

Показать полностью 15 5

[моё] Искусственный интеллект Digital Компьютерная графика Нейронные сети Будущее Развитие Технологии Цифровые технологии Робот Дайджест Новости IT It-инфраструктура Репортаж Программа Openai X (Twitter) Чат-бот Google Видео Короткие видео Длиннопост

Партнёрский материал

specials

Сколько нужно времени, чтобы уложить теплый пол?⁠⁠

Точно не скажем, но в нашем проекте с этим можно справиться буквально за минуту одной левой!

Попробовать

Ремонт Теплый пол Текст

wonderlove

1 месяц назад

Искусственный интеллект

Нейро-дайджест: ключевые события мира AI за 5 – 12 мая 2025⁠⁠

Привет! 👋

Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась насыщенной: Google выкатил мощнейшую версию Gemini, Pinterest вернулся в игру с обновлённым AI-поиском, а легендарный Clippy — теперь с нейросетью на борту — снова жив. Всё самое важное — в одном месте. Поехали!

Читать прошлый выпуск

📋 В этом выпуске:

🧠 Модели и LLM
- Gemini 2.5 Pro — апдейт кода, видео и интерфейсов
- Seed-Coder 8B — кодер от ByteDance с фильтрацией
- Mistral Medium 3 — почти Sonnet, но в 7 раз дешевле

🎨 AI-видео
- Luma Reframe — outpaint теперь и для видео
- Project Odyssey — как сделать AI-фильм и не разориться

🛠 AI-инструменты и интерфейсы
- Clippy — возвращение легендарной скрепки с LLM!
- Pinterest — обновление визуального поиска
- AI Mode от Google — поиск стал интерактивнее

🖥 AI в обществе
- Робот-аптекарь в Минске
- Routematic — $40 млн на AI для транспорта
- API LLM — почему цена за токен обманывает?

🧠 ИИ-модели

❯ Gemini 2.5 Pro — апдейт кода, видео и интерфейсов

Google обновила свою флагманскую модель до версии Gemini 2.5 Pro Preview (05-06) — и это одно из самых мощных улучшений в линейке. Модель теперь показывает выдающиеся результаты в программировании, UI-дизайне и работе с видео.

Что изменилось:

— Кодинг и фронтенд: Gemini заняла первое место в рейтинге WebDev Arena, обогнав даже Claude 3.7 Sonnet. Улучшены генерация UI-компонентов, работа с анимацией и точность редактирования кода. Разработчики отмечают баланс скорости и надёжности — особенно в задачах с высокой нагрузкой.

— Видео: модель набрала 84,8% в бенчмарке VideoMME. Это позволило запускать пайплайны, которые раньше были невозможны — например, создавать обучающие веб-приложения прямо из YouTube-видео.

— Интерфейсы и функции: Gemini научилась лучше разбирать визуальные задачи, упрощать фронтенд-логику, сокращать ошибки в вызовах функций и ускорять отклик на сложные команды.

Важно: цена не изменилась. Обновлённая версия уже доступна в Vertex AI, AI Studio и приложении Gemini. Пользователям ничего не нужно переключать — версия 03-25 теперь ссылается на свежий билд 05-06.

🔗 Официальный блог Google 🔗 Обновление для разработчиков 🔗 TechCrunch о релизе

❯ Mistral Medium 3 — почти Sonnet, но в 7 раз дешевле

Французский стартап Mistral представил новую мультимодальную модель Mistral Medium 3, и она уже влетела в топы. По качеству — уровень Sonnet 3.7, по цене — в 7–8 раз дешевле конкурентов.

Главный упор — на задачи программирования и STEM. В этих областях модель обходит LLaMA 4 Maverick и спокойно конкурирует с лидерами. Но самое интересное здесь — цена за миллион токенов: $0,4 на вход и $2 на выход. Это почти беспрецедентно для такого уровня качества.

Mistral Medium 3 пока не open-source, доступ только через API. Но разработчики обещают, что в будущем появится более крупная открытая версия. С учётом тренда на демократизацию моделей — вполне может стать следующим хитом в open-комьюнити.

🔗 Обзор на FutureTools 🔗 Апидог: подробности

❯ Seed-Coder 8B — кодер от ByteDance с фильтрацией

Владельцы TikTok выпустили Seed-Coder 8B — компактную языковую модель, заточенную исключительно под программирование. Несмотря на размер, она обходит даже свежий Qwen 3 на коде и показывает топовый результат среди моделей своего класса.

В чём сила:

— Жёсткая фильтрация данных: модель обучена на «model-centric» пайплайне. Вместо миллиарда сырых примеров — качественный отбор с помощью других LLM. В итоге в датасете остались только хорошо структурированные, читаемые и модульные фрагменты кода.

— Минимум токенов — максимум выхлопа: тренировку провели всего на 6 трлн токенов, а это в 5 раз меньше, чем у конкурентов. Seed-Coder уверенно обходит аналоги своего размера по генерации, автодополнению и решению задач на reasoning.

— Две версии: Instruct — для обычных задач, Reasoning — для более сложных. Обе выложены в открытый доступ и уже тестируются на Hugging Face.

Это редкий пример, когда маленькая модель не просто «дешевле и быстрее», а реально догоняет (и обгоняет) более крупные аналоги — за счёт чистого датасета и архитектурных решений.

🔗 GitHub проекта 🔗 Reasoning-модель на HF 🔗 Instruct-модель на HF 🔗 Обзор на AIBase 🔗 Обсуждение на Reddit

🎬 AI-видео

❯ Luma Reframe — outpaint теперь и для видео

Компания Luma AI добавила в свою платформу функцию Reframe — это полноценный outpaint, который работает не только с изображениями, но и с видео. Теперь можно загрузить ролик, выбрать формат — и ИИ сам достроит недостающие части кадра, как в генеративной графике. Но с движением.

Reframe даёт возможность свободно перемещать объекты, менять пропорции и кадрировать материал под любые форматы: от Instagram Reels до широкоформатного YouTube. Всё это происходит прямо в браузере и не требует глубоких знаний монтажа.

Фича работает на базе Dream Machine, доступна в подписках Unlimited и Enterprise. Уже сейчас ей активно пользуются креаторы, которые адаптируют свои вертикальные ролики под горизонтальные платформы — и наоборот.

🔗 Как пользоваться Reframe

❯ Project Odyssey: сколько стоит минута AI-фильма и почему музыка всё решает

Организаторы крупнейшего конкурса AI-фильмов Project Odyssey: Season 2 опубликовали отчёт по итогам соревнования. 500 финалистов рассказали, какими инструментами пользовались, сколько времени и денег потратили — и что действительно помогает победить.

Средняя стоимость одной минуты AI-видео — $70 на токены и 12 часов работы. Почти все участники тратили 10+ часов на один ролик, и 91% делали это в команде.

Использование ChatGPT для написания сценариев показало низкую эффективность: по «очкам» он проиграл обычным сценаристам. Побеждали те, кто совмещал AI-генерацию с человеческим продакшеном.

Интересный нюанс: ни один финалист с полностью AI-сгенерированной музыкой не получил приз. Весь топ — с живыми саундтреками.

Также Recraft неожиданно обошёл по результативности более популярный Kling — возможно, из-за того, что средний уровень у пользователей последнего был ниже.

Итог: автоматизация — хорошо, но AI всё ещё не заменяет вкус, опыт и монтаж. А вот ускоряет — отлично.

🔗 Project Odyssey 🔗 Отчёт на LinkedIn

🛠 AI-инструменты и интерфейсы

❯ Clippy — возвращение легендарной скрепки с LLM!

Тот самый 📎Clippy из MS Office 97 вернулся как локальный AI-ассистент, который умеет запускать языковые модели прямо у тебя на компьютере. Проект собрал независимый разработчик Felix Rieseberg, оформив всё в ретро-интерфейсе а-ля Windows 98. Получилось не просто мемно, а реально удобно.

Clippy работает оффлайн, не требует установки и поддерживает собственные модели, промпты и настройки. Внутри — связка llama.cpp и node-llama-cpp, которая автоматически подбирает лучший способ запуска модели: CUDA, Metal, Vulkan и так далее. Поддерживаются Windows, macOS и Linux.

Это не просто рофельная оболочка. Clippy — портативный интерфейс для запуска LLM без облаков, без слежки и без лишней сложности. Своего рода «AI с человеческим лицом и ностальгией».

🔗 Официальная страница Clippy 🔗 GitHub проекта 🔗 Обзор на The Register 🔗 Обсуждение на Reddit

❯ Pinterest — обновление визуального поиска

Pinterest обновился – завезли визуальный поиск, и теперь он реально помогает найти то, что нравится. Пока фичи работают только в категории женской моды и только в США, Канаде и Великобритании — но первые отзывы уже отличные.

Теперь при нажатии на пин всплывает анимированное свечение, которое подсвечивает ключевые элементы изображения. После этого Pinterest показывает слова, описывающие, что именно в картинке тебя зацепило — цвет, фасон, материал. За этим стоит визуально-языковая модель (VLM), которая анализирует картинку и превращает её в понятный запрос.

Также можно уточнять поиски: находить похожие вещи, смотреть другие стили или цвета — всё это встроено прямо в ленту. Вдобавок Pinterest начал маркировать изображения, созданные нейросетями, и дал возможность ограничить их показ в ленте — по просьбам пользователей.

Задача сервиса — вернуть себе статус главного AI-инструмента для вдохновения и покупок. Пока выглядит как шаг в правильную сторону.

🔗 Новость на Itzine 🔗 TechCrunch (EN)

❯ AI Mode от Google — поиск стал интерактивнее

Google расширила доступ к AI Mode — теперь он открыт всем пользователям Labs в США. Вместо классической строки поиска ты получаешь интерактивный диалоговый интерфейс, похожий на ChatGPT или Perplexity, но с данными из всей экосистемы Google.

Новое обновление делает поиск ещё удобнее: появляются визуальные карточки с рейтингами, отзывами, ценами и фото. Например, спрашиваешь про винтажные магазины — получаешь список с рабочими часами и кнопкой «как доехать». А если ищешь товар — видишь реальные цены, акции, наличие на складах и даже доставку.

AI Mode также запоминает, что ты искал, и позволяет быстро вернуться к предыдущим темам. Всё работает в одном окне, без кликов по сайтам. Это уже не поиск в привычном смысле, а полноценный AI-помощник для принятия решений.

Пока только на английском и только в США, но очевидно: это тест перед глобальным запуском.

🔗 Официальный блог Google 🔗 Обзор на SiliconANGLE

🏛 ИИ в обществе

❯ Робот-аптекарь в Минске

На вокзале «Минск-Пассажирский» появилась первая в СНГ аптека без фармацевта. Работает она круглосуточно и управляется искусственным интеллектом от российской компании Smart Engines. Покупателю достаточно выбрать препарат на экране, показать паспорт — и робот сам выдаст нужное лекарство.

Внутри установлен стеллаж с 300+ видами безрецептурных препаратов. Робот проверяет возраст по документу, принимает оплату и контролирует температуру внутри капсулы.

Главное — всё работает офлайн, без отправки личных данных. Даже рукописные рецепты и паспорта в неудобных положениях система считывает без ошибок — благодаря нейросетям с архитектурой «Да Винчи».

Разработчики обещают, что в будущем роботы смогут выдавать и рецептурные лекарства, а пока — проходят тестирование в Беларуси. В России такая система уже используется в банках, нотариатах и аэропортах, но в аптеке — впервые.

🔗 CNews

❯ Routematic — $40 млн на AI для транспорта

Индийский стартап Routematic привлёк $40 млн инвестиций в рамках раунда Series C. Деньги пойдут на развитие AI-решений для логистики и корпоративных перевозок, а также на расширение парка электромобилей с ИИ-навигацией.

Главная фишка компании — использование нейросетей для оптимизации маршрутов: учёт пробок, загрузки машин, времени ожидания и даже предпочтений сотрудников.

Система уже работает у крупных заказчиков в Индии, а теперь Routematic выходит на рынки Юго-Восточной Азии и Ближнего Востока.

Фокус — на автоматизации: ИИ планирует смены водителей, строит расписания и помогает сократить расходы на топливо и рабочее время. По сути, это AI-диспетчерская, которая управляет корпоративным транспортом без участия человека.

🔗 Новость на Moneycontrol 🔗 Анонс на LinkedIn

❯ API LLM — почему цена за токен обманывает?

Платишь за токены, но переплачиваешь в разы — ArtificialAnalysis показал, что «цена за миллион токенов» почти ничего не говорит о реальной стоимости задач. Всё решают скрытые факторы: многословность модели, контекст, формат вывода и поведение на промптах.

Например, Gemini 2.5 Flash с reasoning может обойтись в 150 раз дороже, чем та же версия без reasoning — даже если цена за токен почти не отличается. А o4-mini, при том что дороже по токенам, в ряде задач оказывается дешевле на практике, потому что пишет короче и не тратит лишнее.

Особенно это критично при масштабировании — когда ты запускаешь сотни или тысячи запросов. Модели с красивым прайсом вроде $1/млн токенов могут выдавать в 2.5–3 раза больше текста, чем нужно. А это уже реальные деньги.

Вывод: перед внедрением LLM в продукт нужно тестить не прайс, а итоговую стоимость в боевых задачах.

🔗 ArtificialAnalysis 🔗 TechGov о проблеме ценообразования

🔮 Заключение

Подытожим. Вот что происходило на неделе с 5 по 12 мая:

— Gemini на максималках: Google докрутил кодинг, видео и интерфейсы — и теперь реально претендует на первое место среди LLM.
— Open-source по-прежнему давит снизу: Seed-Coder и Mistral Medium показывают, что маленькие модели могут бить больших, если правильно фильтровать данные.
— Инструменты всё ближе к пользователю: Clippy — уже не шутка, Pinterest — не просто вдохновение, а полноценный визуальный AI-поиск.
— ИИ лезет в оффлайн: от аптек и транспорта до диспетчеров и ассистентов.
— Деньги решают — но не так, как ты думал: API может стоить копейки за токен и при этом сжирать бюджет на ровном месте.

AI всё глубже проникает в жизнь. Он уже не просто рисует картинки — он управляет логистикой, помогает в аптеке и диктует, как строить поиск. И каждую неделю эта граница смещается всё дальше.

Какая новость поразила тебя больше всего? Пиши в комментах! 👇🏻

Показать полностью 8 2

[моё] Искусственный интеллект Digital Компьютерная графика Нейронные сети Будущее Развитие Технологии Цифровые технологии IT It-инфраструктура Дайджест Репортаж Новости Программа Openai Чат-бот Робот Видео Короткие видео Длиннопост

wonderlove

1 месяц назад

Искусственный интеллект

Нейро-дайджест: ключевые события мира AI за 28 апреля – 4 мая 2025⁠⁠

Привет! 👋

Меня зовут Вандер и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя с 28 апреля по 4 мая 2025 года выдалась щедрой на новинки: китайские модели, которые наступают на пятки OpenAI, подкасты из PDF на русском и кот с квантовой непредсказуемостью, претендующий на сознание — я собрал в одном месте только самое важное и только то, что реально интересно и полезно. Поехали!

Предыдущий выпуск тут.

📋 В этом выпуске:

🧠 ИИ-модели

Qwen3 от Alibaba — китайская альтернатива OpenAI с открытым кодом
DeepSeek Prover-V2 — 671B модель для формальных доказательств
OLMo 2 от AI2 — крошка на 1B, уделывает Meta и Google

🛠 ИИ-Инструменты и интерфейсы

Подкасты на русском в NotebookLM
AI Mode — новый поиск от Google по всей Америке
Реклама Microsoft, которую сделал ИИ
Qwen, DeepSeek и Gemma — теперь в Yandex Cloud
Suno 4.5 — генерация треков до 8 минут
Duolingo запускает 148 курсов за год с помощью ИИ

🧪 Исследования и технологии

Anthropic заглядывает в «чёрный ящик» нейросетей
ИИ комментирует спорт в реальном времени
ИИ и кибербезопасность: главное с RSA 2025

Квантовый кот и теория сознания
Gemini 2.5 прошла Pokemon Blue
ChatGPT определяет геолокацию по фото

🏛 ИИ в обществе

Рой Ли — $3 млн с ИИ-помощником и отчисление
Люси Го — самая молодая миллиардерша
Фиби Гейтс — ИИ для шопинга и $500 тыс. от Кардашьян
Самое маленькое в мире искусственное сердце — и спасённый ребёнок

🧠 ИИ-модели

❯ Qwen3 от Alibaba — гибридные режимы, 119 языков и открытый код!

29 апреля Alibaba выпустила Qwen3 — новую линейку языковых моделей, которая сразу хайпанула во всём AI-сообществе. Это серьёзный шаг вперёд: мощные возможности, поддержка множества языков и полный open-source.

Главная фишка — гибридный режим работы. Модель умеет «включать мозги» только тогда, когда это нужно.

Если задача сложная — активируется режим глубокого анализа.

Если вопрос простой — Qwen3 отвечает быстро и без лишних вычислений.

Пользователь сам управляет поведением модели с помощью тегов вроде /think и /no_think, подстраивая отклик под задачу.

В техническом плане Qwen3 стала заметно умнее. Она лучше справляется с логикой, кодом и математикой, точнее следует инструкциям, увереннее ведёт диалоги и пишет более естественные тексты.

Ещё один важный плюс — поддержка 119 языков и диалектов, включая русский. Модель спокойно переключается между языками и уверенно работает в многоязычных средах.

Также Qwen3 улучшили для задач автоматизации: она точнее интегрируется с внешними сервисами и подходит для создания AI-агентов. Alibaba предлагает для этого собственный фреймворк Qwen-Agent.

И наконец — открытый код. Все восемь моделей семейства (от компактной 0.6B до огромной 235B MoE) выложены под лицензией Apache 2.0. Их можно свободно использовать, модифицировать и применять в коммерческих проектах.

Модели уже доступны на Hugging Face, ModelScope и Kaggle.

🔗 Официальный блог Qwen3 🔗 Коллекция Qwen3 на Hugging Face 🔗 Репозиторий Qwen3 на GitHub 🔗 Пресс-релиз Alibaba Group 🔗 Обзор на PureVPN 🔗 Документация Qwen (Основные концепции)

Как Qwen справляется с задачами?

Конечно, главный вопрос — насколько новая модель конкурентоспособна. Бенчмарки показывают, что Qwen3 действительно сражается на равных с топами от OpenAI, Google и DeepSeek.

Флагманская модель Qwen3-235B-A22B обошла o3-mini от OpenAI в тестах AIME (математика) и BFCL (логика). В программировании (бенчмарк Codeforces) она немного обогнала Gemini 2.5 Pro от Google и значительно — DeepSeek-R1.

В тесте Arena-Hard — одном из самых сложных на рассуждение — Qwen3-235B набрала 95.6 балла, что выше, чем у GPT-4o (89.0) и DeepSeek-R1 (90.2), и немного уступает только Gemini 2.5 Pro (96.4).

Но есть и слабые места. В LiveCodeBench модель пока уступает o4-mini (70.7% против 80%), а в AIME’24 набрала 85.7% — против 94% у той же o4-mini. Тем не менее, средняя модель Qwen3-32B уже превосходит o1 от OpenAI, а Qwen3-30B-A3B показывает отличные результаты в ряде других тестов.

Вывод: Qwen3 — это не просто open-source альтернатива. Это реальный конкурент крупнейшим проприетарным моделям, особенно в математике, коде и логике. Да, в некоторых задачах закрытые модели всё ещё впереди, но разрыв сокращается. И это — большой шаг для всего сообщества открытого ИИ.

🔗 Обзор бенчмарков на Analytics India Mag 🔗 Обсуждение на Reddit (vs OpenAI/Google) 🔗 Обзор на DataCamp 🔗 Сравнение на DEV Community 🔗 Обзор на AInvest о данных обучения

❯ DeepSeek Prover-V2 — 671B модель для формальных доказательств

Китайский стартап представил Prover-V2 — одну из самых специализированных и масштабных языковых моделей на сегодня.

Её задача не поболтать с пользователем, а доказывать математические теоремы. Причём делает она это на уровне преподавателей вышмата.

Модель построена на базе DeepSeek V3, весит внушительные 671 миллиарда параметров и заточена под работу с математикой в формальном виде. Это значит, что Prover не просто «понимает математику», а пишет доказательства на специализированных языках — вроде Lean или Isabelle.

Используется она, в первую очередь, для задач из области автоматизированного доказательства, матлогики и фундаментальных исследований.

Что интересно, в паре с Prover-V2 сразу вышла её уменьшенная версия — своего рода «мини-Prover», сделанная на базе прежней модели V1.5 (7B). Так что попробовать её возможности можно даже без супермашины.

Prover-V2 пока недоступна в виде чат-бота и не подойдёт для повседневных задач вроде написания кода или эссе. Но для научного сообщества, студентов-математиков и всех, кто интересуется формальными системами рассуждений — это прорыв.

🔗 Попробовать в OpenRouter (бесплатно) 🔗 Модель на Hugging Face 🔗 Обсуждение на Reddit

❯ OLMo 2 от AI2: компактная модель, которая обходит гигантов

Исследовательский институт AI2 (Allen Institute for AI) выпустил OLMo 2 1B — небольшую open-source модель с всего 1 миллиардом параметров, но с результатами, которые заставляют обратить на неё внимание. По ряду задач она превзошла аналогичные модели от Google, Meta и Mistral.

OLMo 2 задумывалась как полностью прозрачная и воспроизводимая: открыты не только веса, но и код, пайплайн обучения, токенизатор и сами данные. Это делает её полезной не только для разработчиков, но и для исследователей и команд, которым важно понимать, как модель устроена изнутри.

В качестве тренировочного корпуса использовался Dolma v1.7 — тщательно отобранный датасет объёмом 3 триллиона токенов. Архитектура напоминает LLaMA, но с рядом доработок: улучшенные инициализации, прогрессивная обрезка контекста, более аккуратный токенизатор.

На практике OLMo 2 показала лучшие результаты в своём классе в бенчмарках ARC, HellaSwag, PIQA и даже на ряде задач по генерации кода. Особенно отмечается устойчивость к галлюцинациям — а это важный показатель для маломасштабных моделей.

🔗 Новость на TechCrunch

🛠 ИИ-Инструменты и интерфейсы

❯ NotebookLM от Google: подкасты на русском и интерактивные дикторы

Google обновила свой ИИ-сервис NotebookLM, превратив его из помощника для чтения документов в полноценный инструмент для создания подкастов — причём на 70+ языках, включая русский, китайский и даже латынь.

Идея проста: ты загружаешь текст, PDF, ссылку на сайт или видео — а NotebookLM превращает это в подкаст с двумя ведущими, которые обсуждают материал в формате живого разговора. Всё — с опорой на твои файлы, и всё — с озвучкой на выбранном языке. Поддержка русского теперь официально работает, и звучит вполне прилично.

Самое интересное — интерактивный режим. Пока он доступен только на английском, но уже даёт почувствовать, куда движется формат: во время воспроизведения можно вмешаться или задать вопрос — и диктор ответит прямо в эфире. Это почти как поговорить с нейросетью вслух.

Сценарии использования — от учебных подкастов и генерации сводок до быстрых брифингов на ходу. Для исследователей и контент-мейкеров — это инструмент, который реально экономит время.

🔗 Официальный сайт NotebookLM 🔗 Документация по языкам озвучки

❯ AI Mode от Google: поиск превращается в диало

Google запустила в США новый режим поиска — AI Mode, который превращает привычную строку запросов в полноценный диалоговый интерфейс, напоминающий ChatGPT или Perplexity. Это не эксперимент: функция стала полноценной вкладкой в Google Search — рядом с «Картинками» и «Картами».

Что внутри? Диалоговый формат запросов, быстрые карточки с ответами, генерация списков, подборок, советов и даже промтов. Всё это работает поверх привычной выдачи и использует возможности модели Gemini. Результаты можно править, переспросить или уточнить прямо в окне ответа, не уходя на сайты.

Для пользователя это означает переход от поиска как «вопрос → ссылка» к контекстному взаимодействию, где система действительно старается понять, что именно нужно.

Сценарии использования самые разные: от «сравни этот ноутбук с этим» до «распиши маршрут на два дня в Киото». И всё это — в диалоге.

Сейчас AI Mode работает только на английском и только в США, но это явно бета перед глобальным запуском.

🔗 AI Mode на Google Labs

❯ Рекламу Microsoft сделал ИИ — и никто не заметил!

В начале года Microsoft выпустила минутный рекламный ролик для своих Surface-устройств — ноутбуков и планшетов. Видео вышло обычным, без акцентов на технологии. А спустя три месяца компания призналась: почти всё сделано с помощью генеративного ИИ.

Сценарий, визуальный стиль, композиция сцен, даже переходы — всё это было сгенерировано. Художники описывали боту, что хотят видеть, получали варианты, уточняли — и так сотни раз, пока не добились нужного результата. В кадрах, где требовалась реалистичная работа рук, использовались актёры. Остальное — синтез.

Ни в названии, ни в описании, ни в YouTube никто не указал, что ролик сгенерирован. За несколько месяцев видео набрало десятки тысяч просмотров — и ни у кого не возникло подозрений.

Этот кейс — важный маркер. Он показывает, что ИИ-тулзы уже не просто эксперименты, а полноценные участники производственного цикла: от идеи до монтажа. Особенно в рекламе, где счёт идёт на кадры и эмоции.

🔗 Видео на YouTube 🔗 Закулисная статья Microsoft Design

❯ Qwen, DeepSeek и Gemma — теперь в Yandex Cloud

В Yandex Cloud стали доступны VLM и текстовые модели через API, включая популярные open-source семейства — Qwen 2.5, DeepSeek VL2, Gemma3 и LLaMA 3.3. Всё это теперь можно вызывать напрямую, без необходимости разворачивать инфраструктуру.

Формат — Batch Processing API: пользователь отправляет пачку запросов и получает ответы в течение дня со скидкой до 50%. Это не real-time, но для задач вроде генерации описаний, обработки массивов документов или создания тестов — вполне рабочий вариант.

Особенность обновления — появление визуально-языковых моделей (VLM). Они могут работать с изображениями и текстом одновременно: генерировать описания, обобщать визуальный контент, решать мультимодальные задачи.

Плюс — теперь можно использовать и ризонеры: модели, заточенные под логические цепочки и рассуждение. В числе доступных — QwQ и DeepSeek R1.

Для российского рынка это важное событие: open-source модели мирового уровня теперь доступны из облака, легально, с понятной документацией и поддержкой.

🔗 Официальный анонс в блоге Yandex Cloud

❯ Suno v4.5: генерация треков до 8 минут и чище звучание

Suno выпустила обновление версии 4.5 — и это, похоже, один из самых заметных апгрейдов в сфере генеративной музыки за последние месяцы.

Главное нововведение — поддержка треков до 8 минут длиной, причём с более стабильной структурой: куплеты, припевы, переходы. Это приближает нейросеть к реальному музыкальному продакшену.

Ещё одно важное улучшение — повышенное качество инструментов. Раньше всё звучало немного «в кашу», особенно барабаны и басы. Теперь инструменты распознаются лучше, звучат отдельно и чище, треки в целом стали менее мыльными и ближе к студийному качеству.

Добавили и больше жанров — теперь Suno умеет работать с электроникой, прог-роком, альтернативой и экспериментальными стилями. Алгоритм стал точнее угадывать настроение, темп и форму.

Пока доступ к v4.5 открыт только для подписчиков, но для тех, кто работает с генеративной музыкой — обновление стоящее.

🔗 Создание треков на сайте Suno 🔗 Новость в Telegram

❯ Duolingo запускает 148 новых курсов — с помощью ИИ

Duolingo представила сразу 148 новых языковых курсов, и почти все они были созданы с помощью генеративного искусственного интеллекта. По словам CEO Луиса фон Ана, то, на что раньше уходили годы ручной работы, теперь делается за несколько месяцев.

Для сравнения: разработка первых 100 курсов платформы заняла почти 12 лет. А теперь за год — почти полтора раза больше, и с адаптацией под 28 языков, включая региональные и менее распространённые.

ИИ помогает не только с написанием и переводом уроков, но и с адаптацией культурного контекста, генерацией упражнений, примеров, тестов и даже голосовой озвучкой. Это особенно важно, чтобы курсы чувствовались живыми, а не «склеенными нейросетью».

Компания заявляет, что планирует и дальше перевести образовательную часть на «AI-first» подход, включая замену части контрактных авторов автоматикой.

Duolingo — один из первых массовых EdTech-сервисов, который полноценно автоматизирует создание контента, и эта новость — сигнал всем образовательным платформам.

🔗 Официальный пресс-релиз Duolingo

🧪 Исследования и технологии

❯ Anthropic пытается вскрыть «чёрный ящик» нейросетей

Исследователи из Anthropic — создатели моделей Claude — представили новый подход к интерпретации больших языковых моделей, который может помочь понять, что именно происходит внутри нейросети, когда она «думает».

Проблема в том, что поведение LLM до сих пор во многом остаётся непрозрачным: модели могут давать точные ответы, но мы не понимаем, как именно они к ним приходят. Это мешает доверию, безопасности и разработке более управляемых систем.

Anthropic разработала методику, которая позволяет разложить внутренние представления модели на компоненты. По сути — это попытка посмотреть в голову ИИ и увидеть, какие «мысли» возникают на разных этапах генерации. Авторы называют это «mechanistic interpretability» — механистическим пониманием.

Зачем это нужно?

Чтобы понять, почему модель галлюцинирует — и как это предотвратить
Чтобы настроить модель под конкретные логические или этические требования
И в перспективе — создать более безопасный и проверяемый ИИ

Исследование только в начале пути, но это одно из самых многообещающих направлений в AI-безопасности прямо сейчас.

🔗 Статья на Fortune о методике Anthropic

❯ Live CC-7B: ИИ-комментатор с задержкой меньше секунды

Команда из Национального университета Сингапура представила модель Live CC-7B, способную комментировать спортивные события в реальном времени — с задержкой менее 0,5 секунды. Это одна из первых попыток превратить ИИ в полноценного диктора для живых трансляций.

В отличие от типичных генеративных моделей, которые «думают» дольше, Live CC-7B работает почти в прямом эфире, адаптируясь под события и меняющуюся обстановку. ИИ анализирует поток данных — текстовых, аудио или визуальных — и превращает их в внятный, связный комментарий.

Пример: модель может следить за матчем и на лету выдавать реплики вроде «опасный момент у ворот» или «игрок нарушил правила — судья поднимает карточку». Всё — без сценария и без предварительной подготовки.

Разработчики считают, что такая модель может быть полезна не только в спорте, но и в новостных лентах, аналитике рынков, игровых стримах и любых ситуациях, где важна быстрая реакция на происходящее.

🔗 Подробности на University-365

❯ RSA 2025: как ИИ меняет кибербезопасность

На прошедшей в Сан-Франциско конференции RSA 2025 тема ИИ звучала особенно громко. В центре внимания — как нейросети помогают защищаться от атак, но также и как их используют сами злоумышленники.

Cisco представила новую open-source модель безопасности на 8B параметров, которую можно интегрировать в системы анализа угроз. А Google Cloud поделился исследованиями о том, как продвинутые хак-группы (APT) уже используют LLM — для фишинга, автоматического поиска уязвимостей и генерации вредоносных сценариев.

На панелях обсуждали и вопросы кооперации: крупные игроки говорят о необходимости делиться инструментами и знаниями, чтобы реагировать быстрее. ИИ позволяет ускорить реакцию на угрозу, но и поднимает новые вопросы о прозрачности, этике и контроле.

Вывод: кибербезопасность в эпоху ИИ — это не просто гонка технологий, а вопрос архитектуры доверия. RSA 2025 стала напоминанием: если ты не используешь ИИ для защиты — его используют против тебя.

🔗 Прямая трансляция на ITPro

❯ Квантовый кот Nirvanic: эксперимент на грани науки и философии

На конференции MARS 2025, которую ежегодно проводит Джефф Безос, канадский стартап Nirvanic представил робота KitCat — первого ИИ-агента, управляемого квантовой неопределённостью.

KitCat — это не просто милый робот с камерой. Его движения выбираются не алгоритмом, не случайностью, а квантовым суперпозицией. Сигнал с камеры дважды в секунду отправляется на квантовый компьютер D-Wave, где каждый раз из 32 возможных вариантов действий выбирается следующий — не предсказуемо, а физически неопределённо.

Зачем это всё? Команда Nirvanic пытается проверить гипотезу квантового сознания, которую ещё в 1990-х выдвинули Роджер Пенроуз и Стюарт Хамерофф. Согласно ей, наше мышление может зависеть от квантовых эффектов в микротрубочках нейронов мозга.

Чтобы это проверить, исследователи проведут миллионы итераций с двумя версиями KitCat: одна управляется классическим процессором, вторая — квантовым. Если поведение во втором случае будет статистически отличаться — это станет аргументом в пользу гипотезы.

Даже если теория не подтвердится, сам эксперимент уже важен: он может показать, как квантовые компьютеры способны управлять физическими системами в реальном мире.

🔗 Краткий отчёт на University-365

❯ Gemini 2.5 прошла Pokemon Blue — но с подсказками

Недавно стало известно, что модель Gemini 2.5 Pro от Google прошла классическую игру Pokemon Blue от начала до конца.

Это не просто забавный факт — а заметный шаг вперёд в способности ИИ взаимодействовать с интерактивной средой, где нет чёткого текста, а есть правила, реакции и неизвестность.

Несколько месяцев назад подобную задачу пробовали дать Claude — и та застряла в самом начале. Gemini справилась: анализировала экран, принимала решения, управляла персонажем и прошла весь сюжет.

Но не всё так просто. У модели был доступ к игровому движку, а не только к изображению с экрана. Кроме того, в промпт добавили подсказки, и, возможно, Gemini опиралась на информацию из обучающих данных (включая советы и прохождения).

Это означает, что результат — не чистый zero-shot, и говорить о превосходстве над другими моделями пока рано. Но как демонстрация возможностей LLM в среде с агентной логикой — это очень мощный шаг.

Сейчас Google не выкладывает систему в открытый доступ, но очевидно — такие эксперименты уже становятся бенчмарками, и за ними стоит следить.

🔗 Новость на TechCrunch

❯ ChatGPT определяет локацию по фотографии

С новыми мультимодальными моделями o3 и o4-mini ChatGPT научился делать больше, чем просто анализировать текст. Теперь он может угадывать локацию по фотографии — без EXIF-данных, GPS или подсказок. Только визуальный контент.

Как это работает? Модель анализирует детали изображения: архитектуру, стиль вывесок, язык, растительность, тип дороги, даже форму почтовых ящиков. При необходимости поворачивает, приближает и интерпретирует. И выдает:

страну,
предполагаемую широту и долготу,
и подробное обоснование, как она к этому пришла.

В промптах уже появился отдельный шаблон: «You are participating in a geolocation challenge…». С его помощью ChatGPT реально угадывает города и районы — особенно в США и Европе, где у модели больше визуального контекста.

Это может стать основой для новых бенчмарков по визуальному рассуждению, и уже используется в челленджах наподобие GeoGuessr.

Важно: распознавание лиц и частной информации отключено. OpenAI подчёркивает, что модель «не предназначена для слежки», и старается отказываться от подобных задач.

🔗 Разбор фичи на TechCrunch

🏛 ИИ в обществе

❯ $3 млн, бан из универа и новая платформа: как студент придумал ИИ для собеседован

Осенью 2024 года студент Колумбийского университета Рой Ли (Чунгин Ли) с другом за 10 дней собрал Interview Coder — ИИ-инструмент, который помогает проходить технические собеседования на платформах вроде LeetCode.

Инструмент оказался рабочим: Рой получил офферы от Meta, TikTok, Amazon и Capital One*. Но когда видео одного из интервью стало вирусным, Amazon потребовал удалить его, а университет обвинил Ли в использовании ИИ для списывания и отчислил его до мая 2026 года.

Реакция Ли была дерзкой и вирусной:

«Может, хватит задавать тупые вопросы на собеседованиях — тогда люди не будут создавать подобную фигню».

И вот — через месяц он запускает новую платформу Cluely. Это расширенная версия Interview Coder, которую можно использовать не только на собеседованиях, но и на экзаменах, встречах и даже свиданиях. Подъём финансирования — $5,3 млн за три дня, подписки — уже $3 млн годовой выручки.

Сейчас Ли публично предлагает «взломать» любую систему, где царит формальность и автоматизм. Он не отрицает, что его подход вызывает вопросы — но считает, что ИИ должен менять не только технологии, но и устаревшие процессы оценки людей.

🔗 Сайт Interview Coder 🔗 Обсуждение в LinkedIn 🔗 Twitter Роя Ли

❯ Люси Го — новая самая молодая миллиардерша из AI-сферы

Люси Го, соосновательница Scale AI, официально стала самой молодой женщиной-миллиардером, обогнав по этому статусу Тейлор Свифт. Причина — крупная сделка с инвесторами, позволившая ранним сотрудникам и фаундерам продать доли, и резкий рост оценки компании до $25 млрд.

Го покинула Scale AI ещё в 2018 году — на фоне выгорания и разногласий с партнёром Александром Ваном. Но она сохранила 5% акций, которые сегодня оцениваются в $1,25 млрд.

До Scale AI она бросила университет, получив $100 000 от фонда Питера Тиля, стажировалась в Facebook*, работала в Quora и Snapchat. После ухода из основного проекта запустила венчурный фонд Backend Capital и платформу Passes — конкурента Patreon и OnlyFans, который уже оценён в $150 млн.

Сейчас Люси активно инвестирует в стартапы и ведёт блог, не стесняясь конфликтов.

«Мне комфортно в хаосе», — говорит она. И рынок это, похоже, ценит.

🔗 Биография Люси Го на Inc.

❯ Фиби Гейтс запустила ИИ-сервис для шопинга — и привлекла $500 000

Фиби Гейтс, младшая дочь Билла Гейтса, вместе с соседкой по общежитию Софией Кианни запустила Phia — ИИ-приложение, которое ищет одежду и аксессуары дешевле, сканируя десятки тысяч сайтов и маркетплейсов.

Phia не просто агрегирует цены, а отслеживает завышения, подсказывает альтернативы, ищет среди частных продавцов и даёт рекомендации на основе пользовательских предпочтений. Всё — через один клик.

Идея родилась, когда Фиби обнаружила купленное за $500 платье всего за $150 на сайте перепродажи. Она почувствовала себя, по её словам, «глупо» — и решила, что это можно автоматизировать.

Проект сразу получил $500 тыс. инвестиций — причём не от папы, а от Крис Дженнер (семейство Кардашьян), основательницы Spanx Сары Блейкли и венчурной инвесторки Джоанн Брэдфорд. Сам Билл Гейтс только одобрил идею морально, но участия не принимал — «чтобы избежать конфликта интересов».

Phia уже доступна в App Store и ориентирована в первую очередь на женскую аудиторию, фанатов скидок и resale-культуры. В описании — «мы те самые подруги, которые ссорятся из-за платья и сидят часами на шоп-сайтах».

🔗 Phia в App Store 🔗 Статья в NYTimes о запуске

❯ Самое маленькое искусственное сердце спасло семилетнего мальчика в Китае

В китайском городе Ухань врачи провели уникальную операцию: семилетнему ребёнку с тяжёлой сердечной недостаточностью имплантировали самое маленькое в мире искусственное сердце — всего 2,9 см в диаметре и весом 45 граммов.

Это устройство — не просто миниатюрная копия взрослых аппаратов. Оно работает на магнитной подушке: вращающиеся элементы не касаются стенок и не создают трения. Это снижает риск осложнений и делает сердце пригодным даже для очень маленьких пациентов.

У мальчика была диагностирована дилатационная кардиомиопатия, и его сердце перестало справляться с кровообращением. Донор не находился, и врачи приняли решение использовать искусственное сердце как временную поддержку до пересадки.

Операция длилась 5 часов. Уже на следующий день ребёнок начал дышать самостоятельно, функции сердца стабилизировались. Сейчас он восстанавливается и ждёт пересадку.

По данным китайского Минздрава, ежегодно в стране госпитализируют около 40 тысяч детей с тяжёлой сердечной недостаточностью, но пересадку получают меньше 100. Новый аппарат — совместная разработка медиков и биотех-стартапа Shenzhen Core Medical — даёт шанс многим из них.

🔗 Официальная новость на Xinhua

🔮 Заключение

Подытожим. Вот что происходило на неделе с 28 апреля по 5 мая:

Open-source модели типа Qwen3 и DeepSeek уже догоняют GPT-4
Компактные LLM вроде OLMo 2 уделывают гигантов в ключевых задачах
AI подкасты, музыка, реклама, обучение — генеративка буквально везде
Всё больше инструментов для работы, автоматизации, создания агентов
Появляются вопросы — про сознание, галлюцинации, приватность

ИИ уже не тренд — это новая реальность, которую ты принимаешь или не принимаешь.
Интерфейсы, роли и привычки – всё меняется.

Какая новость поразила тебя больше всего? Пиши в комментах! 👇🏻

Показать полностью 12 4

[моё] Искусственный интеллект Нейронные сети Digital Будущее Развитие Технологии Цифровые технологии IT It-инфраструктура Дайджест Новости Программа Openai ChatGPT DeepSeek Suno Компьютерная графика Видео Короткие видео Длиннопост

wonderlove

2 месяца назад

Искусственный интеллект

Нейро-дайджест: ключевые события мира AI за 21–27 апреля 2025⁠⁠

Привет!

Меня зовут Вандер и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя с 21 по 27 апреля выдалась горячей: свежие апдейты от OpenAI, новые лимиты, буря вокруг Deep Research и долгожданные интеграции мультимодальных моделей — всё это я собрал в одном месте. Только самое важное и только то, что реально интересно и полезно. Поехали!

Предыдущий выпуск тут

📋 В этом выпуске

Разработки OpenAI
- API для Image Generation через GPT
- Удвоение лимитов для o3 и o4-mini
- Облегченный Deep Research

Достижения в генерации видео
- References для Runway Gen-4

ИИ в исследованиях
- Новый способ обучения моделей

Развивающиеся приложения ИИ
- Мобильное приложение Qwen от Alibaba
- DeepSeek + BMW — интеграция AI в автомобили для Китая

Интересные новости
- Роботы бегут полумарафон в Китае
- «Спасибо» и «пожалуйста» стоят миллионы долларов для OpenAI
- Альтернативная космология без тёмной материи
- Мозг композитора пишет музыку после смерти
- Люди стали больше пользоваться AI, но меньше доверяют AI-компаниям
- inTouch — бот, который звонит родственникам
- DxGPT — диагностика редких болезней на ИИ

ИИ в управлении и обществе
- ОАЭ подключают AI к написанию законов
- Meta внедрила AI для выявления подростков в Instagram
- AI впервые упомянут в правилах «Оскара»
- Grok получил компьютерное зрение
- Vozo — перевод видео с сохранением оригинального голоса
- Krea — генерация виртуальных миров

🧠 Разработки OpenAI

❯ API для Image Generation через GPT

OpenAI выпустила новый API для генерации изображений на основе модели gpt-image-1 — той же технологии, что лежит в основе ChatGPT. Модель генерирует изображения, точно понимает текстовые инструкции, корректно отображает надписи и даже справляется с мировыми знаками.

Сейчас её используют крупные платформы: Gamma рисует диаграммы, HeyGen улучшает аватары, OpusClip делает миниатюры для YouTube, а Quora подбирает изображения к текстам. Photoroom, Canva и Wix интегрировали API в свои дизайнерские сервисы.

gpt-image-1 работает быстро и точно, но высокая стоимость и оплата по количеству токенов могут сделать использование модели дорогим для проектов с большими объемами генераций.

🔗 Документация OpenAI 🔗 Официальный анонс OpenAI 🔗 Сравнение моделей 🔗 Обсуждение на Reddit

❯ Удвоение лимитов для o3 и o4-mini

В апреле OpenAI увеличила лимиты для ChatGPT Plus: o3 теперь даёт 100 сообщений в неделю, o4-mini — 300 сообщений в день. Модели получили доступ ко всем инструментам и заменили старые версии.

Пользователи получили больше возможностей для работы, но вместе с этим упало качество: хуже пишется код, чаще обрываются длинные ответы, появляются ошибки в больших промптах. Хотя OpenAI обещала 128–200 тысяч токенов контекста, на практике возникают проблемы.

Важно: старые версии o3-mini-high и o1 убрали. Многие недовольны.

🔗 OpenAI FAQ 🔗 TechRadar 🔗 Reddit

❯ Облегченный Deep Research

OpenAI открыла для всех облегченную версию Deep Research на o4-mini, а полная версия на o3 осталась только у платных пользователей.

Особенности:

Бесплатно — 5 задач в месяц, Plus — 25, Pro — 250
Ответы короче и более сжато, после исчерпания лимита — автоматический переход на light-версию
Полный Deep Research глубже, с цитатами и длинными выводами

Выводы пользователей:

Для базовых нужд light-Deep Research — достаточно.
Для научных и серьёзных задач требуется платная подписка.

🔗 ApiX-Drive 🔗OpenTools.ai 🔗 Tech in Asia 🔗 OpenAI FAQ

🎥 Достижения в генерации видео

❯ References для Runway Gen-4

Runway добавила в модель Gen-4 функцию референсов. Теперь можно загрузить изображение персонажа или объекта и сохранить его внешний вид на всех кадрах видео. Это важно для создания анимаций и историй с постоянными героями.

Также появилась функция Coverage — сервис умеет генерировать разные ракурсы по одному референсу. Это упрощает работу с рекламой, соцсетями и короткими фильмами.

Технология улучшает целостность видео, но при сложных переходах и длинных роликах могут появляться артефакты. На некоторых форматах система работает нестабильно.

🔗 Runway 🔗 No Film School 🔗 DataCamp

🔬 ИИ в исследованиях

❯ Новый способ обучения моделей

Появился новый подход к обучению больших языковых моделей. Теперь эталонная модель обновляется прямо во время обучения, а не фиксируется заранее. Это помогает избежать переобучения и лучше подстраивать ответы под людей.

Метод основан на принципе Trust Region: модель можно менять, но только в пределах допустимых отклонений, чтобы не терять качество. Используются три варианта: TR-DPO, TR-IPO и TR-KTO — разные способы аккуратного обновления модели на каждом шаге.

Авторы проверили подход на тестах AlpacaEval 2, Arena-Hard и GPT-4. Результаты показали реальный рост качества: модели лучше справляются с задачами и получают высокие оценки от пользователей.

🔗OpenReview 🔗Hugging Face 🔗arXiv

🚀 Развивающиеся приложения ИИ

❯ Мобильное приложение Qwen от Alibaba

Alibaba выпустила мобильную версию своей языковой модели Qwen. Приложение работает на смартфоне без постоянного подключения к облаку. Это важно для приватности, автономной работы и использования в местах с плохим интернетом.

Модель умеет генерировать текст и код, обрабатывать изображения и документы. Вся обработка происходит локально, данные не уходят в облако. Приложение оптимизировано под ARM-процессоры и работает на Android и iOS. Сейчас поддерживаются китайский и английский языки, русская версия в планах.

Решение подходит путешественникам, журналистам и пользователям в регионах с цензурой или слабым интернетом. Также Qwen интересен компаниям, которые хотят строить свои мобильные приложения на базе локальной LLM.

Приложение работает в России без VPN.

🔗 Приложение для iOS 🔗 Приложение для Android

❯ DeepSeek + BMW — интеграция AI в автомобили для Китая

Китайская компания DeepSeek объявила о партнёрстве с BMW. Их языковые модели теперь встроены в автомобили, выпущенные для китайского рынка.

ИИ управляет голосовым ассистентом, понимает длинные и сложные команды, помогает в навигации и динамически подсказывает маршруты. Также система связана с мультимедиа, климат-контролем и диагностикой автомобиля. За счёт глубокой локализации ИИ распознаёт китайский язык, сленг и авто-термины.

Проект усиливает конкуренцию между DeepSeek, Baidu и Huawei на рынке ИИ в Китае. Это один из первых реальных шагов к созданию «умных» автомобилей, способных работать без постоянного участия человека.

🔗 BMW China 🔗 DeepSeek AI

🛠️ Полезные инструменты ИИ

❯ Lovable — конструктор AI-приложений без кода

Онлайн-сервис Lovable обновился: появился улучшенный интерфейс, встроенный редактор кода для тонкой настройки проектов и поддержка совместной работы над одним приложением.

Lovable позволяет создавать сайты, игры и полезные сервисы без написания кода. Нужно только описать идею боту, приложить изображения или даже нарисовать от руки набросок интерфейса. Через пару минут можно получить готовое приложение и сразу опубликовать его в интернете. Любые проекты других пользователей можно доработать под себя через функцию Remix.

Платформа подходит как новичкам, так и опытным разработчикам: Lovable удобно использовать для быстрого прототипирования и тестирования идей. При необходимости готовый код можно экспортировать на GitHub и дорабатывать вручную.

В основе сервиса работают модели от OpenAI, Google и Anthropic. Бесплатный доступ даёт 5 промптов в день, платные тарифы стартуют с $25 в месяц за 100 запросов.

🔗 Lovable 🔗 ProductHunt

🤖 Интересные новости

❯ Роботы бегут полумарафон в Китае

В Пекине на полумарафоне (21,1 км) среди 12 тысяч участников выступили 21 робот. Они шли по отдельной трассе с тем же рельефом и погодой. Часть бежала автономно, часть — под дистанционным управлением. За машинами следили инженеры.

До финиша добрались шесть роботов. Победил Tiangong Ultra от института X-Humanoid: с заменой батареи он пробежал за 2 часа 40 минут — в 2,5 раза медленнее лидера среди людей. Робот G1 от Unitree упал на старте: компания объяснила это отсутствием фирменных алгоритмов стабилизации.

Пекинский забег стал крупнейшим для роботов. Ранее в 2011 году в Японии роботы пробежали марафон за 55 часов, а в 2021-м американский Cassie прошёл 5 км без помощи человека и установил рекорд Гиннесса.

Подобные забеги проверяют навигацию, конструкции и батареи. Разработки пойдут в доставку, строительство, медицину и космос.

🔗 Источник

❯ «Спасибо» и «Пожалуйста» стоят миллионы долларов для OpenAI

Сэм Альтман заявил, что вежливые обращения пользователей к ChatGPT обходятся компании в десятки миллионов долларов в год. Даже пара лишних токенов увеличивает нагрузку на дата-центры и энергопотребление. По оценке Epoch AI, один запрос к GPT-4o требует 0,3 ватт-часа энергии.

На масштабе миллиардов обращений «спасибо» и «пожалуйста» превращаются в мегаватты и реальные расходы.

67% пользователей в США добавляют вежливые фразы. 12% делают это на случай, если ИИ обретёт сознание. Исследования показывают: нейросети подстраиваются под тон общения — вежливость повышает качество ответов.

🔗Заявление Альтмана

❯ Альтернативная космология без тёмной материи

Астрономы предложили новую модель, объясняющую движение галактик без гипотетической тёмной материи. Они используют ИИ-алгоритмы для обработки данных с радиотелескопов и показывают совпадение с реальными наблюдениями.

Искусственный интеллект помогает скорректировать параметры моделей так, что видимой массы оказывается достаточно для объяснения поведения галактик. Это открывает новые споры о природе Вселенной и ставит под вопрос необходимость существования тёмной материи.

🔗arXiv

❯ Мозг композитора пишет музыку после смерти

Умерший в 2021-м Элвин Люсье снова сочиняет — с помощью нейросетей и лаборатории.

Учёные вырастили его искусственный МОЗГ и подключили к системе, реагирующей на внешние раздражители.

Электроды передают нейроимпульсы на латунные пластины с динамиками. Это не просто шум — звучание меняется в реальном времени, подстраиваясь под окружение.

Люсье известен экспериментами с восприятием звука — теперь его творчество продолжается буквально вне тела.

🔗 Источник

❯ Люди стали больше пользоваться AI, но меньше доверяют AI-компаниям

Люди стали лучше относиться к ИИ, но всё меньше верят компаниям, которые его создают. Стэнфордский доклад 2025 AI Index собрал данные от 24 тысяч человек в 32 странах.

Китай (83%), Индонезия (80%), Таиланд (77%) и Мексика (70%) настроены к ИИ наиболее позитивно. В Австралии, Канаде, США и Нидерландах поддержка ниже 45%. В Германии и Франции за два года число сторонников выросло на 10%, в США — на 4%.

Доверие к ИИ-компаниям снижается: за год доля тех, кто верит в защиту личных данных, упала с 50% до 47%.

66% считают, что ИИ сильно изменит их жизнь в ближайшие 3–5 лет. 55% видят в технологиях больше пользы, чем вреда. Половина отмечает экономию времени и рост качества развлечений, но только треть верит в влияние на здравоохранение, экономику и работу.

60% ожидают, что ИИ изменит их профессию, 36% боятся полной потери работы. Среди зумеров две трети ждут радикальных изменений за пять лет. Среди бумеров — меньше половины.

🔗Источник

❯ inTouch — бот, который звонит родственникам

Стартап inTouch разработал бота, который имитирует ваш голос и по расписанию звонит родным. Алгоритм анализирует частоту реальных звонков, темы разговоров и стиль общения, чтобы подобрать индивидуальный «график заботы». Идея рассчитана на людей, занятых на работе или живущих далеко от семьи.

Бот говорит максимально естественно, поддерживает более 30 языков и позволяет загружать личные фразы для звонков. После каждого разговора приложение отправляет вам отчёт и напоминание.

Сервис работает пока только в США и Великобритании.

Возникает вопрос: где проходит граница между заботой и обманом?

🔗Источник

❯ DxGPT — диагностика редких болезней на ИИ

DxGPT — первая в мире языковая модель, заточенная только под диагностику редких заболеваний. Алгоритм прошёл закрытые тесты в пяти клиниках ЕС и показал, что способен предлагать корректные гипотезы даже при нетипичных симптомах, где другие системы ошибаются или требуют десятков консультаций.

ИИ строит вероятностную модель заболеваний на основе огромных наборов данных, автоматически собирает анамнез и сверяет симптомы с мировыми кейсами.

DxGPT помогает врачам находить нестандартные пути к диагнозу там, где традиционные методы не работают.

🔗 DxGPT Announce 🔗 Medical News Today

🏛️ ИИ в управлении и обществе

❯ ОАЭ подключают AI к написанию законов

В ОАЭ стартовал эксперимент: искусственный интеллект помогает не только анализировать судебную практику, но и предлагает черновики новых законопроектов для рассмотрения парламентом. Окончательное решение остаётся за человеком, но «рыба» текста создается ИИ.

AI ускоряет обработку юридических данных, позволяет заранее моделировать последствия новых норм и помогает государству экономить время и деньги.

🔗Источник

❯ Meta внедрила AI для выявления подростков в Instagram

Meta внедрила AI-модуль, который анализирует аккаунты, сообщения и поведение пользователей, чтобы точнее выявлять несовершеннолетних. Новый алгоритм не только ограничивает показ взрослого или вредного контента, но и предотвращает общение подростков с подозрительными аккаунтами и мошенниками.

AI сканирует фотографии, профили, чаты и истории публикаций, мгновенно блокирует опасных пользователей и постоянно дообучается на новых данных.

🔗Источник

❯ ИИ впервые упомянут в правилах «Оскара»

Академия впервые потребует указывать в титрах, если при создании фильма использовались AI-технологии: генеративные модели, сценарии, аудио, подбор актёров или организационная работа. Теперь любая команда должна честно сообщать о применении ИИ, независимо от области использования.

Это повысит прозрачность киноиндустрии и станет первым шагом к разработке стандартов «AI in Cinema».

🔗Источник

❯ Grok получил компьютерное зрение

Компания xAI добавила компьютерное зрение в свою модель Grok. Теперь бот может анализировать фотографии, изображения и мемы: распознавать объекты, расшифровывать визуальные задачи и отвечать на вопросы о содержимом картинок.

Технология пригодится в креативных индустриях для генерации мемов и анализа контента, в техподдержке для диагностики по фото и в работе с изображениями на лету для соцсетей, SMM и образования.

🔗Источник

Vozo — перевод видео с сохранением оригинального голоса

Vozo — это генеративный AI для видео-дубляжа. Сервис переводит любой ролик на другой язык, сохраняя интонацию, тембр и динамику оригинального голоса. Поддержка десятков языков, быстрый экспорт для YouTube, TikTok, онлайн-курсов.

Преимущества:

Автоматическая адаптация субтитров
Имитация голоса спикера — не синтез, а “дубликат”
Сильная точность перевода даже на редкие языки

🔗 Vozo Official 🔗 ProductHunt

❯ Krea — генерация виртуальных миров

Krea — один из первых AI-инструментов для создания 3D-сцен и виртуальных пространств. Модель генерирует не только сами объекты, но и сразу анимацию, освещение, текстуры — полный набор для игр, архитектуры и метавселенных.

Проекты можно экспортировать в Unity и Unreal Engine, что делает Krea удобным инструментом для инди-разработчиков, 3D-дизайнеров, архитекторов и создателей онлайн-экспозиций. Главное преимущество: идеи можно быстро визуализировать без привлечения профессиональных художников и долгого ручного труда.

Инструмент открывает новые возможности для тех, кто хочет строить виртуальные миры, не имея команды моделлеров и аниматоров.

🔗 Krea AI

🔮 Заключение

Неделя с 21 по 27 апреля показала ключевые тренды в AI:

Масштабирование возможностей OpenAI и конкурентов — API, лимиты, память
Быстрое проникновение AI во все сферы жизни. Новые инструменты для бизнеса, образования, творчества, здоровья.
Конкуренция за «экосистемы» — кто соберёт больше создателей и пользователей.
Вопросы этики, приватности, доверия — как никогда на повестке.

ИИ становится неотъемлемой частью современного мира. Технологии быстро меняют культуру, рынки и подходы к работе, создавая новые вызовы и возможности.

А какие новости вас впечатлили больше всего? Пишите в комментариях!👇

Показать полностью 12 3

[моё] Искусственный интеллект Будущее Развитие Digital Openai Нейронные сети Технологии Генерация изображений Чат-бот Компьютерная графика Новости Дайджест IT It-инфраструктура Видео Короткие видео Длиннопост

wonderlove

2 месяца назад

Искусственный интеллект

Нейро-дайджест: ключевые события мира AI за 14-20 апреля 2025⁠⁠

Привет!

Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, я редактор канала Нейро-Пушка и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя с 14 по 20 апреля выдалась горячей: революционные LLM от гигантов, прорывы в мультимодальных технологиях, инновационные платформы — всё это я собрал в одном месте. Только самое важное и только то, что реально интересно и полезно. Поехали!

📋 В этом выпуске:

Новые языковые модели
- Семейство GPT-4.1 от OpenAI — новая эра программирования
- o3 и o4-mini — мыслители от OpenAI
- Gemini 2.5 Flash — гибридный подход к рассуждениям
ИИ в творческих приложениях
- Kling 2.0 — реалистичные видео из изображений
AI-агенты и платформы
- Grok Studio — холст для коллаборации от xAI
- Aria в Opera Mini — AI для бюджетных устройств
- SpeechMap — карта ответов нейросетей
AI в реальных приложениях
- Запрет AI-аватара в суде Нью-Йорка
- Социальная сеть от OpenAI — потенциальный конкурент X
- DolphinGemma от Google — расшифровка языка дельфинов
- AI для городского планирования в Кентукки

🧠 Новые языковые модели

❯ Семейство GPT-4.1 от OpenAI — новая эра программирования!

OpenAI представила семейство GPT-4.1 — новое поколение своих AI-моделей, которое значительно превосходит предыдущую флагманскую модель GPT-4o по ключевым параметрам! 🚀

Главные фишки новых моделей:

Улучшенное кодирование: GPT-4.1 превосходит GPT-4o на 21.4% в бенчмарке SWE-bench Verified. Делает более чем в 2 раза меньше ошибок в code diffs и снижает количество лишних изменений в коде с 9% до 2%!

Точное следование инструкциям: улучшение на 10.5% по сравнению с GPT-4o в бенчмарке Scale’s MultiChallenge.
Гигантское контекстное окно: поддержка до 1 миллиона токенов — в 8 раз больше, чем у GPT-4o!

В семейство вошли три модели:

GPT-4.1: флагманская модель для сложных когнитивных задач. Стоимость: $2 за миллион входных токенов и $8 за миллион выходных.
GPT-4.1 Mini: балансирует производительность и стоимость, по интеллекту соответствует или превосходит GPT-4o, но на 83% дешевле и вдвое быстрее! Демонстрирует высокие возможности в понимании изображений. Стоимость: $0.40 за миллион входных токенов и $1.60 за миллион выходных.
GPT-4.1 Nano: самая легкая, быстрая и дешевая модель, идеальна для задач с низкой задержкой. Несмотря на малый размер, поддерживает контекстное окно в 1 миллион токенов. Стоимость: $0.10 за миллион входных токенов и $0.40 за миллион выходных.

Эти модели уже показывают впечатляющие результаты на практике:

Thomson Reuters повысила точность на 17 % при анализе длинных юридических документов с помощью AI-ассистента CoCounsel.
Инвестиционная компания Carlyle улучшила извлечение информации из больших документов на 50 %.
Windsurf заявила, что GPT-4.1 набрал на 60 % больше баллов в их внутренних тестах по кодированию.

🔗 Официальный анонс OpenAI 🔗 Обзор на DataCamp 🔗 Анализ производительности на Wandb

❯ o3 и o4-mini — мыслители от OpenAI!

OpenAI представила две новые модели рассуждений: o3 и o4-mini, обученные “думать дольше, прежде чем отвечать”! 🧠

Эти модели — настоящий интеллектуальный прорыв, способный использовать и комбинировать все инструменты в ChatGPT, включая веб-поиск, анализ файлов с помощью Python и работу с изображениями.

Ключевые особенности:

o3 — самая мощная модель рассуждений OpenAI, демонстрирующая рекордные результаты в бенчмарках по кодированию, математике и науке.
- Достигла 91.6% точности на олимпиадных задачах AIME 2024
- Показала прорывной результат 75.7% на сложном бенчмарке ARC-AGI
- По оценкам экспертов, допускает на 20% меньше серьезных ошибок, чем o1
o4-mini — более легкая модель для быстрого и экономичного рассуждения.
- Лучшая модель по результатам AIME 2024 (93.4% без инструментов, 99.5% с Python)
- На бенчмарке Codeforces набирает ELO 2719, немного опережая даже o3
- На 24% быстрее и на 93% экономичнее по стоимости токена по сравнению с o1-mini

Стоимость и доступность:

o3: $10.00 за миллион входных и $40.00 за миллион выходных токенов
o4-mini: $1.10 за миллион входных и $4.40 за миллион выходных токенов

Обе модели доступны в ChatGPT для пользователей с подписками Plus, Team и Pro, а также через API. Пользователи бесплатного плана также могут попробовать o4-mini в режиме “Think”.

Сравнение с GPT-4.1:
Важно понимать, что это разные семейства моделей для разных задач. GPT-4.1 оптимизирована для следования инструкциям и работы с длинным контекстом (1M токенов), тогда как o3 и o4-mini специализируются на продвинутых возможностях рассуждения, но имеют контекстное окно только в 200K токенов.

🔗 Официальный анонс OpenAI 🔗 Обзор на DataCamp 🔗 Подробнее о o4-mini

❯ Gemini 2.5 Flash — гибридный подход к рассуждениям!

Google представила Gemini 2.5 Flash — свою первую полностью гибридную модель рассуждений! 🔄

Ключевая фича — возможность включать и выключать «мышление» и устанавливать бюджеты на рассуждение для оптимального баланса между качеством, стоимостью и задержкой.

Технические характеристики:

Поддержка контекстного окна в 1 миллион токенов
Полноценная мультимодальная модель, понимающая текст, аудио, изображения и видео
Срез знаний на январь 2025 года
Адаптивные и контролируемые возможности рассуждения

Стоимость:

Входные токены: $0.15 за 1 миллион
Выходные токены: $0.60 за 1 миллион при выключенном “мышлении” и $3.50 при включенном

Результаты бенчмарков:

AIME 2025: 78.0% (одна попытка)
AIME 2024: 88.0% (одна попытка)
GPQA diamond: 78.3% (одна попытка)
LiveCodeBench v5: 63.5% (одна попытка)
MMMU: 76.7% (одна попытка)

Gemini 2.5 Flash выделяется своей ультрабыстрой скоростью при выключенном “мышлении”, сохраняя производительность 2.0 Flash, но с улучшенной точностью. При включении режима рассуждений модель способна решать сложные математические, научные и кодовые задачи на уровне лучших моделей.

Таким образом, пользователи получают гибкость: для простых запросов — молниеносную скорость и экономичность, а для сложных — глубокое рассуждение при необходимости.

🔗 Официальный анонс Google 🔗 Документация Gemini 2.5 Flash 🔗 Обзор моделей Gemini

🎨 ИИ в творческих приложениях

❯ Kling 2.0 — реалистичные видео из изображений!

Представлена обновленная нейросеть Kling 2.0 для создания видео с более реалистичными движениями объектов!

Ключевые особенности:

Возможность объединять до четырех изображений в один ролик
Функционал для редактирования сцен и отдельных объектов по запросу
Значительно улучшенная реалистичность движений по сравнению с предыдущей версией

Доступ к сервису реализован по подписке от $7 за шесть генераций, что делает технологию относительно доступной для креаторов и маркетологов.

Kling 2.0 предлагает новый подход к созданию видеоконтента, позволяя трансформировать статичные изображения в динамичные ролики, что особенно ценно для рекламы, контент-маркетинга и социальных медиа.

🔗 Официальный сайт Kling 🔗 Демонстрация возможностей на YouTube

🔧 AI-агенты и платформы

❯ Grok Studio — холст для коллаборации от xAI!

xAI запустила Grok Studio — новую коллаборативную рабочую среду в рамках платформы Grok AI! 🚀

Представленная 16 апреля 2025 года, Grok Studio предоставляет пользователям возможность работать вместе с чат-ботом Grok AI в интерфейсе с разделенным экраном, напоминающем Canvas от OpenAI и Artifacts от Anthropic.

Ключевые возможности:

Генерация контента: документы, код, отчеты и даже браузерные игры
Выполнение кода: поддержка Python, C++, JavaScript, TypeScript и Bash с вкладкой предварительного просмотра
Интеграция с Google Drive: прикрепление документов, таблиц и слайдов
Совместная работа в реальном времени: несколько пользователей могут работать над проектами одновременно
Предварительный просмотр HTML: визуализация документов в формате, готовом для публикации

Отзывы пользователей пока неоднозначны: отмечаются положительные моменты относительно возможностей кодирования, но есть жалобы на удобство использования. Важное преимущество — Grok Studio доступна как для бесплатных, так и для премиум-пользователей на grok.com.

🔗 Обзор на Hugging Face 🔗 Новость на OpenTools 🔗 Анализ на BBN Times

❯ Aria в Opera Mini — AI для бюджетных устройств!

Opera Mini Aria AI

Opera интегрировала своего AI-помощника Aria в браузер Opera Mini для Android, предоставив возможности генеративного AI пользователям устройств с ограниченными ресурсами! 📱

Ключевые функции:

Генерация текста и кода
Создание изображений с помощью модели Imagen3 от Google
Переписывание текста, ответы на вопросы, обобщение контента
Оптимизация для облегченной архитектуры Mini без увеличения потребления данных

Это решение делает передовые AI-технологии доступными более чем 100 миллионам пользователей по всему миру, включая рынки с высокой стоимостью передачи данных, такие как Африка и Азия.

Отзывы пользователей:
Мнения разделились — некоторые считают Aria полезным инструментом для обобщения веб-страниц и ответов на вопросы, другие жалуются на медленное время ответа и проблемы с точностью по сравнению с такими платформами, как ChatGPT.

Интеграция Aria в Opera Mini — важный шаг в преодолении цифрового разрыва, позволяющий пользователям с ограниченными ресурсами получить доступ к генеративному AI.

🔗 Официальный пресс-релиз Opera 🔗 Обзор на TechRadar 🔗 Новость на DigitrendZ

❯ SpeechMap — карта ответов нейросетей!

Анонимный разработчик представил SpeechMap — инструмент, который показывает, как разные AI-модели реагируют на сложные или спорные запросы. 🗺️

Особенности:

Наглядное отображение реакций различных AI-моделей на одинаковые запросы
Четкая визуализация, где модели отвечают прямо, а где уклоняются от ответа
Полезный инструмент для разработчиков и пользователей, желающих изучить границы возможностей генеративного AI

SpeechMap позволяет сравнивать реакции различных AI-систем, что дает возможность лучше понять их ограничения, особенности и потенциальные предубеждения.

Этот инструмент особенно ценен для исследователей в области AI-этики, разработчиков моделей и специалистов, изучающих границы допустимого в генеративном AI.

🔗 Официальный сайт SpeechMap

👁️ AI в реальных приложениях

❯ Запрет AI-аватара в суде Нью-Йорка!

В апелляционном суде Нью-Йорка вспыхнула дискуссия: можно ли использовать AI в судебных процессах?

Поводом стал инцидент с 74-летним Джеромом Девальдом, основателем стартапа Pro Se Pro. Он попытался представить свои аргументы по трудовому спору с помощью AI-видео — аватара по имени «Джим». Судья не знал о подмене и прервал выступление.

Судья Салли Мансанет-Дэниэлс потребовала отключить видео:

«Я не ценю, когда меня вводят в заблуждение. Вы не будете использовать этот зал для запуска своего бизнеса, сэр».

Почему суд отказал:

Нет прозрачности — это выглядело как попытка обмана.
Нарушение судебных протоколов.
Неясно, можно ли считать такое представительство легитимным.
Неготовность юридической системы к AI-аватарам.

Девальд объяснил, что потерял голос и не смог выступать лично, а видео было единственным способом донести аргументы. Позже он направил извинения.

Этот случай показывает, как важно заранее прописать чёткие правила использования AI в суде. Без них даже полезные технологии будут встречать сопротивление — не из-за вреда, а из-за отсутствия доверия и прозрачности.

🔗 Репортаж AP News 🔗 Анализ на CO/AI 🔗 Обзор на Legal Cheek

❯ Социальная сеть от OpenAI — потенциальный конкурент X!

OpenAI, по сообщениям инсайдеров, находится на ранних стадиях разработки собственной социальной сети, напоминающей популярную платформу X (ранее Twitter)! 🌐

Предполагаемый функционал:

Акцент на обмене контентом, сгенерированным AI, особенно изображениями
Интеграция с передовыми возможностями AI от OpenAI
Расширенные функции модерации контента на базе AI
Возможность генерировать и делиться различными формами AI-созданного медиаконтента

Стратегическая цель:
Получение прямого доступа к непрерывному потоку пользовательских данных в реальном времени, включая текст, изображения и поведение при взаимодействии. Эти данные бесценны для дальнейшего обучения и оптимизации AI-моделей OpenAI.

Влияние на рынок:

Потенциальное усиление конкуренции с Meta (Facebook, Instagram) и X
Переосмысление онлайн-взаимодействий с фокусом на генеративный AI
Демонстрационная площадка для передовых AI-технологий OpenAI

Гендир OpenAI Сэм Альтман лично возглавляет эту инициативу и активно запрашивает отзывы у внешних сторон. Пока неясно, будет ли эта социальная сеть запущена как отдельное приложение или интегрирована в существующее приложение ChatGPT.

🔗 Репортаж на MacRumors 🔗 Анализ на Mashable 🔗 Обзор на PCMag

❯ DolphinGemma от Google — расшифровка языка дельфинов!

Google представила DolphinGemma — фундаментальную AI-модель для изучения коммуникации дельфинов! 🐬

Основная цель проекта:
Расшифровка коммуникации дельфинов путем изучения закономерностей в их сложных вокализациях для потенциального межвидового диалога.

Ключевые особенности:

AI-модель с примерно 400 миллионами параметров
Функционирует как система “аудио на вход, аудио на выход”
Использует токенизатор SoundStream от Google
Достаточно эффективна для работы на смартфонах Google Pixel в полевых условиях
Будет выпущена как открытая модель летом 2025 года

Проект основан на многолетнем исследовании Wild Dolphin Project, изучающего диких пятнистых дельфинов в Багамах с 1985 года. Обширная база данных подводного видео и аудио, сопоставленных с идентификационными данными отдельных дельфинов, их историями жизни и наблюдаемым поведением, предоставила богатый материал для обучения DolphinGemma.

Исследователи также изучают потенциал двустороннего взаимодействия с использованием системы CHAT (Cetacean Hearing Augmentation Telemetry), связывая синтетические свистки с объектами для создания общего словаря.

Значение проекта:

Прорыв в понимании коммуникации дельфинов
Потенциальное создание “словаря” дельфиньего языка
Помощь природоохранным усилиям через выявление сигналов бедствия
Развитие теорий о естественном возникновении языка

🔗 Официальный анонс Google 🔗 Обзор на IFLScience 🔗 Анализ на Maginative

❯ AI для городского планирования в Кентукки!

В небольшом городе в Кентукки провели новаторский эксперимент по применению AI для создания 25-летнего плана развития! 🏙️

Процесс:

Жители предлагали свои идеи через специальную онлайн-платформу
Проводилось голосование за наиболее ценные и значимые предложения
AI-алгоритм анализировал представленные идеи и выявлял ключевые тенденции
Результаты анализа предоставлялись городским властям для принятия решений

Такой подход позволил не только собрать мнения граждан, но и эффективно обработать их с помощью искусственного интеллекта, выявив скрытые закономерности и приоритеты сообщества.

Инновационное использование AI для анализа отзывов жителей обладает большим потенциалом для применения в других городах, предлагая основанный на данных метод для учета мнения сообщества в долгосрочном планировании.

🔗 Исследование AI в городском планировании 🔗 Smart Cities Initiative

🔮 Заключение

Неделя с 14 по 20 апреля 2025 показала ключевые тренды в развитии AI:

акцент на улучшенные возможности кодирования и рассуждения в фундаментальных моделях
гибридные подходы к балансировке производительности, стоимости и качества
интеграция AI в практические платформы и инструменты для широкой аудитории
расширение исследований AI в новые области, включая межвидовую коммуникацию

Технологии AI продолжают стремительно эволюционировать, становясь более мощными, эффективными и доступными. Конкуренция между ведущими компаниями стимулирует инновации, а практическое применение AI расширяется на все новые сферы жизни.

А какие новости вас впечатлили больше всего? Пишите в комментариях! 👇🏻

Показать полностью 7 4

[моё] Искусственный интеллект Статья Нейронные сети Технологии IT Дайджест Будущее Digital Программа Новости Чат-бот ChatGPT Openai Видео RUTUBE Короткие видео Длиннопост

Партнёрский материал

specials

Ваш бизнес заслуживает большего!⁠⁠

Оформляйте подписку Пикабу+ и получайте максимум возможностей:

О ПОДПИСКЕ

Малый бизнес Предпринимательство Бизнес

KtoZdesAnimator

4 месяца назад

Дайджест анимации: новинки мультов и игр (МАРТ 2025)⁠⁠

Наши медиакарманы полны прикольных (и ОЧЕНЬ прикольных!) новостей из мира анимации, уважаемые пикабушники!

В этом выпуске:
Как кролики становятся супергероями? Что не так с ограми? Что круче Цифрового Цирка? Стоит ли тридешникам работать с Tencent? Почему Unreal Engine такой крутой? Что выбрать – хтонь, завод или грузовичок? На какой фестиваль можно послать самый короткий метр? Что в Индии знают об оборотнях? Ну и, конечно, многое-многое другое

P.S.: Друзья, кто-нибудь может подсказать, какой видеохостинг лучше выкладывать на Пикабу? ТыТюбик или вот тех других, которые огромная соцсеть, принадлежащая мейл точка ру?

[моё] Мультфильмы Анимация Фестиваль Компьютерная графика Комедия Новости 2D Короткометражка Digital Творчество Видео YouTube

Посты не найдены

1 2 3 4 5 6 7