Microsoft создала новый ИИ Magma, который может управлять программным обеспечением и роботами.
Компания Microsoft представила новую модель искусственного интеллекта под названием Magma. Мультимодальная модель предназначена для понимания визуальных данных и языка, а значит, и для управления программным обеспечением и роботами.
Magma — название новой модели искусственного интеллекта от Microsoft, которая была разработана в сотрудничестве с исследователями из нескольких университетов США. Название Magma расшифровывается как «Мультимодальная агентская модель в Microsoft Research». По данным Microsoft, это первая мультимодальная модель, которая может не только понимать входные данные, но и планировать и действовать на их основе.
Хотя другие модели ИИ также могут обрабатывать мультимодальные входные данные и, таким образом, выполнять действия, для этого им часто требуется несколько моделей — например, одна для понимания входных данных, а другая для управления роботами или программными приложениями. Magma призвана объединить все эти навыки в одной модели. По данным Microsoft, Magma призвана «ликвидировать разрыв между вербальным, пространственным и временным интеллектом для решения сложных задач и ситуаций».
Microsoft приводит несколько примеров навыков, которыми обладает Magma. Во-первых, модель ИИ может управлять программным обеспечением для пользователей. Например, Magma обращается к браузеру Chrome, чтобы запросить информацию о погоде в определенном городе.
Во-вторых, управляя роботами, Magma может подбирать предметы и размещать их точно в указанных местах. Например, роботизированная рука, управляемая Magma, перемещает ткань на кухонной стойке так, чтобы она лежала по центру поверхности.
И последнее, но не менее важное: Microsoft демонстрирует, как Magma обрабатывает видеоданные из повседневных ситуаций с людьми. Например, пользователи могут сидеть у себя в гостиной и спрашивать ИИ, чем занять себя в ближайшие несколько часов. На основе распознанных объектов Magma предлагает включить телевизор, почитать книгу или насладиться видом из окна.
Первоначально Microsoft обучала Magma с помощью серии изображений, видео и данных от роботов. Были использованы две специальные методики. Set-of-Mark используется для выполнения действий. ИИ присваивает номера объектам на видео. Например, отдельным элементам пользовательского интерфейса присваивается собственный номер. Это позволяет ИИ целенаправленно нацеливаться на необходимые элементы. То же самое относится и к объектам, которые должен перемещать робот, управляемый Magma.
Второй метод важен для этапа планирования ИИ. ИИ изучает закономерности движения на основе видеоданных. Предполагается, что модель «распознает будущие состояния», прежде чем действовать. В качестве примера Microsoft показывает, что Magma должна перемещать апельсин в бутылку с водой с помощью роботизированной руки. Затем ИИ планирует в общей сложности 14 шагов, с помощью которых объекты можно будет приблизить.
Microsoft также приводит в статье результаты тестов Magma. Они показывают, что новая модель ИИ может конкурировать с такими инструментами, как GPT-4V или Qwen-VL, во многих областях. Однако разработчикам ИИ всегда следует относиться к таким тестам с долей скептицизма.
По крайней мере, Microsoft открыто признает, что Magma все еще имеет некоторые ограничения. ИИ, вероятно, не справится с очень сложными задачами, состоящими из множества этапов. Однако в будущем Microsoft планирует продолжить совершенствование ИИ. На следующем этапе исследователи хотят опубликовать выводы и данные обучения ИИ через Github.
Источник: overclockers
Оригинал: microsoftmicrosoft