🦾В апреле ИИ впервые официально прошел строгий тест Тьюринга.
Исследователи из университета Сан-Диего опубликовали статью, в которой впервые эмпирически доказали устойчивое прохождение ИИ-системой классического теста Тьюринга: успех новой модели OpenAI GPT-4.5 составил 73%.Может показаться, что тест Тьюринга в наше время устарел, и языковые модели уже давно его "победили". Поэтому сразу сделаем важную оговорку: статьи с некоторыми замерами способностей ИИ на тесте Тьюринга действительно выходили уже много раз. Но, во-первых, если модели и выбивали результат выше 50%, он все еще был нестабилен и близок к случайному угадыванию. И, во-вторых, часто в этих работах рассматривался не оригинальный трехсторонний вариант испытания, а какие-то упрощенные суррогаты.
Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем – голосует. На второй картинке - статистика самых популярных стратегий, которыми люди пользовались, чтобы выяснить, кто из двух собеседников – бот. Так, люди пытались раскусить бота, поговорив с ним о распорядке дня, его мнениях о каких-либо вопросах, получить какие-либо личные данные (бота), с помощью наводящих вопросов "Ты человек или бот?" или, что интересно - обвинив собеседника в чем-либо.
Именно таким образом исследователи из Сан-Диего тестировали модели. Они ставили эксперименты с GPT-4.5, LLaMa-3.1-405B, GPT-4o и самой древней языковой моделью ELIZA.В экспериментах каждую модель проверяли дважды: с двумя вариантами стартовых системных промптов (запросов к нейросети, сценариев диалога). В первом случае модели напрямую говорили, что ей предстоит обхитрить человека и заставить его думать, что она живой собеседник (это вариант NO-PERSONA). Во втором случае модели не сообщали, что ей нужно делать, а просто просили вести себя "как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг" (это вариант PERSONA).Неожиданно, но второй, более естественный вариант, сработал лучше. В формате NO-PERSONA GPT-4.5 выигрывал всего в 36% случаев, а будучи "молодым интровертом" выбил аж 73%. Это значит, что почти в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.У Llama результат тоже ничего – 56%. Но это ближе к случайной догадке и не считается полноценным прохождением теста. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.
Все числа можно уверенно считать статистически значимыми. Авторы предоставили реплицированные результаты на двух независимых группах людей, при этом в каждой группе каждый участник несколько раз становился судьей и несколько раз – собеседником.
Является ли прохождение теста Тьюринга доказательством «разумности»? На сегодняшний день скорее нет, чем да. Но исследование точно доказывает одно: LLM уже добрались до гипотетической способности вводить людей в заблуждение и уровня, на котором мы часто уже не сможем их легко "разоблачить".
Искусственный интеллект (ИИ) уже использовался для создания новых лекарств. Алгоритмы ИИ использовали для анализа больших наборов данных биологической информации, определения потенциальных мишеней для лекарств, проектирования новых молекул и даже прогнозирования эффективности этих молекул. Например:
INS018_055:
Этот препарат, созданный Insilico Medicine, является средством лечения идиопатического легочного фиброза (ИЛФ), хронического заболевания легких. Процесс открытия этого препарата начался в 2020 году, и это был первый препарат как с новой целью, обнаруженной ИИ, так и с новым дизайном, созданным ИИ.
DSP-1181:
Этот препарат был создан Exscientia и Sumitomo Dainippon Pharma и используется для лечения обсессивно-компульсивного расстройства (ОКР). Это был первый препарат, созданный ИИ, который использовался в испытаниях на людях.