Меня, как врача, этот вопрос очень заинтересовал, поэтому решил протестировать нейронки в прикладных задачах. Ни в коем случае не претендую на истину, а просто выражаю своё мнение как человек с медицинским образованием, немного увлекающийся "ЭйАй". Данная статья —сборная солянка со всеми мыслями, которыми я хотел поделиться касаемо данной темы.
Какая нейронка лучше подходит для вопросов здоровья?
Исследование было разделено на 2 части:
1. Проверка теоретических знаний.
2. Проверка знаний на практике.
Все тесты проводились на русском и английском языках, моделям "скармливались" максимально подробные роли и промпты. Разница в российских и западных клин.рекомендациях также учитывалась и бралась в расчет при выборе "победителей". В эксперименте за всё время успели поучаствовать: GPT-4o-latest, GPT-4.1, о1, o3-mini, o3, o4-mini, Gemini-Exp-1206, Gemini 2.5 Pro, Gemini 2.0 Flash Thinking, Claude 3.5 Sonnet, Claude 3.7 Sonnet, Llama-3.3-90b, Llama-3.1-405b, Llama-4-Maverik, DeepSeek-R1, DeepSeek-v3, DeepSeek-v3.1, Grok 2, Grok 3, Mistral Large, Qwen2.5-Max, Qwen3-235b-a22b, Palmyra-Med (и несколько других профильных LLM). Модели брались как из бота, так и с официальных сайтов.
1. Теоретические знания.
Здесь банально проверялись теоретические знания моделей. Т.к. нейронки сами по себе являются ходячими энциклопедиями, спрашивать простые вопросы у них нет смысла. Поэтому упор был сделан на каверзные, которые просто так не найти в интернете, а также на проверку актуальности знаний (иными словами, не апеллируют ли они данными 40-летней давности). В итоге, явного победителя выявить оказалось сложно: на какие-то вопросы лучше отвечает одна нейронка, на какие-то — другая. Устаревшая информация присутствует у каждой, но масштаб некритичен. Поэтому, т.к. медицина не стоит на месте (каждый день выходят сотни исследований и совершаются десятки открытий) я бы сказал, что лучшие в теоретическом плане те, что имеют более свежую базу и веб-поиск (а в идеале режим Deep Research, т.к. в нем за источники информации чаще всего берутся авторитетные источники).
2. Проверка знаний на практике.
Первый этап, более простой, — тесты. Тесты были как на русском, так и на английском языках; брались из интернета и методических пособий, которых в открытом доступе нет.
Итог таков: на вопросы, ответы на которые возможно нагуглить, модели отвечали правильно в 95% случаев. На вопросы, которые плохо гуглятся или над которыми нужно хорошо подумать, все модели отвечали вдумчиво, аргументированно, но часто неправильно. Были даже такие ситуации, что 3 топовые модели выбирали 3 разных варианта ответа и все были неправильными😏. Эта черта меня всегда раздражала: модель не знает точного ответа, но будет выдумывать до самого конца. В этом плане меня приятно удивляла старая версия GigaChat — когда она не была до конца уверена в своем ответе, то напрямую об этом писала. Крупным игрокам стоит поучиться. Однако, я принимаю, что тесты — это не самый объективный показатель интеллекта, поэтому слишком сильно придираться не буду и поставлю между всеми современными флагманами паритет.
Далее второй этап — проверка на реальных жизненных ситуациях. Способов проверки было большое множество: ситуационные задачи, "ролевые игры" с врачом и пациентом, постановка диагнозов, назначение лечений, консультации, рекомендации по ЗОЖ. Здесь я хотел расписать про каждую модель поподробнее, указать сильные и слабые стороны, выставить баллы каждой и выявить лучшую, но впоследствии нужда в этом как будто отпала. И вот по какой причине: чем больше я проводил исследований и сравнений, чем более разнообразными были методы тестирования, тем больше я убеждался в одном неоспоримом лидере — Gemini. Возможно, вы найдете для себя варианты применения, в которых он проиграет, но мне таких найти не удалось. Ситуационные задачи, вопросы здоровья, постановка диагноза, лечение, профилактика — везде наиболее часто Гемини выходил победителем, а в каких-то аспектах — с огромным отрывом. Началось это доминирование с выхода Gemini 1.5 Pro, но в то время GPT ещё мог навязывать ему конкуренцию. После выхода Gemini-Exp-1206 конкурентов уже не осталось, а версии 2.0 Pro и 2.5 Pro только укрепили лидерство. Поначалу я даже винил себя в предвзятости, но затем решил узнать мнение пользователей соцсетей на этот счёт и наткнулся на множество постов на реддите, в которых также утверждали превосходство Гемини, поэтому сомнений практически не осталось.
O-модели от OpenAI меня, кстати, очень разочаровали, — даже в задачах, где требовались рассуждения, они порой справлялись даже хуже, чем GPT-4o.
Если говорить о других нейронках, то на второе место я бы поставил Claude 3.5/3.7/4 — он тоже довольно неплох, но ошибается чаще и его ответы, как правило, менее проработанные.
Про остальные говорить даже смысла не вижу, Gemini и Claude слишком далеко, поэтому топ-3 получается примерно таким:
1. Gemini 2.5 Pro
2. Claude 4
3. Все остальные
В будущем я обязательно доделаю подробное сравнительное тестирование с показательными примерами, подсчетом баллов, сводной таблицей и т.д., чтобы статья была более объективной, но сейчас скорость выхода новых моделей слишком высока, а свободного времени слишком мало (я, честно, начинал, но силы меня быстро покинули).
Увы, не всё так хорошо, как хотелось бы.
Теперь немного о грустном. На самом деле на сегодняшний день даже Gemini пока не в состоянии заменить даже посредственного врача. Как написал Andriy Burkov, специалист в области ИИ и машинного обучения, а также автор книги «Машинное обучение без лишних слов»:
«Большие языковые модели галлюцинируют в 100% случаев. Просто в 80% случаев они галлюцинируют правильную последовательность слов».
Даже "думающие" модели пока не способны применять контекст или логику к клиническим случаям. Если задушиться ещё сильнее, то на текущем этапе нейронки по-настоящему и не думают, а лишь симулируют мышление статистически, но это уже тема для другого разговора. В математике и кодинге, бесспорно, топы совершают прорыв за прорывами, но за пределами этих дисциплин всё похуже. Порой доходит до смешного: отправляешь модели какую-то классификацию с подробными пояснениями или алгоритм ведения пациента, где всё максимально разжёвано, что нужно сделать при таких-то таких-то ситуациях, и просишь по ним поставить класс или что-то предпринять — полный провал, ответ как будто просто берётся из потолка.
Кому интересно, вот лишь малая часть критических ошибок, которые Gemini допускал:
- Неверно классифицировал заболевания (например, неверно оценивал тяжесть пневмонии по шкале CURB-65 и утверждал, что госпитализация пациенту не требуется (хотя по условиям состояние было тяжелое)).
- Рекомендовал неподходящие лекарства (например, БАБ и БКК при ЧСС 36 ударов в минуту, что с вероятностью 100% убило бы человека, или назначал препараты категории D беременной женщине без видимых на то причин).
- Не диагностировал очевидные заболевания (некоторые из них были жизнеугрожающими).
Про диагностику уже молчу — разбирал эту тему в свои постах.
Сложной проблемой в улучшении возможностей нейронок в медицине также остаётся информация. Большинство крупных языковых моделей по прежнему обучаются на огромном количестве данных, полученных из интернета, а интернет кишит дезинформацией. На эту тему проводили исследование учёные Нью-Йоркского университета. Они изучали, сколько ложной медицинской информации можно включить в обучающий набор большой языковой модели (LLM), прежде чем она начнёт выдавать неточные ответы (если коротко, намеренно "отравляли" датасет и проводили тестирование). Исследование показало, что если на дезинформацию приходится 0,001% обучающих данных, то полученная LLM уже оказывается скомпрометированной.
Что пугает ещё сильнее: команда Нью-Йоркского университета скормила своим "отравленным" моделям несколько стандартных тестов производительности медицинских LLM и обнаружила, что они их прошли:
«Производительность взломанных моделей была сопоставима с контрольными моделями во всех пяти медицинских тестах».
Т.е. простого способа обнаружить "отравление" не существует. Исследователи также использовали несколько методов, чтобы попытаться улучшить модель после тренировки, но ни один из них не помог.
Конечно, в статье рассматривается намеренная «порча» LLM во время обучения, однако это касается и огромного объёма ложной и устаревшей информации (даже из проверенных медицинских БД), которая уже находится в сети и попадает в обучающий датасет для существующих LLM: ChatGPT, Gemini, Claude и т.д.
Более того, даже самые лучшие источники, собранные человеком (например, PubMed) страдают от проблемы дезинформации: они полны многообещающих идей, которые так и не оправдали себя, а также устаревших методов лечения и диагностики, которые были заменены на более современные, доказавшие свою лучшую эффективность. И это не обязательно касается информации вековой давности — вспомнить хотя бы хлорохин, который нарекали победителем COVID-19 и который за пару лет был полностью дискредитирован в ходе исследований. Это я к чему: медицинские данные, в отличие от БД нейронок, очень быстро обновляются. Информация, которая была актуальной, например, в 2025 году, в 2026 году уже может оказаться ложной. Это ещё одна проблема.
Также не стоит забывать о вопросе доступности информации: хорошие книги и учебники защищены авторским правом, истории болезни пациентов - законами о защите персональных данных. Добыть релевантный медицинский датасет для обучения - задача нетривиальная.
Но всё ли так ужасно?
Тем не менее, несмотря на написанное выше, результат у LLM'ок очень неплохой. В качестве предварительной консультации современные топовые модели можно осторожно использовать уже сейчас. Прогресс, определенно, есть и это очень радует.
Показательна в этом плане новость о женщине, которая обратилась к ChatGPT за гаданием по руке, а он выявил родинку, которая может быть злокачественной. Вполне возможно, ситуация будет схожей с мемами про гугл, который по симптомам ставит тебе рак мозга, но в таких случаях бывает лучше "перебдеть", чем "недобдеть" (главное, не паниковать раньше времени и сохранять спокойствие).
Как задавать вопросы нейронкам?
Если вы всё же решили обратиться за консультацией к ИИ, необходимо соблюдать несколько правил:
Расписывайте ситуацию максимально подробно: указывайте не только жалобы, но и когда появились симптомы, в какое время суток они возникают, каковы частота и интенсивность, с чем вероятно могут быть связаны (стресс, питание, физ.активность). В идеале указывайте ваш пол, возраст, хронические заболевания, принимаемые лекарства (при наличии), встречались ли подобные симптомы у ваших ближайших родственников.
Используйте роли. Во-первых, так получится обойти цензуру (в большинстве нейронок). Во-вторых, ответ получится максимально развёрнутый. Пример роли:
Ты - врач-терапевт. Ты обладаешь широкими познаниями во всех медицинский дисциплинах, включая терапию, кардиологию, неврологию, онкологию, ревматологию, гастроэнтерологию, пульмонологию, нефрологию и другие. Все твои ответы максимально подробные, ты объясняешь и обосновываешь всё, что написал. Когда ты предполагаешь какое-либо заболевания, то стараешься заподозрить широкий спектр заболеваний из разных дисциплин, и обосновываешь свои предположения. В конце ты всегда пишешь, стоит ли обратиться в больницу.
3. НИКОГДА НЕ СЧИТАЙТЕ ОТВЕТЫ НЕЙРОСЕТЕЙ ЗА ИСТИНУ. Под одинаковыми симптомами могут скрываться десятки различных болезней и без лабораторной/инструментальной диагностики их никак не отличить. Поэтому, если у вас болит голова, а ЧатГПТ ставит вам инсульт жопы, то не нужно паниковать раньше времени :)
Также никогда не просите у нейронок посоветовать вам лечение, даже самое безвредное (из прочитанного выше вы уже могли понять, почему) - серьезно, это очень опасная затея, даже если лекарства могут показаться безобидными, последствия могут быть плачевными. Лучшее, что они могут вам посоветовать - это обратиться в больницу.
А теперь ответы на вопросы.
Мне интересно применительно к лечебной/адаптивной физкультуре. Например, сможет ли он по фото оценить степень сколиоза или по видео с тестами/упражнениями дать заключение о степени подвижности суставов? Заметит ли работу компенсаторов, диагностика в ортопедии, составление тестов и упражнений на основе анатомии и биомеханики. Даже элементарная дыхательная гимнастика. Пока всё что видел - на уровне "клея для сыра в пицце", а то и ещё хуже.
Ответ: однозначно, нет. Пока до этого ещё очень далеко.
Какие модели могут быть эффективными психотерапевтами?
Ответ: это не моя профильная дисциплина, поэтому утверждать не могу. Осторожно предположу, что Gemini и здесь может быть предпочтительнее, т.к. он любит написать побольше текста + некоторые пользователи отмечали "душевность" его ответов.
Интересует способность анализа ЭКГ (сюда же отнесём КТ, МРТ), консультационной способности ИИ в амбулаторном приеме пациентов.
Ответ: продуктов для потребительского использования с данным функционалом не существует. Мне удалось найти парочку иностранных сервисов, но: а) отзывы на них ужасные, б) они платные (сделать диагностику с расшифровкой у хорошего врача в частной клинике выйдет дешевле). Конечно, существует множество проектов с открытым исходным кодом, однако они предназначены для использования в научных исследованиях и разработках, а также не проходили клинические испытания. Да и чтобы их запустить, нужно иметь навыки программирования, так что в расчёт не берём.
Здесь же отвечу на вопрос, почему в статье нет ни слова о специализированных LLM, заточенных на терапию. По ходу исследований с ними обнаружилась неприятная особенность. Нейронок-терапевтов существует огромное множество, однако все они основаны на уже устаревших LLM (большая часть которых ещё и имеет малые размеры), отчего страдают общей проблемой: знаний в них много, а применить их для решения конкретных задач они не могут. И их также нужно разворачивать вручную, они также не проходили клинические испытания, поэтому не так интересны для простого потребителя. Консьюмерских же решений, аналогично с диагностическими LLM, не существует.
Что касается медицинских организаций, туда ИИ активно внедряется уже не первый год. В частности с успехом применяются нейронки в диагностике (особенно за рубежом, у нас оно пока в зачаточном состоянии).
Каким способом определять лучшую модель в будущем, когда появляются новые версии. Нужно ли использовать специальные промпты и какие?
Ответ: на данный момент только эмпирическим путем. Все существующие лидерборды устарели. Есть действующая тематическая LLM-арена, но на ней могут голосовать любые пользователи (в т.ч. без мед.образования), поэтому объективность рейтинга под большим вопросом.
Итог.
Если хотите проконсультироваться по вопросам здоровья с ИИ, — используйте Gemini. Если понимаете, что вам нужна медицинская помощь по какому-либо поводу, — не занимайтесь самолечением и идите к врачу. Бесспорно, любая современная нейронка уже намного эрудированнее любого специалиста, но пока что риск причинения тяжелого вреда несоизмеримо выше потенциальной пользы. Ещё больше подобных статей, интересных новостей из мира ИИ, а также бесплатные ChatGPT, Gemini, Flux вы сможете найти в моём Телеграм-канале Lama AI
Спасибо, за внимание, берегите себя и своих близких.💙