На канале часто пишу, что есть та или иная модель, которая мне нравится, но все это на уровне ощущений. Так ли это хорошо? Скорее нет ...
Что с этим делать?
Решил, что было бы неплохо собрать наиболее популярные тесты и изучить их. Всего смог найти 5 сервисов, которые публикуют качественные рейтинги — на их основе можно делать выводы (анализируя все 5)
✓ LMarena ai — Обширный рейтинг, нравится, что есть разбивка по задачам: Разработка, Текст, Генерация картинок, Поиск. Таблицы простые для понимания. Их составляют люди на основе личного опыта. Тут идея в том, что этих людей много, поэтому и данные более объективные, чем если бы такое составлял 1 человек
✓ Livebench ai — ИИ под разные задачи с итоговой оценкой. Есть интересные столбцы — Математика, Анализ Данных, Языковые задачи, Мышление. Есть детальное описание всех выполняемых тестов
✓ Artificialanalysis ai — Сравнение 30 наиболее популярных моделей по параметрам: Контекстное окно, Оценка ИИ по набору задач с итоговой оценкой, Цена на ввод/вывод. Интересно, что есть подробный разбор каждой модели отдельно
✓ Vellum ai — Красивая визуализация, легкие диаграммы, которые помогут понять, что к чему. Подойдет, чтобы на старте выбрать наилучшую модель. Потом можно изучить что-то более сложное
✓ LLM-stats com — Обширный рейтинг, много параметров, но при этом не все заполнены до конца, поэтому разметил снизу списка. Но изучить стоит, сделано все красиво и достаточно понятно
📌 Я буду ОЧЕНЬ благодарен, если вы оцените пост и посмотрите мой канал в ТГ (ссылка в профиле пикабу). Всем позитива и хорошего настроения, будьте добрее друг к другу!