Китайская компания DeepSeek представила чат-бота, который обеспечивает поиск информации в интернете без необходимости оформления специальной подписки и доступен для пользователей из России. В ноябре 2024 года DeepSeek запустила свою крупную языковую модель DeepSeek V3. Разработчики утверждают, что чат-бот на основе этой модели способен конкурировать с ChatGPT, а основатели компании стремятся создать "сверхразумный" искусственный интеллект. В этом посте мы рассмотрим, что представляет собой модель, какие функции она предлагает и как с ней работать.
❓ Что такое DeepSeek V3
DeepSeek V3 — это масштабная языковая модель с открытым исходным кодом, содержащая 671 миллиард параметров и обученная на 14,8 триллионах токенов. Она способна анализировать тексты, выполнять переводы, писать эссе, а также генерировать программный код.
Основные особенности модели заключаются в её архитектуре и методах обучения, а именно:
➡️ Архитектура Multi-token Prediction (MTP): Позволяет модели предсказывать несколько слов одновременно, анализируя различные части предложения параллельно. Это повышает точность и эффективность работы модели.
➡️ Mixture of Experts (MoE): Использует несколько специализированных и предварительно обученных нейросетей-экспертов для обработки различных входных данных, что ускоряет обучение и повышает производительность ИИ. В DeepSeek V3 задействовано 256 таких нейросетей, из которых восемь активируются для обработки каждого токена.
➡️ Технология Multi-head Latent Attention (MLA): Механизм внимания, который помогает выделять наиболее важные части предложения. MLA позволяет многократно извлекать ключевые детали из текста, снижая вероятность упущения важной информации.
➡️ Благодаря этим особенностям модель была обучена всего за 2,788 миллиона часов, что составляет примерно два месяца работы графических процессоров Nvidia H800, с затратами в 5,5 миллионов долларов. Для сравнения, OpenAI потратила на обучение GPT около 78 миллионов долларов.
Разработчики утверждают, что в тестах нейросеть превзошла GPT-4 от OpenAI, Llama 3 от Meta (которая признана экстремистской и запрещена в России) и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текстов. Главная особенность новой модели — полностью открытый код, который позволяет разработчикам не только использовать технологию в коммерческих целях, но и адаптировать её для различных задач в сфере искусственного интеллекта.
💎 Возможности DeepSeek V3
Модель обладает контекстным окном в 128 тысяч токенов, аналогичным GPT-4, что позволяет ей анализировать до 300 страниц текста. Она способна:
✔️ Генерировать тексты разных объёмов и жанров;
✔️ Искать информацию в интернете;
✔️ Интерпретировать диаграммы и объяснять изображения;
✔️ Писать код, правильно его форматировать и решать сложные программные задачи на языках C++, Go, Java, JavaScript, Python и Rust. Модель также успешно интегрируется с редакторами кода;
✔️ Размышлять аналогично GPT-o1 и o1-mini в режиме DeepThink.
DeepSeek V3 поддерживает высокий уровень мультиязычности, а её глубокое понимание китайского и английского языков позволяет работать с текстами без потери качества перевода и смысла. Также модель поддерживает русский язык.
Недостатком нейросети является то, что она пока не может анализировать материалы по ссылкам и поддерживает только загрузку или извлечение фрагментов из текстов.
🇷🇺 Как пользоваться DeepSeek V3 в России
DeepSeek предлагает несколько способов доступа к модели, включая открытые модели на Hugging Face, бесплатную версию на собственном сайте с контекстным окном до 32 тысяч токенов, API для коммерческого использования, локальное развертывание и мобильные приложения для iOS и Android. При запуске DeepSeek-R1 пользователям предоставлялось 50 бесплатных запросов в день, но в настоящее время ограничения на сайте не указаны.