Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр
Реалистичный симулятор игры бильярд. Играйте в Бильярд 3D: Русский бильярд, как в настоящей бильярдной!

Бильярд 3D: Русский бильярд

Симуляторы, Спорт, Настольные

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • SergeyKorsun SergeyKorsun 12 постов
  • SupportHuaport SupportHuaport 5 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня

Синтез речи

С этим тегом используют

Искусственный интеллект Нейронные сети Озвучка YouTube Warcraft Вертикальное видео Русская озвучка Все
81 пост сначала свежее
3
NeuralNet.2025
NeuralNet.2025
14 дней назад
Искусственный интеллект

Лучшие открытые модели ИИ для синтеза русской речи на домашнем ПК⁠⁠

Сегодня, благодаря открытым (open-source) моделям искусственного интеллекта, любой желающий может «научить» свой компьютер говорить — причём на чистом русском языке и без необходимости арендовать дорогие серверы. Мечтаете озвучивать видео, создавать аудиокниги или просто экспериментировать с голосовыми технологиями? В этой статье рассмотрим варианты.

Нагуглил по этой теме кое-какие новинки (или не совсем новинки) в мире Text-to-Speech (TTS) и отобрал модели, которые можно запустить локально даже на бюджетной видеокарте. Главные критерии отбора: высокое качество синтеза, поддержка русского языка и скромные системные требования.

Герои локального синтеза речи

Забудьте о роботизированных голосах из прошлого. Современные нейросети способны генерировать речь, неотличимую(почти) от человеческой. Вот четыре открытые модели, на которые стоит обратить внимание в 2025 году.

1. Piper TTS: Чемпион по эффективности

Если вы ищете максимально быстрый и нетребовательный к ресурсам вариант, Piper TTS — ваш выбор. Эта модель оптимизирована до такой степени, что отлично работает даже на CPU или на одноплатных компьютерах вроде Raspberry Pi, что делает её абсолютным чемпионом по эффективности.

  • Русский язык: Piper предлагает несколько готовых русскоязычных голосов, которые сообщество высоко оценивает за естественность и приятное звучание.

  • Что с железом? Piper — самая «лёгкая» модель в нашем списке. Ей требуется менее 3 ГБ видеопамяти (VRAM), а это значит, что она без проблем запустится практически на любой видеокарте, выпущенной за последние несколько лет.

  • Идеально для: Быстрой озвучки текстов, использования в проектах для слабого оборудования, голосовых ассистентов.

2. Silero TTS: Простота и качество

Модели от Silero давно зарекомендовали себя как простой и качественный инструмент для синтеза речи. Разработчики изначально уделили большое внимание поддержке русского языка, что делает их одними из лучших для русскоязычных пользователей.

  • Русский язык: Silero предлагает несколько высококачественных моделей и голосов, специально обученных на огромных массивах русских текстов. Качество произношения и интонаций — на высоте.

  • Что с железом? Модели Silero очень эффективны. Хотя для сопутствующих ИИ-задач может потребоваться больше ресурсов, сама по себе TTS-модель комфортно себя чувствует на видеокартах с 6 ГБ VRAM, а часто может работать и на более скромных конфигурациях.

  • Идеально для: Стабильных и качественных результатов, интеграции в различные приложения благодаря простому API.

3. Coqui TTS (модель XTTS-v2): Мастер клонирования голоса

Хотите, чтобы нейросеть заговорила вашим голосом? Coqui TTS и её флагманская модель XTTS-v2 делают это возможным. Главная «фишка» этой модели — способность к «клонированию голоса» (voice cloning) всего по 5-10 секундам аудиозаписи.

  • Русский язык: XTTS-v2 является многоязычной моделью и хорошо справляется с синтезом русской речи, сохраняя при этом тембр и интонации исходного голоса.

  • Что с железом? Клонирование голоса требует ресурсов. Для комфортной работы понадобится видеокарта с минимум 4-6 ГБ VRAM, при этом пиковое потребление при генерации длинных фраз может достигать 10 ГБ. К счастью, существуют способы оптимизации, позволяющие переносить часть нагрузки на оперативную память (RAM).

  • Идеально для: Создания уникальных голосов, озвучки персонажей, персонализированных проектов.

4. Bark: Творческий генератор звуков

Bark от лаборатории Suno — это не просто TTS-модель, а полноценный генератор аудио. Она умеет не только говорить, но и добавлять в речь невербальные звуки: смех, вздохи, плач и даже пение или фоновую музыку. Это открывает невероятный простор для творчества.

  • Русский язык: Bark поддерживает русский и позволяет генерировать речь с высокой степенью эмоциональной выразительности.

  • Что с железом? Это самая требовательная модель в нашем списке. Полная версия потребует около 12 ГБ VRAM. Однако разработчики предлагают и облегчённые варианты, которые могут уместиться в 8 ГБ, а с определёнными настройками и оптимизациями энтузиасты умудряются запускать её даже на картах с 2-4 ГБ VRAM.

  • Идеально для: Экспериментов со звуком. Мне не удалось избавиться от шумов и каких-то бульканий при генерации диалогов. Пробовал, на урезанной версии и полной при запуске на CPU - голоса прикольные, но шум очень сильный для озвучивания книг, вероятно не подойдет. Если кто знает как убрать шумы в этой модели поделитесь. Она может хихикать и по описанию даже добавлять музыку. Но неточно следует инструкциям и часто проглатывает эти описания.

Как выбрать модель под свою задачу?

  • Для новичка или владельца слабого ПК: Начинайте с Piper TTS. Вы получите отличные результаты без головной боли с настройками и требованиями.

  • Нужен стабильно качественный русский голос: Silero TTS — ваш надёжный выбор.

  • Хотите создать уникальный голос или озвучить что-то своим тембром: Готовьтесь осваивать Coqui TTS.

  • Для творческих экспериментов и озвучки с эмоциями: Если у вас мощная видеокарта, попробуйте Bark.

Будущее уже здесь

Развитие открытых моделей синтеза речи идёт семимильными шагами. Инструменты, которые ещё пару лет назад были сложными и доступными лишь единицам, сегодня может запустить любой энтузиаст. Локальный синтез речи — это не только увлекательное хобби, но и шаг к большей приватности и независимости от облачных сервисов. Попробуйте сами — ваш компьютер способен на большее, чем вы думаете!


Напишите, какие модели используете локально. Может я упустил что-то хорошее.

Показать полностью
[моё] Синтез речи Модели
1
8
vaan37
vaan37
1 месяц назад
Книжная лига

Помогите с выбором синтезатора речи⁠⁠

Здравствуйте, возможно есть какие то сборки включающие в себя синтезатор и набор лучших голосов для озвучивания txt и fb2 книг? Море книг без озвучки но очень хороших.
Проблема в телефоне без плеймаркета и поддержки гугла, многие синтезаторы как я понял, завязаны на гугл и тд и нормально не работают через Gbox.
Телефон honor 30s
По возможности, бесплатный вариант

[моё] Книги Синтез речи Телефон Текст
17
75
Nerual.Dreming
Nerual.Dreming
4 месяца назад
Stable Diffusion & Flux

Три бесплатных портативных нейросети для работы со звуком | MM-Audio, Fish Speech, LatentSync⁠⁠

🎵 Друзья, вы готовы к настоящей революции в мире аудио? В этом видео я покажу вам три невероятные нейросети, которые перевернут ваше представление о работе со звуком! MM-Audio создаст потрясающие звуковые эффекты для ваших видео и игр всего за пару кликов, Fish Speech поразит вас качеством клонирования голоса по минутному образцу, а LatentSync идеально синхронизирует сгенерированную речь с любым видео.

Я покажу все хитрости настройки, поделюсь личным опытом и научу пользоваться каждым инструментом. А самое крутое - все они доступны в удобных портативных версиях! 🚀

Альтернативный плеер YouTube:

Ссылки из видео:

🎨 MM-Audio - генерация звуков

  • Скачать портативную версию: https://t.me/neuroport/119

  • Исходный код: https://github.com/hkchengrex/MMAudio

  • Онлайн демо: https://huggingface.co/spaces/hkchengrex/MMAudio

🗣️ Fish Speech - клонирование голоса

  • Скачать портативную версию: https://t.me/neuroport/134

  • Исходный код: https://github.com/fishaudio/fish-speech

  • Онлайн демо: https://huggingface.co/spaces/fishaudio/fish-speech-1

🎬 LatentSync - синхронизация губ

  • Скачать портативную версию: https://t.me/neuroport/129

  • Исходный код: https://github.com/bytedance/LatentSync

  • Онлайн демо: https://huggingface.co/spaces/fffiloni/LatentSync

🛠️ Полезные инструменты:

  • Whisper для транскрибации: http://github.com/Const-me/Whisper

  • Ultimate Vocal Remover: https://github.com/Anjok07/ultimatevocalremovergui

  • Audacity для редактирования: https://www.audacityteam.org

  • База голосов для TTS: https://t.me/neuroportchat/6633

📱 Мои ссылки:

  • Поддержать донатом: https://www.donationalerts.com/r/nerual_dreming

  • Основной Telegram: https://t.me/neuro_art0

  • Эксклюзивы на Boosty: https://boosty.to/neuro_art

  • Курс по нейросетям: https://fooocus.ru

  • Клуб "Нейро-музыка": https://neuromusic.club

  • Все Telegram каналы: https://t.me/addlist/LQ-fUTyhVjEzYjIy

Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.

Показать полностью 1
[моё] Нейронные сети Липсинк Синтез речи Искусственный интеллект Обработка звука Звуковые нейросети Звуковые эффекты Видео Видео ВК YouTube
25

Попробовать мобильный офис

Перейти
Партнёрский материал Реклама
specials
specials

Мобильный офис до 100 тысяч рублей⁠⁠

Ноутбуки используют не только для работы: на них смотрят сериалы, редактируют фото, запускают игры и монтируют ролики. Поэтому теперь требования к устройству такие: быть легким для дороги, надежным для горящих дедлайнов и стильным, чтобы не прятать в переговорке. А еще — легко работать в связке с другими гаджетами.

Протестировали TECNO MEGABOOK K15S вместе со смартфоном TECNO CAMON 40 и наушниками TECNO в рабочих и бытовых сценариях от Zoom-звонков до перелета, а теперь рассказываем, как себя показала техника.

Первое впечатление от дизайна ноутбука

Первое, что заметно — это вес. При диагонали 15,6 дюйма и полностью металлическом корпусе K15S весит всего 1,7 кг. Это примерно на 15% меньше, чем аналоги. Устройство не обременяет ни в офисе, ни в такси. Ноутбук поместился в стандартный городской рюкзак, было удобно достать его в кафе за завтраком и по дороге в такси, чтобы быстро отработать клиентские правки.

1/4

Дизайн сдержанный, без ярких акцентов, с матовой поверхностью. Правда, на ней остаются следы от рук. Так что если приходится постоянно открывать ноутбук в присутствии клиентов или партнеров, лучше купить прозрачный кейс. Визуально и тактильно устройство ощущается надежно: не выскальзывает и не двигается по столу, благодаря специальным резиновым накладкам на задней части.

Шарнир работает мягко: чтобы открыть крышку даже одной рукой, не нужно придерживать корпус. Чтобы показать коллеге или клиенту презентацию, достаточно раскрыть экран на 180°. Это удобно и для работы лежа, и для подставок, которые требуют определенного угла обзора.

Также отметим 9 портов: USB-A, USB-C, HDMI, слот для карты памяти — можно забыть о переходниках.

В TECNO MEGABOOK K15S предустановлен Windows 11. Ноутбук готов к работе сразу после включения. Никаких лишних установок и обновлений. Все настроено и оптимизировано для вашей многозадачности.

Экран: яркая картинка и комфорт ночью

Экран — 15,6 дюйма, IPS-матрица с разрешением Full HD. Углы обзора отличные: изображение остается четким, даже если смотреть сбоку, цвета не искажаются. Есть антибликовое покрытие. Тестировали ноутбук при разном освещении: можно спокойно работать у окна. Когда солнце бьет прямо в экран, текст по-прежнему остается читаемым, картинки не искажаются. Это редкость в бюджетных моделях.

1/2

Неважно, работаете вы ночью или играете, выручит клавиатура с регулируемой четырехуровневой подсветкой. При среднем уровне в темноте все видно, глаза не устают. Из плюсов для тревожных людей: включали ноутбук в самолете и электричке, никто вокруг не жаловался на яркость. Все регулируется кнопками, не нужно лишний раз заходить в настройки.

Стеклокерамический крупный тачпад — 15 см. Он не залипает, не промахивается, срабатывает с первого касания. Не возникает дискомфорта, даже если несколько часов редактировать документы без мышки. После перехода с других устройств немного непривычно, что тачпад работает в двух направлениях: нижняя часть отзывается нажатием, верхняя — касанием.

В кнопку питания встроен сканер отпечатка пальцев. К нему можно быстро привыкнуть, особенно если сидишь в опенспейсе или работаешь в дороге. Один легкий тап пускает в систему даже с мокрыми руками. Безопасно, удобно и не нужно постоянно вводить пароли.

Производительность: рендерим видео, открываем вкладки

Ноутбук работает на AMD Ryzen 7 5825U (опционально можно выбрать версию техники Intel Core i5-13420H). Восьмиядерный AMD с поддержкой 16 потоков подходит для ресурсоемких операций вроде рендеринга или работы с большими массивами данных. Встроенная графика Radeon справляется с редактированием видео в Full HD или играми.

1/4

Во время монтажа 30-минутного ролика в DaVinci Resolve и параллельной работе в Photoshop с несколькими большими PSD-файлами система сохраняла стабильность. Не было ни зависаний, ни заметного падения производительности. Ноутбук уверенно держит в фоне 10 приложений одновременно. Если запущены браузер с 20 вкладками, видеозвонок в Telegram, Excel с объемной таблицей и софт для монтажа, система не тормозит и не перегревается. Переход между окнами остается плавным, ничего не «проседает», даже при одновременном скачивании файлов и редактировании видео.

Базовая комплектация включает 16 ГБ оперативной памяти в двух слотах. При необходимости можно легко увеличить этот показатель до 32 ГБ, заменив стандартные модули на более емкие. Помимо установленного SSD на 1 ТБ предусмотрен дополнительный слот, поддерживающий диски объемом до 2 ТБ.

Чтобы во время нагрузки системы охлаждения не выходили из строя, в ноутбук встроен эффективный вентилятор, способный рассеивать до 35 Вт тепла. Устройство не греется, его спокойно можно держать на коленях. Это решение дополнено тремя режимами работы, которые переключаются простой комбинацией клавиш Ctrl+Alt+T. Тихий режим идеален для работы ночью или в общественных местах, сбалансированный подходит для повседневных задач. Производительный, на котором запускали рендеринг видео и игры, практически не шумит.

Автономность: 15 часов без подзарядки

Протестили автономность MEGABOOK K15S в условиях, знакомых каждому деловому путешественнику. Утром перед вылетом зарядили ноутбук до 100% и взяли его в рейс Москва — Калининград. В зале ожидания провели созвон, потом три часа смотрели сериал и в дороге до отеля редактировали документы. К моменту приезда оставалось 40% заряда: хватило бы еще на пару часов продуктивной работы.

1/3

MEGABOOK K15S может автономно работать до 15 часов и позволяет не оглядываться на индикатор заряда. Заявленное время достигается при типичном офисном использовании: одновременная работа с документами в Word и Excel, ведение переписки, видеоконференции, веб-серфинг.

Если все же понадобится, за  час восполняется до 70% батареи. Компактный адаптер мощностью 65 Вт на базе нитрида галлия поместился даже в карман пиджака. Один блок питания заряжает и ноутбук, и смартфон, и наушники. Экономия места: не нужно никаких дополнительных проводов.

Звук, который реально слышно

В TECNO MEGABOOK K15S установлены два мощных динамика по 2.5 Вт. Звук с глубокими низами, без пластикового дребезжания, объемный. Благодаря DTS можно смотреть видео даже в шумном помещении. В тестах специально включали сцены с шагами и выстрелами: локализация настолько точная, что в наушниках нет необходимости.

Та же стабильность и в микрофоне. Благодаря AI-шумоподавлению голос передается чисто. Во время тестовых звонков из оживленного кафе собеседник не услышал ни разговоры за соседним столом, ни городской шум. И все это — на расстоянии до пяти метров.

Кстати, о созвонах. В ноутбуке встроена обновленная камера. Она отслеживает положение лица, а еще есть физическая шторка приватности. Например, можно закрыть шторку для комфортных видеоконференций.

Для тех, кто предпочитает гарнитуру, идеально подойдут беспроводные наушники TECNO FreeHear 1 из экосистемы бренда. Когда не хотелось делиться разговорами с окружающими, подключали их. Чистый звук с акцентом на средние частоты, 11-мм драйверы, которые выдают неожиданную детализацию. Музыку слушать приятно: и фоновый плейлист на телефоне, и вечерний сериал на ноутбуке. Автономно работают наушники 6 часов, с кейсом — до 30 часов. 

1/2

Bluetooth 5.4 обеспечивает стабильное соединение на расстоянии до 10 метров. Удобная C-образная форма разработана специально для длительного ношения — после восьмичасового рабочего дня в ушах не возникает дискомфорта. Наушники поддерживают одновременное подключение к ноутбуку и смартфону. Переключение между устройствами происходит быстро и без заминок.

Через фирменное приложение Welife можно выбрать один из четырех эквалайзеров и отследить местоположение гарнитуры в случае утери. А еще кастомизировать виджет для управления наушниками. Функция настройки персонализированного дизайна доступна для устройств на Android и позволяет гибко изменить внешний вид окна подключения: вплоть до установки фоновой картинки или собственного фото.

Первые пару использований может потребоваться время, чтобы привыкнуть к нестандартной форме вкладышей, но уже с третьего раза они надеваются вслепую за секунду. Что особенно приятно:  собеседники отмечают, что звук от микрофона более приятный и четкий, чем у дорогих известных моделей.

Бесшовная синхронизация со смартфоном

Благодаря функции OneLeap ноутбук синхронизируется со смартфоном TECNO. Подключение происходит за пару секунд: достаточно один раз подтвердить сопряжение. После этого открывается доступ к бесшовному переключению между устройствами — объединенному буферу обмена, дублированию экранов и передаче файлов без кабелей и пересылок в мессенджерах.

Функция выручила, когда нужно было открыть приложение, у которого нет веб-версии. Удобно работает и буфер обмена: скопировал текст на одном устройстве — вставил на другом. Например, код, полученный в сообщении на телефоне, вводится в браузере на ноутбуке. Экономит минуты, а иногда и нервы. А когда в дороге пропал Wi-Fi, ноутбук сам подключился к мобильному интернету через смартфон.

1/2

TECNO CAMON 40 и сам по себе — мощный рабочий инструмент.  Смартфон выделяется камерой высокого качества 50 Мп, ярким AMOLED-экраном 120 Гц и множеством функций, которые упрощают процесс мобильной съёмки и использование искусственного интеллекта TECNO AI.

Телефон работает на HIOS 15.0.1 на базе Android 15.В фирменную оболочку встроен искусственный интеллект:

  • Голосовой помощник Ella. Отвечает на вопросы, помогает с задачами и управлением устройством.

  • Решение задач. Наводите камеру на задачу, ИИ решает ее.

  • AI Редактор фотографий. Интеллектуальная обработка в одно касание.

  • Быстрый поиск. Находит адрес на экране и запускает навигацию, распознает объекты и события, автоматически добавляет их в календарь.

Технические характеристики

  • Процессор и память. 8 ядер, 16 потоков, Кэш L3 16 МБ, частота до 4.5 ГГц Графический процессор AMD Radeon™ graphics SSD 512 ГБ или 1 ТБ, М.2, 2280, PCle 3.0 Nvme DDR4 16 ГБ, 3200 МГц.

  • Дисплей. 15.6", TFT, Full HD (1920×1080), 16:9, 280нит, 45% NTSC, 16.7 млн цветов, 60 Гц, 141 ррі.

  • Веб-камера. 1 Мп, шторка приватности.

  • Порты. 9 портов: 1*TF Card (microSD), 1*HDMI 1.4, 1*USB-A 3.1,

    1*USB-A 3.2, 1*3.5mm аудиовход, *Ethernet RJ45 до 1 Гбит, 2*Туре-С (Full Function), 1*слот для замка Kensington.

  • Другое. Сканер отпечатка пальца в кнопке питания. Клавиатура с подсветкой (4 уровня яркости). Тачпад с поддержкой одновременно 4 касаний.

  • Батарея. 70 Вт∙ч (6150 мА∙ч), Li-Pol, 11.55 B 65 Вт Type-C GaN, 20 В, 3.25 А, кабель 1.8 м (Туре-С-Type-C).

  • Габариты. 17.3 мм (высота), 359.5 мм (ширина), 236 мм (глубина).

  • Вес. 1,7 кг.


Если хотите создать собственную экосистему, в которой технологии подстроятся под ритм дня, попробуйте технику TECNO. Мощный ноутбук, быстрый смартфон и наушники соединяются в единое пространство. Быстрое переключение между устройствами, синхронизация файлов и стабильное соединение без лишних настроек.

КУПИТЬ НОУТБУК TECNO

Реклама TECNO Mobile Limited, Юридический адрес: Flat N, 16/F., Block B, Универсальный промышленный центр, 19-25 Shan MeiStreet, Fotan, New Territories, Гонконг

Показать полностью 17
Электроника Гаджеты Ноутбук Длиннопост
1
snakers4
snakers4
5 месяцев назад

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие⁠⁠

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие Искусственный интеллект, Озвучка, Чат-бот, Синтез речи, Инновации

Фонтан "Дружба народов"

Привет, Пикабу!

Наверное ни для кого не секрет, что в последнее время усиливаются как интеграционные, так и дезинтеграционные процессы у нас в стране и вокруг неё. Вот, например, в метро можно увидеть вот такую рекламу (затёр логотипы):

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие Искусственный интеллект, Озвучка, Чат-бот, Синтез речи, Инновации

Понятно, что нынче Пикабу состоит из баянов, розжига, сисек, срачей про мигрантов и бездомных собак (вы сами знаете всё остальное), но остались же тут адекватные люди, кто ещё верит в дружбу народов и всё подобное, хотя бы в рамках нашей страны?

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, вы знаете нас через одного популярного бота для озвучки в Телеграме.

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

  • Помощь в поиске актуальных текстов на родном языке;

  • Запись голоса (как на русском, так и на втором родном языке);

  • Минимальные консультации по фонетике, ударениям и грамматике.

✉️ Контакты для связи, условия участия оговариваем в каждом случае отдельно.

Показать полностью 1
[моё] Искусственный интеллект Озвучка Чат-бот Синтез речи Инновации
1
5
AlphaGeek
AlphaGeek
5 месяцев назад

Обзор доступного инструмента для клонирования голоса в Telegram⁠⁠

Будучи человеком, который интересуется современными технологиями, я давно увлекаюсь различными инструментами для работы с голосом. Меня особенно привлекает возможность создания реалистичной речи с использованием искусственного интеллекта. В последнее время эта технология стремительно развивается: от роботизированных голосов мы перешли к созданию речи, которая практически неотличима от человеческой.

Недавно, исследуя возможности Telegram-ботов, я случайно наткнулся на интересный инструмент для клонирования голоса. Честно говоря, сначала отнесся скептически - мол, очередная игрушка. Но решил попробовать - всё же планирую в будущем заняться созданием видеоконтента, а качественное озвучивание всегда остаётся актуальной задачей.

Забегая вперед скажу - результаты меня удивили, но обо всём по порядку.

Обзор доступного инструмента для клонирования голоса в Telegram Технологии, Искусственный интеллект, Синтез речи, Озвучка, Нейронные сети, Тренд, Боты, Telegram, Длиннопост

Главные особенности

Бот предлагает два основных режима работы:

  • Синтез речи из текста с использованием готовых голосов

  • Клонирование голоса из аудиозаписи

Что касается качества синтеза речи - оно на достойном уровне. Особенно порадовало, что бот очень понятно взаимодействует с пользователем и даже имеет встроенный индикатор, который показывает, достаточно ли аудиоматериала для качественного клонирования голоса.

Личный опыт использования

Из личного опыта по клонированию: минимально достаточный объем аудио - около 2 минут, но для действительно качественного результата лучше использовать 3-4 минуты записи. Бот сам подсказывает с помощью специального индикатора, хватает ли материала для создания качественного клона голоса.

Обзор доступного инструмента для клонирования голоса в Telegram Технологии, Искусственный интеллект, Синтез речи, Озвучка, Нейронные сети, Тренд, Боты, Telegram, Длиннопост

К сожалению, технические ограничения Пикабу не позволяют прикрепить аудио непосредственно в пост, чтобы продемонстрировать результаты. Поэтому оставлю ссылку на аудио-результат гугл драйв, сможете прослушать, что у меня получилось :)

Заключение

Технология действительно впечатляет своими возможностями. Думаю, она будет особенно полезна для:

  • Создателей видеоконтента

  • Разработчиков обучающих материалов

  • Тех, кто занимается озвучкой текстов

Буду рад ответить на ваши вопросы в комментариях!

Показать полностью 2
[моё] Технологии Искусственный интеллект Синтез речи Озвучка Нейронные сети Тренд Боты Telegram Длиннопост
11
21
Shiller2017
Shiller2017
6 месяцев назад
Уголок ретрогеймера

Синтезатор голоса на Денди⁠⁠

В 90-х китайцы прокачали Денди до уровня, о котором мы и не мечтали — добавили синтезатор речи! Специальный чип устанавливали то в картриджи, то в сами приставки, и всё это для образовательных программ. Вот пример: обучающий картридж для компьютера Магистр от Gamestar с уроками английского и синтезированным голосом на русском языке!

Если кому интересно, пытаюсь делать обзоры на ретро-игры:
Канал ютуб
Группа ВК

[моё] Ретро-игры Олдскул Детство 90-х Ностальгия Синтез речи Dendy 90-е Олдфаги Вертикальное видео Видео
2
1
KOT.HECPET
8 месяцев назад

Голос из детства⁠⁠

Голос из детства Magic gooddy, Синтез речи, Переводчик, Ностальгия, Видео, Видео ВК

Привет, друзья. Решил поностальгировать. Может кому-то будет интересно услышать голос из прошлого. Просто напишите в чат трансляции, гусь долго молчал и жаждет общения!


https://vk.com/club227962370?z=video-227962370_456239041/videos-227962370

Показать полностью 1
[моё] Magic gooddy Синтез речи Переводчик Ностальгия Видео Видео ВК
8
61
luis2gerallit
luis2gerallit
10 месяцев назад
Лига Геймеров

Будущее уже наступило⁠⁠

Решил я тут значит прикрутить синтез голоса и нейронную сеть к Skyrim SE.

Как это было сделано

[моё] Игры The Elder Scrolls V: Skyrim Нейронные сети Синтез речи Видео Серана
78
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии