Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр
В Битве Героев вы будете уничтожать монстров, отправляться на приключения со своим кланом. Вас множество локаций, монстров, снаряжения. Приведи своего героя к победе!

Битва Героев

Приключения, Ролевые, Кликер

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • SergeyKorsun SergeyKorsun 12 постов
  • SupportHuaport SupportHuaport 5 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня

Звук + Обработка звука

С этим тегом используют

Вертикальное видео Музыка YouTube Юмор Кот Наушники Мат Создание музыки Ableton Ableton Live Электронная музыка Нейронные сети Все
48 постов сначала свежее
22
wonderlove
wonderlove
3 месяца назад
Искусственный интеллект

Озвучка диалогов с помощью нейросети FishSpeech⁠⁠

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.


❯ Основные особенности FishSpeech🐠

Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.

Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:

  • Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.

  • Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.

  • Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.

  • Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».

  • Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.

  • Мультиязычный интерфейс. Доступны русский и английский.

  • Автообновления и интеграция с GitHub.

❯ Обзор интерфейса

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Интерфейс FishSpeech Dialogue

Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.

Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.

Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.

В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».

Плавно спускаемся ниже.

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.

Для каждого говорящего доступна отдельная панель настроек. Здесь можно:

  1. Указать имя говорящего, которое должно совпадать с именем в тексте диалога.

  2. Выбрать референсный голос из доступных вариантов.

  3. Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.

Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D

В самом низу находятся расширенные настройки:

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.

❯ Примеры и возможности

Начнём с простого — рассуждения Винни-Пуха.

Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.

Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.

Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.

Дмитрий Нагиев и Чебурашка:

Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.

Ещё пара примеров:

Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.

Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.

Озвучка диалогов с помощью нейросети FishSpeech Нейронные сети, Искусственный интеллект, Digital, Видеомонтаж, Озвучка, Звук, Звукорежиссура, Машинное обучение, Монтаж, Обработка звука, Транскрипция, Русская озвучка, Видео, Видео ВК, Короткие видео, Длиннопост

Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

Показать полностью 6 8
[моё] Нейронные сети Искусственный интеллект Digital Видеомонтаж Озвучка Звук Звукорежиссура Машинное обучение Монтаж Обработка звука Транскрипция Русская озвучка Видео Видео ВК Короткие видео Длиннопост
6
20
Nerual.Dreming
Nerual.Dreming
5 месяцев назад
Видеомонтаж

MMAudio: Генерация звука для видео с помощью ИИ⁠⁠

Всем привет! Исследователи из Университета Иллинойса и Sony AI представили интересный проект MMAudio - нейросеть для создания звукового сопровождения к видео. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист, и сегодня я хочу рассказать об этой технологии подробнее и поделиться нашей портативной версией. Главная особенность системы в том, что она может генерировать звуки не только по текстовому описанию, но и на основе изображения или видео.

Как это работает

MMAudio: Генерация звука для видео с помощью ИИ Искусственный интеллект, Нейронные сети, Инновации, Нейроозвучка, Технологии, Звук, Видеомонтаж, Звуковые нейросети, Озвучка, Обработка звука, Видео, Длиннопост

В основе MMAudio лежит идея мультимодального обучения - система одновременно анализирует видео, звук и текстовые описания. Для этого используются два параллельных потока обработки видео: CLIP для понимания общего контекста (8 кадров/сек) и Synchformer для точной синхронизации (24 кадра/сек).

Такой подход позволяет системе лучше понимать происходящее в видео и создавать более подходящее звуковое сопровождение. Например, увидев падающие капли дождя, MMAudio не просто генерирует шум дождя, а пытается воспроизвести характерный звук капель, попадающих на разные поверхности.

MMAudio: Генерация звука для видео с помощью ИИ Искусственный интеллект, Нейронные сети, Инновации, Нейроозвучка, Технологии, Звук, Видеомонтаж, Звуковые нейросети, Озвучка, Обработка звука, Видео, Длиннопост

Важно отметить, что система использует технологию Flow Matching вместо традиционной диффузии, что позволяет достичь впечатляющей скорости работы - генерация 8-секундного клипа занимает всего несколько секунд.

Системные требования

Для работы с MMAudio необходимо:

  • NVIDIA GPU с 8+ ГБ видеопамяти

  • Windows 10/11 64-bit

  • 16 ГБ оперативной памяти

  • 12 ГБ свободного места на диске

Возможности MMAudio

Система отлично справляется с базовым озвучиванием видео. В первую очередь это звуки повседневной жизни - шаги, движение предметов, звуки природы. Вот несколько примеров:

• Динамические звуки: система точно улавливает моменты движения и синхронизирует звуки шагов, прыжков, перемещения объектов. Точность синхронизации достигает 25 миллисекунд.

• Природные эффекты: реалистично воссоздаёт звуки дождя, ветра, текущей воды. Особенно впечатляет работа с дождём - система различает как он звучит на разных поверхностях.

• Спортивные события: безошибочно определяет моменты ударов по мячу, прыжков, создает реалистичную акустическую атмосферу стадиона или спортзала.

• Звуковые ландшафты: может создавать атмосферные звуки для различных локаций - леса, города, пляжа и т.д.

Текущие ограничения

К сожалению, не все задачи система решает одинаково хорошо:

• Проблемы с речью: генерируемая человеческая речь пока неразборчива. Система может создать речеподобные звуки, но понять их невозможно.

• Сложная музыка: музыкальное сопровождение ограничивается простыми эффектами. Полноценные композиции пока недоступны.

• Временные рамки: система работает с клипами длительностью 8-10 секунд. Более длинные видео приходится обрабатывать по частям.

• Необычные звуки: могут возникать проблемы со звуками, которых не было в обучающей выборке.

Кому это пригодится

Создателям контента:
MMAudio станет незаменимым помощником для ютуберов и стримеров. С её помощью можно быстро озвучить короткий ролик или добавить звуковые эффекты в прямом эфире. Аниматоры оценят возможность быстрого прототипирования звукового сопровождения.

Разработчикам игр:
Технология отлично подходит для создания тестовых звуковых эффектов и процедурной генерации звука. Это особенно полезно на этапе прототипирования, когда нужно быстро проверить разные звуковые концепции.

Видеомонтажерам:
MMAudio поможет в создании черновых версий звуковых дорожек. Система быстро сгенерирует базовое звуковое сопровождение, которое потом можно доработать вручную.

3D-аниматорам:
Идеально подходит для быстрого озвучивания превизуализаций и тестовых рендеров.

Как попробовать

Попробовать MMAudio можно несколькими способами:

Онлайн-демо

  • Hugging Face - быстрый способ оценить возможности

  • Google Colab - для экспериментов без установки

  • Replicate - для интеграции через API

Для разработчиков
Исходный код доступен на GitHub

Наша портативная версия

Мы с каналом Нейро-Софт подготовили модифицированную русифицированную портативную сборку MMAudio, в которой:

  • Русский интерфейс

  • Упрощенная установка в 1 клик которая сама все скачает и поставит

  • Возможность сохранять аудио отдельно от видео

  • Генерация аудио из изображения

  • Оптимизация для работы на доступных GPU

Всё необходимое уже включено в дистрибутив, просто распакуйте и запускайте. Никаких дополнительных настроек не требуется. Забирайте тут.

Мой опыт

Я активно использую MMAudio для озвучки видео, сгенерированных в различных img2video сервисах. Результаты действительно впечатляют - система отлично справляется с базовыми звуками и создает довольно реалистичную атмосферу. Особенно хорошо получается озвучка природных сцен и различных действий вроде ходьбы или спортивных движений.

Конечно, технология ещё развивается, и иногда встречаются забавные артефакты в генерации, но для быстрого создания базового звукового сопровождения - это отличный инструмент.

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал с репаками тоже подпишетесь, чтобы не пропустить ничего полезного. Всех обнял. Удачных генераций!

Показать полностью 2 10
[моё] Искусственный интеллект Нейронные сети Инновации Нейроозвучка Технологии Звук Видеомонтаж Звуковые нейросети Озвучка Обработка звука Видео Длиннопост
3
9
lexlab245
lexlab245
10 месяцев назад
Звукорежиссура

Компрессор: что такое и как им пользоваться (руководство для новичка)⁠⁠

Данная статья является печатной версией сценария для этого видео, можете посмотреть если не хотите читать много текста:

Огибающая

Звук можно рассматривать с разных точек зрения. Со стороны спектра я разобрал в статье про эквалайзер. Но также можно не разбивать звук на отдельные частоты, а смотреть на него в целом. Один из способов - работать с огибающей. Она грубо описывает громкость звука в определенный момент времени. Сколько-нибудь точно измерить громкость в моменте невозможно т.к. звук это колебания, а они существуют только во времени, у них есть период. Поэтому измеряется громкость за счет накопления некоторого количества моментов:

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

Один из самых популярных приборов для коррекции огибающей - компрессор.

Компрессор и его параметры

Принцип его работы прост: если громкость звука переходит пороговый уровень, то компрессор уменьшает громкость сигнала, когда уровень ниже порога компрессор ничего не делает.

Давайте нарисуем простенькую схему - она поможет разобраться во всех тонкостях работы компрессора:

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

Здесь есть усилитель на который продается звук, усиление контролируется отдельным сигналом который в простейшем случае идёт с той же дорожки.

Насколько быстро будет происходить изменение громкости мы задаем с помощью ручки атаки.

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

Компрессор будет работать не сразу как уровень превысит порог (который мы кстати можем сами установить ручкой порога) а с некоторой заданной задержкой. Благодаря этому мы можем не просто уменьшить громкость звука а выделить транзиенты. Транзиентами называются моменты резкого подъема громкости.

Помимо задержки срабатывания есть ещё один важный параметр - релиз. Он отвечает за то сколько времени усилитель будет возвращаться в исходное положение после срабатывания. Релиз работает не мгновенно, а как и атака плавно изменяет усиление.

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

Как и у любого усилителя мы можем контролировать степень усиления, в случае с компрессором это делается с помощью ручки соотношения, которая задаёт усиление в разах. Т.е. во сколько раз должна уменьшиться громкость при срабатывании компрессора.

В большинстве более менее продвинутых компрессорах есть ещё некоторые важные параметры: удержание (холд) задерживает начало релиза на определенное время, т.е. оставляет сжатие на высоком уровне до того как он плавно начнет меняться: колено отвечает за форму огибающей по которой изменяется громкость звука, она может быть нелинейной:

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

Сайдчейн

Вернемся к схеме. Управляющий сигнал называют сайдчейном в переводе на русский боковая или же сторонняя цепь. Она не изменяет звук в прямом смысле этого слова а только контролирует изменение громкости, мы можем сделать контроль более сложным и навороченным. Мы можем воткнуть фильтр чтобы компрессор срабатывал только на определенные частоты например на высокие и тогда он будет срабатывать только на звуках "с":

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

Таким образом мы получили деэссер. И никакие другие плагины кроме компрессора и эквалайзера не нужны. Также можно подать на сайдчейн не сам сигнал который мы обрабатываем а какой нибудь другой, и жать например звук баса от бочки, чтобы они не звучали одновременно и бас не заглушал атаку бочки, т.к. они существуют в одном частотном диапазоне:

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

На схеме это будет выглядеть как то так:

Компрессор: что такое и как им пользоваться (руководство для новичка) Звук, YouTube (ссылка), Звукорежиссер, Звукорежиссура, Обработка звука, Плагин, Vst, Видео, YouTube, Гифка, Длиннопост

В теории можно воткнуть любые плагины перед сайдчейном и получить уникальные эффекты. Напишите в комментариях если есть мысли как можно нестандартно использовать компрессор, мне будет интересно почитать и возможно в одном из будущих видео проверить ваши идеи.

Теперь предлагаю посмотреть на разные классические способы использовать компрессор. Я могу выделить две основных.

1. Уменьшение динамического диапазона

Часто бывает необходимо на протяжение всего трека контролировать динамику инструмента, чтобы не было чрезмерных пиков и падений громкости. Лучшее что можно сделать в таком случае - это вручную с помощью огибающей настроить громкость. Результат в таком случае будет идеальным, и если у вас нет потокового производства, то стоит заморочится. Однако если у вас нет столько времени, то имеет смысл вручную изменять только какие-то продолжительные подъемы и спады в громкости, а микродинамику оставить компрессору.

Чтобы он сделал свою работу нужно настроить его на быструю атаку. Общий динамический диапазон уменьшиться, но с ним и общая громкость тоже, поэтому после компрессора нужно поднимать громкость. В некоторых плагинах есть автобаланас громкости, но я бы не советовал им пользоваться. Субъективное человеческое ощущение громкости может отличаться от машинного, из-за некоторых психоакустических эффектов звук после компрессии может восприниматься с другой громкостью даже если по уровню он будет таким же. Так что настраивайте усиление на слух. Да и вообще настраивайте звук всегда на слух а не на глаз.

2. Увеличение динамического диапазона

Как бы ни было парадоксально один и тот же инструмент может как уменьшить динамический диапазон так его и увеличить. Конечно речь идёт о микродинамике в пределах нескольких секунд, но тем не менее компрессор может выделить громкие моменты сделав их субъективно громче или же скорее ярче.

Для этого нужно установить атаку где то от 5 мс, а релиз подлиннее. Здесь нет четких параметров так как от инструмента и темпа будет зависеть необходимая атака и релиз. Например для малого барабана может быть неплохо 5 мс атаки, а релиз будет зависит от того как часто играет барабан, ведь компрессору нужно к каждому новому удару успеть восстановиться. Бочке нужно большее время атаки (~15 мс) ввиду того что она звучит в низких частотах, а чем ниже частота тем больше ее период, и чтобы его услышать должно пройти больше времени. Речь идет все еще о миллисекундах но тем не менее...

Не только с ударными можно использовать компрессор в таком режиме. Например голосу можно таким же образом добавить четкости и читаемости.

Параллельная компрессия

Компрессор не обязательно должен работать в основной цепочке на треке, он может также работать и параллельно. Во многих плагинах есть возможность крутить ручку драй/вет которая изменяет пропорции изменённого сигнала и оригинального, бывает есть вообще отдельные ручки для них, что позволяет оставить основной звук и подмешать к нему некоторое количество скомпрессированного. Так можно выделить атаки но при этом оставить весь жир на месте.

Настраиваем компрессор

У компрессора как и у других плагинов нет каких то идеальных пресетов на все случаи жизни. Могу дать простую рекомендацию по быстрой настройке компрессора в режиме выделения атаки.

Выкручиваете соотношение до больших значений, порог до того уровня чтобы отчётливо слышать компрессию. Атаку ставьте на минимум, релиз чуть больше минимума. Теперь увеличивайте атаку до того момента пока не получите ту самую яркую пробивную атаку. Теперь настройте релиз так чтобы сигнал успевал восстанавливаться до начала следующей атаки.

Дальше есть два пути.

Первый варант: верните соотношение к значению около 4 и увеличивайте порог пока не добьётесь нужного звучания. Если увеличите соотношение то сделаете атаки более жёсткими, а если уменьшите то наоборот более мягкими.

Второй вариант это параллельная компрессия. Когда вы получили яркую атаку но уже потеряли основное тело звука. Вы можете вернуть через драй/вэт оригинальный не скомпрессированный сигнал. И к нему подмешать атаки.

Да, здесь все как в рецептах где нужно посолить "по вкусу". Нет четких рекомендаций по результирующим значениям. Но если вы будете действовать по такому алгоритму то вероятно услышите те самые моменты выделения атак даже если не имел опыта работы с прибором.

Если у вас остались вопросы, напишите в комментариях, я обязательно на них отвечу. Ну и поставьте лайк если было полезно.

Сведение и мастеринг (vk/telegram): @alekseytukbaev

Показать полностью 8
[моё] Звук YouTube (ссылка) Звукорежиссер Звукорежиссура Обработка звука Плагин Vst Видео YouTube Гифка Длиннопост
0
Партнёрский материал Реклама
specials
specials

Раз проценты, два проценты⁠⁠

Звучит приятно, если речь о выгоде и начисленном кешбэке. Сделали самый приятный калькулятор, который считает исключительно выгоду!

Реклама Реклама. ПАО «Банк ВТБ», ИНН: 7702070139

Калькулятор Выгода
48
wonderlove
wonderlove
10 месяцев назад
Видеомонтаж
Серия Нейро-Звук

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума⁠⁠

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума Искусственный интеллект, Нейронные сети, Звук, Видеомонтаж, Монтаж, Гайд, Обработка звука, Инновации, Программа, Технологии, Цифровые технологии, Голос, Создание музыки, Видео, Длиннопост

Resemble Enhance - это инструмент на основе ИИ для улучшения качества речи путем шумоподавления и усиления.

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Это очень хорошая альтернатива плагина GOYO, который на данный момент недоступен. Более того, вам не нужна DAW или другая сторонняя программа, чтобы запустить Resemble, как в случае с GOYO.

Модель пока что подходит только для английской речи. Чтобы развернуть локально, необходима видеокарта NVIDIA минимум с 4 Gb видеопамяти.

По классике, начнем с интерфейса и далее взглянем на возможности более наглядно.

На самом деле, мы постарались и перевели интерфейс на русский язык и он стал уж совсем интуитивно понятным, но все же пробежимся в общих чертах.

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума Искусственный интеллект, Нейронные сети, Звук, Видеомонтаж, Монтаж, Гайд, Обработка звука, Инновации, Программа, Технологии, Цифровые технологии, Голос, Создание музыки, Видео, Длиннопост
  1. Выбор Сэмплера ОДУ для CFM

    Если вы уже сталкивались ранее с нейросетями, то знаете, что сэмплер, если просто - метод обработки шума. По стандарту стоит Midpoint и я также советую вам не менять его.

  2. Количество вычислений для CFM

То же самое, что и количество шагов. По стандарту 64.

Параметры 3, 4 и 5 показались мне не сильно важными.

В целом, настройки уже выставлены так, чтобы хорошо обработать бОльшую часть записей.

Шумоподавление перед усилением

Последняя галочка важная. Если в записи очень громкий внешний шум, то перед улучшением весь шум необходимо подавить, чтобы оно работало более корректно.

Resemble Enhance - нейросеть для улучшения голоса и очистки от шума Искусственный интеллект, Нейронные сети, Звук, Видеомонтаж, Монтаж, Гайд, Обработка звука, Инновации, Программа, Технологии, Цифровые технологии, Голос, Создание музыки, Видео, Длиннопост

Так же в Resemble Enhance есть возможность записать голос сразу, ускорять запись при прослушивании и возможность вырезать выбранный фрагмент.

Так как я не особо в курсе, где можно взять уже готовые плохие записи голоса, кроме как тех самых туториалов 10-летней давности, то предлагаю взять пару примеров из моих роликов и искусственно испортить исходник: добавим шум ветра, моря, можно чуть исказить с помощью эквалайзера.

Ну и все записи я заранее перевел на английский язык с помощью сервиса HeyGen.

Я добавил в запись своего голоса шум толпы. Представим, что мне пришлось записывать подкаст в ресторане.

Resemble очень хорошо очистил шум с этой задачей он справляется прекрасно, но улучшатор голоса иногда работает не совсем стабильно. В прочем, возможно это из-за искусственного перевода.

Давайте попробуем взять неискуственный, оригинальный кусок на настоящем английском из популярного мультика. К нему я дополнительно чуть-чуть примиксовал шум озера, посмотрим, как нейросеть справится с задачей.

Замечу, здесь улучшатор сработал много лучше.

Вот как это смотрится на видео:

Теперь давайте попробуем взять что-то всем знакомое, от чего становится тепло на душе: протестируем нашу нейросеть на старых мемах.

Я уверен, все слышали про мем Очень очень affordable... Довольно старый мем, местами проскакивает посторонний шум толпы, попробуем её исправить.

Ради эксперимента я не стал переводить его и очень удивился результату, просто взгляните

Следующий уж точно не менее известный мем - салатик и борщ с капусткой, но не красной. Уже его я перевёл, в целом на записи и так достаточно шума и его уж точно больше, чем на прошлой.

Здесь опять же чуть хуже работает улучшатор голоса. Я уверен, что это связано с тем, что перевод искусственный, а модель обучалась на настоящих голосах.

Ну и давайте повысим сложность - легендарный мем Очень плохая музыка с просто ужасным исходником. Громкая музыка, а в оригинале еще и стерео панорама не понятно куда едет. Про микрофон промолчу, записано это чудо 15 лет назад, чему удивляться.

На удивление, даже тут нейросеть прекрасно очистила шум, правда запись все равно осталась низкой по качеству. Улучшатор, конечно, совсем не в кассу - речь превратилась в один из монологов Уинстона Черчилля.

Далее мне стало интересно, и я взял еще одно видео, на нем очень сильное эхо, которое я еще и усилил.

Шумодав подчистил хвосты от эхо, но само оно не пропало, что было очевидно. А вот улучшатору, судя по всему, пришлось переписывать голос по новой.

На возможности нейросети взглянули со всевозможных сторон, теперь расскажу, как установить это действительно полезное чудо техники.

Чтобы установить Resemble Enhance, достаточно скачать нашу портативную версию с установкой в один клик.

Перед установкой отключите антивирус, он ругается на самораспаковывающийся архив. Если переживаете, то скачивайте 7z-архив, который нужно просто разархивировать в любое удобное место.

Надеюсь, статья была полезной, подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

Показать полностью 2 8
[моё] Искусственный интеллект Нейронные сети Звук Видеомонтаж Монтаж Гайд Обработка звука Инновации Программа Технологии Цифровые технологии Голос Создание музыки Видео Длиннопост
2
13
lexlab245
lexlab245
11 месяцев назад
Звукорежиссура

Эквалайзер: что такое и как им пользоваться (руководство для новичка)⁠⁠

Данная статья является печатной версией сценария для этого видео, можете посмотреть если не хотите читать много текста: https://youtu.be/X9kUyQr-FAI

Что бы ни говорили, эквалайзер — это главный инструмент для звукорежиссёра. Чтобы эффективно его использовать, необходимо понимать его устройство и принцип работы. Но прежде чем говорить об эквалайзере, давайте разберёмся, как вообще работает звук.

Что такое эквалайзер

Всё довольно просто.

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост

Динамик совершает движения вперёд-назад, создавая колебания воздуха перед собой. Эти колебания мы воспринимаем ушами как звук.

Скорость движения динамика может быть разной. Например, если он успевает 10 раз за секунду сместиться вперёд-назад относительно состояния покоя, мы говорим, что частота звука составляет 10 Герц. Расстояние, на которое смещается динамик, называется амплитудой.

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост

От неё зависит громкость звука: чем больше амплитуда, тем громче звук.

Если рассмотреть более сложный звук, можно увидеть волну, которая отличается от синусоиды, как в примере с динамиком.

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост

В этом случае ещё можно понять амплитуду, но частота уже не так очевидна. Это связано с тем, что звук, который мы слышим в повседневной жизни, состоит из множества частот с разной громкостью. Именно этот набор частот, где каждой соответствует своя амплитуда, отображается на спектре сигнала.

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост

Эквалайзер — это устройство, регулирующее амплитуду частот, которые есть в звуке.

Какие бывают эквалайзеры

Обычно эквалайзеры разделяют на два типа: графические и параметрические.

Графические эквалайзеры позволяют усилить или ослабить громкость на определённых частотах с заранее заданной точностью. Из-за того, что параметры эквалайзера предопределены, он не очень гибкий в использовании и подходит только для бытовых целей.

Параметрические эквалайзеры, в свою очередь, более универсальны и подходят для серьёзной работы. Их можно разделить на две группы:

  • Эмуляторы аналоговых

  • Цифровые

Эмуляторы воссоздают «классические» аналоговые эквалайзеры со всеми их условными недостатками. Они могут звучать хорошо и даже вносить нелинейные искажения, добавляющие красок звуку. Однако их главной особенностью является повторение органов управления и заданные формы фильтров.

Так или иначе, что красящие, что не красящие эквалайзеры выполняют одну и ту же функцию, и использовать ли вам идеальные цифровые или эмуляторы — вопрос сугубо субъективный. В практике я всегда использую только цифровые, ибо они универсальны и очень удобны, но стоит понимать, что принципы работы для обоих групп абсолютно одинаковые.

Параметры эквалайзера

Управление каждого эквалайзера разделено на полосы.Для каждой полосы обычно существует хотя бы три основных типа фильтра:

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост
  1. колокообразный (bell)

  2. обрезной (HС LС)

  3. полка (shelf)

Первый, самый ходовой, используется как для грубой, так и для тонкой корректировки. Второй — для обрезания лишнего верха или низа, а последний — для их подъема и опускания, в виде такой полки, откуда и название.

Существуют также и другие фильтры, но вам вряд ли понадобится что-то еще. К тому же, их можно получить комбинацией трех основных.

У любой полосы есть три основных параметра:

  1. Частота

  2. Усиление

  3. Добротность

Первый, очевидно, характеризует то, на какой частоте будет применен фильтр, при этом частоты могут обозначаться как в герцах, так и в килогерцах для удобства. Второй задает усиление частоты или же ее ослабление. Важно понимать, что усиление указывается в дБ, а это нелинейная логарифмическая величина.

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост

Так, например, изменение с 5 на 10 дБ даст разницу в громкости не в 2, а в три раза. Чем ближе величина в дБ к 0, тем меньше изменение громкости, чем дальше от нуля, тем сильнее, вплоть до бесконечности. Параметр добротности изменяет избирательность полосы. Чем выше добротность, тем меньше частот попадет под влияние фильтра. Эта величина безразмерна. Также есть характеристика slope (уклон), которая изменяет крутизну спада фильтра и используется в основном в кат-фильтрах вместо добротности.

Динамический эквалайзер

Изменения, вносимые в эквалайзер, применяются ко всей аудиодорожке. Однако в процессе работы спектр звука может меняться, и те изменения, которые мы вносим, могут оказаться неактуальными.

В таких случаях можно использовать динамический эквалайзер. Он реагирует на изменение громкости частоты, на которую применён фильтр. Если громкость проходит через пороговое значение, то усиление фильтра изменяется. Чем дальше за пороговое значение уходит сигнал, тем сильнее меняется усиление фильтра. То есть сам сигнал, который мы подаём на эквалайзер, влияет на усиление фильтра.

Например, если в сигнале появляются нежелательные частоты, можно настроить динамический эквалайзер так, чтобы он уменьшал их. Когда эти частоты появятся, усиление автоматически уменьшится, и они станут тише.

Немного про фазу

Эквалайзер не только изменяет спектр сигнала, но и корректирует фазу отдельных частот. На высоких частотах это изменение обычно незаметно, но на низких частотах может привести к нежелательным эффектам.

Для устранения проблем, связанных с фазой, в цифровых фильтрах нередко используется режим линейной фазы. Однако он не является универсальным решением и может вызывать другие трудности. Например, звук может приобретать предзвучание, и вместо чёткой атаки мы слышим смазанное появление звука с лёгким низкочастотным гулом.

Эквалайзер: что такое и как им пользоваться (руководство для новичка) Звук, Звукорежиссер, Звукорежиссура, Обработка звука, Эквалайзер, Плагин, Vst, Гифка, YouTube (ссылка), Длиннопост

Не стоит искать проблемы там, где их нет. Если звук звучит хорошо, то лучше не вмешиваться. Визуальное представление на плагине — это всего лишь картинка, а звук мы воспринимаем ушами, поэтому доверяйте своим ушам.

Как сделать звук лучше?

Ответа нет и быть не может. Каждый инструмент и каждая запись имеют свои особенности, поэтому к их обработке нужно подходить индивидуально.

Я могу дать лишь некоторые советы, основанные на психоакустике и восприятии звука человеком в целом. Мы слышим звуки в диапазоне от 20 Гц до 20 кГц. Низкие частоты мы больше ощущаем телом, чем ушами. С возрастом мы хуже слышим высокие частоты.

Спектр звуков мы воспринимаем нелинейно:

Чем ниже точка на графике, тем громче мы слышим частоту. Вы можете заметить подъём на частотах 2–5 кГц. Именно этот диапазон отвечает за яркость и ясность звучания. В противовес ему выступают частоты около 300 Гц, которые делают звук более мутным. Если вы хотите добавить яркости и ясности, стоит сначала попытаться убрать частоты 200–400 Гц, так как добавление 2–5 кГц может сделать звук слишком резким.

Вопросы?

Напишите в комментариях — я обязательно отвечу.

Показать полностью 6
[моё] Звук Звукорежиссер Звукорежиссура Обработка звука Эквалайзер Плагин Vst Гифка YouTube (ссылка) Длиннопост
4
21
alllhimic
alllhimic
1 год назад
Халява
Серия ЛайфХак

Как получить пожизненную лицензию: Ableton Live 11 Lite?⁠⁠

> ПОЛУЧИТЬ | 34 700₽
💁🏻‍♂️ Ableton Live 11 Lite — это урезанная версия со всеми необходимыми рабочими процессами, инструментами и эффектами, но с ограниченным количеством дорожек, но данной версии будет с головой достаточно для начинающих музыкантов или людей заинтересованных в обработке звука.

↘️ Особенности Ableton Live 11 Lite:

– Мощный секвенсор: Создавайте и исполняйте свои музыкальные идеи с помощью интуитивно понятного интерфейса и передовых инструментов для работы с MIDI и аудио.

– Встроенные эффекты и инструменты: Пользуйтесь широким спектром эффектов и инструментов прямо из коробки, чтобы улучшить качество ваших треков и выступлений.

– Поддержка VST и AU плагинов: Расширьте возможности вашего секвенсора с помощью тысяч доступных плагинов, чтобы создать уникальные звуки и обработки.

– Интеграция с популярными DAW: Ableton Live 11 Lite легко интегрируется с другими популярными цифровыми рабочими станциями, что позволяет вам легко обмениваться файлами и сотрудничать с другими музыкантами.

↘️ Обзор возможностей на YouTube:


↘️ ИНСТРУКЦИЯ:
1. Переходим по этой ссылке.
╚ Теперь вводим свою почту
2. Готово, ожидаем сообщение.
╚ Копируем код для активации

Как получить пожизненную лицензию: Ableton Live 11 Lite? Гайд, Программа, Музыка, Звук, Инструкция, Раздача, Бесплатно, Халява, Полезное, Музыканты, Подписки, Акции, Промокод, Обработка звука, Macbook, Windows, Услуги, Видео, YouTube, Длиннопост, Telegram (ссылка)

2. Теперь загружаем программу.
╚ Создаем аккаунт и вводим код
3. Готово, пользуемся всю жизнь.
╚ Если вас не интересует данная программа, то вы можете получить код на временную почту и поделиться им в комментариях, чтобы сэкономить время Пикабушникам.

Как получить пожизненную лицензию: Ableton Live 11 Lite? Гайд, Программа, Музыка, Звук, Инструкция, Раздача, Бесплатно, Халява, Полезное, Музыканты, Подписки, Акции, Промокод, Обработка звука, Macbook, Windows, Услуги, Видео, YouTube, Длиннопост, Telegram (ссылка)

Источник: t.me/freehvb/6454 , наша следующая цель: 15 000 подписчиков.

Показать полностью 2 1
Гайд Программа Музыка Звук Инструкция Раздача Бесплатно Халява Полезное Музыканты Подписки Акции Промокод Обработка звука Macbook Windows Услуги Видео YouTube Длиннопост Telegram (ссылка)
6
1
iEbanYosi
1 год назад

Единственное доказательство аудиозапись ч.2⁠⁠

Прошу откликнуться профессионалов по работе со звуком, для помощи в расшифровке отрывка аудиозаписи из первого поста

Многие, а точнее практически все, посчитали мой пост бредом преследования. С пониманием отношусь к такому мнению, потому что для установления содержания разговора мною было потрачено порядка одного года. Перебор различных аудио редакторов, прогон через все возможные нейросети для подавления шума. Дело в том что там действительно есть и тиканье часов, и моё дыхание. И обычный, не заинтересованный, слушатель кроме этих звуков ничего не слышит. В моём небольшом городе не нашлось человека с профессиональным оборудованием для обработки аудио.

Я очень прошу откликнуться на мою просьбу о помощи. Естественно не бесплатно. Предлагаю следующий вариант сотрудничества:
1. Я скидываю оригинал записи и указываю временные метки в котором присутствует разговор. Небольшой отрывок порядка 10 секунд
2. Если получиться выявить содержание разговора в этом небольшом отрывке, я отправлю 1000 ₽ на карту любого банка.
(Естественно я заранее знаю что на этом отрывке)
3. Далее готов обсудить стоимость работ по расшифровке большего объема.

И если мы это сделаем, я обещаю что это будет просто информационная бомба. Но об этом уже после хоть какого то прогресса.

[моё] Помощь Аудио Диктофон Звук Разговор Транскрипция Обработка звука Текст
10
Партнёрский материал Реклама
specials
specials

Кешбэк прямиком из Римской империи⁠⁠

Да, первая версия кешбэка появилась еще в Античности. Тогда торговцы выдавали таблички — табулы, которые давали скидку на следующую покупку. А вы знаете, сколько табул кешбэка получаете ежемесячно? Давайте посчитаем!

Реклама Реклама. ПАО «Банк ВТБ», ИНН: 7702070139

Калькулятор Выгода
569
wonderlove
wonderlove
1 год назад
Создание музыки
Серия Нейро-Звук

Новый бесплатный AI плагин для удаления шума⁠⁠

Новый бесплатный AI плагин для удаления шума Искусственный интеллект, Звук, Нейронные сети, Монтаж, Видеомонтаж, Видео, Гайд, Плагин, Обработка звука, Технологии, Электронная музыка, Инновации, Длиннопост

Встречайте новый VST плагин для избавления от шума и реверберации - GOYO от Supertone AI. Существует много плагинов для удаления шума и восстановления аудио, но я загрузил его из любопытства. В результате мне он понравился гораздо больше, чем я ожидал, и я хотел поделиться им с вами тоже: это легкий, быстродействующий инструмент для удаления шума и реверберации в режиме реального времени для видеомонтажа, музыкального производства, записи голоса и т.д.

Скачать его вы можете по ссылке: https://goyo.app/

Ниже продемонстрированы примеры работы плагина:

Он удаляет нежелательный шум, шипение, гул, разговоры, трафик (реки!), ветер, удары микрофона, строительные работы, комнатную реверберацию и эхо из записей с удивительным качеством. Это, вероятно, мой любимый способ удаления шума из записей, который делает ваш голос более четким.

В плагине всего три крутилки, справится даже чайник:

Ambience - уровень шума в dB

Voice - уровень голоса в dB

Voice Reverb - уровень реверберации(эха) в dB

Я очень доволен его работой, довольно полезный и универсальный инструмент для монтажа

Интересна тема генерации музыки с помощью нейросетей? Добро пожаловать в Нейро-Звук🔉

Понравилось? Тогда милости прошу в мой телеграм канал, буду ждать тебя там!🔥

Показать полностью 2
[моё] Искусственный интеллект Звук Нейронные сети Монтаж Видеомонтаж Видео Гайд Плагин Обработка звука Технологии Электронная музыка Инновации Длиннопост
69
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии