Полезные и интересные нейросети
13 постов
13 постов
1 пост
1 пост
6 постов
4 поста
1 пост
3 поста
1 пост
Разработчик roop решил сам сделать собственную версию расширения для automatic1111 и выпустил sd-webui-roop
Под капотом по сути, тот же самый roop, но заточенный конкретно под замену лиц на изображениях. Что он умеет:
При использовании во вкладке txt2img, заменяет лица на всех генерациях на лицо с фото, которое вы выберете.
При использовании во вкладке img2img позволяет менять лица на изображении, как сгенерированном в SD, так и загруженном (например - фото).
Также есть поддержка улучшения лица через Codeformer / gfpgan и возможность использования апскейлеров.
Для установки расширения понадобится установленная Visual Studio (для компиляции Insightface)
Инструкцию по установке без Visual Studio и скомпилированные файлы можно найти тут
Официальный Github
Разумеется, в оригинальной версии стоит проверка на NSFW контент. Если для вас это критично, то я подготовил для вас версию расширения с вырезанной цензурой:
sd-webui-roop без цензуры
Больше различных нейросетей, а также их портативные версии, можно найти в моем телеграм канале Neurogen
Whisper - это мультиязычная нейросеть, позволяющая распознавать речь в видео или аудиофайле и расшифровывать их в текст, а также в режиме реального времени переводить речь в текст за счет аудиозахвата.
Кому будет полезна:
- Людям, кому нужны субтитры для видеоконтента (Ютуберы, телевиденье)
- Наборщикам текста
- Работающим со стенограммами
и многим другим.
Мы с вами будем разбирать версию на C++, которую очень легко использовать и которая не требует установки кучи зависимостей.
Интерфейс выглядит довольно просто.
Нам надо выбрать язык нашего источника. Если хотите сразу же перевести текст на английский - выберите Translate.
В Transcribe File вы выбираете файл, из которого будем извлекать текст.
Output format: формат, в котором сохраним текст. Есть как обычный текстовый файл, так и различные стандарты субтитров.
Ну и в поле ниже выбираете, куда сохранится текст.
После всех настроек нажимаем Transcribe и обработка начнется. За процессом можно следить, нажав Debug Console, выглядит это как-то так:
Нажав Audio Capture мы переходим в режим захвата звука с микрофона.
Установка:
1) Качаем архив WhisperDesktop.zip с Github и распаковываем.
2) С Huggingface качаем модель. Чем больше модель весит, тем более точно будет работать расшифровка, но и больше использоваться видеопамяти. Рекомендую попробовать модели ggml-medium.bin и ggml-large.bin
3) Закидываем нашу модель в папку, с WhisperDesktop.exe и запускаем его.
Вот в принципе и всё. Больше различных статей по полезным и интересным нейросетям, а также мои сборки можно найти у меня в телеграм канале.
Новая нейросеть Audiocraft позволяет создавать любую музыку, дав лишь небольшое текстовое описание. Audiocraft использует генеративную модель WaveNet для синтеза звуковых волн на основе текстового или аудио описания. Вы можете просто отправить описание или музыкальный мотив, и нейросеть создаст для вас мелодию в любом стиле.
Нейронка достаточно требовательная к ресурсам видеокарты, разработчики рекомендуют минимум 16 гигабайт видеопамяти для нормальной работы. Но, для владельцев видеокарт послабее есть облегченная small модель, использующая примерно от3 до 5.6 гигабайт видеопамяти.
Протестировать онлайн можно здесь и на Google Collab
Если же вы хотите запустить локально, то скачать audiocraft можно на официальной Github странице проекта, там же и есть инструкция по установке.
Либо же, можете воспользоваться моей portable версией, не требующей установки. Кроме этого, русифицирован интерфейс.
Скачать её можно либо тут, либо с Яндекс Диска.
Больше различных релизов, связанных с нейросетями и их обновления можно найти у меня в Телеграм канале.
RVC-GUI позволяет очень легко изменить голос на голос из заранее обученной модели, например музыканта, актера, известного деятеля или и вовсе вашего приятеля (при наличии соответствующей модели). Но данный скрипт не имеет в себе функции обучения моделей, да и, к тому же, этот процесс может показаться сложноватым для обычного человека, не знакомого с нейросетями.
Процесс замены голоса происходит так:
1) Выбираем аудиофайл с голосом, который будем менять. Важно чтобы в дорожке не было музыки и посторонних звуков. Удалить звук можно различными онлайн-сервисами, лично я пользовался vocalremover
2) Импортируем предварительно обученную модель в формате zip файла.
Модели англоязычных музыкантов можно найти тут: Huggingface
Выбираете модель с припиской (RVC) или (RVC-2), качаете zip файл и затем импортируете в нашу программу.
Или же в Дискорд сервере AiHub в канале Voice-Models
2) Выбираем модель в списке моделей
3) Выбираем метод преобразования голоса. Все они отличаются по качеству и скорости, рекомендую использовать harvest
4) Выбираем Тон (опционально)
5) Выбираем Выбор ускорения. Если у вас видеокарта от Nvidia - выбирайте GPU. Если же нет - то CPU.
6) Жмем конвертировать. Обработанный файл будет находиться в той же папке, где и оригинал.
Официальную версию можно скачать можно на Github
Я же подготовил portable версию, не требующую установку python, ffmpeg и прохождения процесса установки библиотек. Кроме этого она полностью переведена на русский язык.
Запуск: вам нужно лишь распаковать архив и запустить START.bat
Cкачать можно на Яндекс Диске.
Будущие обновления будут выходить у меня в Телеграм канале, там же можно найти и другие сборки нейросетей, а также просто задать вопросы по интересующим проблемам.
Данное расширение для automatic1111 вдохновлено приложением roop и использует такой же метод для замены лица, но но акцент сделан не на работу с видео, а с изображением.
Установить расширение можно через функционал Automatic1111 или просто скопировать файлы из github в папку extension внутри вашего automatic
После установки расширения необходимо закинуть файл inswapper_128.onnx в ее каталог.
Взять его можно тут.
Скачать же расширение можно здесь:
Github
Больше новостей о нейронных сетях, а также ссылки на интересные релизы можно найти в моём Telegram канале.
refacer - еще один очень простой дипфейк, поддерживающий замену до 8 (!) лиц в одном видео.
Работает через webui, поэтому если кто-то работал с automatic1111, то интерфейс покажется ему знакомым.
Принцип работы немного отличается от roop: Вам надо выбрать видео, затем выбрать лицо, которое будете менять (по нему будет работать распознавание) и лицо, на которое будет идти замена.
Затем нажимаете кнопку и начнется замена лиц. Итоговое видео будет лежать в папке out
Вот тест на 3 лица:
В программе работает GPU ускорение для карт Nvidia, AMD пока что нет (но я пытаюсь сделать).
Официальный релиз можно скачать на Github проекта
Я, в свою очередь, подготовил собственный "репак" для запуска в один клик (для запуска программы надо просто запустить 1-click-run.bat, скачать можно:
Основные отличия:
- Автоматическая установка всех необходимых пакетов, собранная библиотека insightface (у многих ее сборка вызывает проблемы)
- Создание venv, для избежания конфликтов
- Русификация интерфейса, автозапуск UI
- Небольшая инструкция для подготовки ОС к работе с программой.
Будущие обновления буду выкладывать в своем телеграм канале. На днях доделаю возможность выбирать количество GPU потоков, и сделаю отдельную версию с поддержкой TensorRT.
По многочисленным просьбам попробовал сделать сборку и под видеокарты AMD.
Вместо Cuda используется DirectML, поэтому должно работать на всех видеокартах с поддержкой DirectX 12.
Сборка в стадии беты, но уже работает, по отзывам - на RX 560 4Gb дает хорошее ускорение по сравнению с Ryzen 2600.
На встроенных видеокартах Intel якобы тоже быстрее чем процессор
Основные проблемы: не работает многопоточность, значение gpu-threads не должно превышать 1.
Скачать бету можно на Яндекс Диске
Все новости касаемо обновлений и новых релизов будет в моем телеграм канале
Просьба, по итогам тестов написать небольшой фидбек:
1) Ваша модель видеокарты
2) Получилось ли ускорить, если да, то насколько?
Если не завелось, то скинуть скрин ошибки.
Здесь идет речь об Дипфейке в один клик, который успел нашуметь.
Для упрощения процесса установки сделал сборку с запуском из bat файла.
Основная особенность этой сборки: вырезана цензура, более свежий код и возможно выставления GPU потоков, что ускорит обработку видео в 2-4 раза, за счет более активного использования видеопамяти.
Скачать можно тут:
Яндекс Диск
Данная сборка не совместима с оригинальной, поэтому скопируйте файлы в пустую папку. Если вы попытаетесь перезаписать поверх оригинальной версии - есть большой шанс появления конфликтов.
Обязательно ознакомьтесь с файлом "Прочтите перед запуском" - там есть небольшая инструкция по подготовке системы, если вы запускаете что-то подобное в первый раз.
Что касается обновлений, то вся информация по ним будет в моем телеграм канале Neurogen News