Chociaż poczyniono duże postępy w tworzeniu wideo AI, wciąż istnieje znaczna ilość materiałów źródłowych, takich jak zdjęcia głowy z różnych kątów lub materiał wideo, potrzebnych do stworzenia przekonującej fałszywej wersji swojego obrazu. Jeśli chodzi o udawanie własnego głosu, to inna historia, np badacze Microsoftu Niedawno ujawniono nowe narzędzie AI Potrafi symulować czyjś głos przy użyciu próbki o długości zaledwie trzech sekund oni rozmawiają.
Nowe narzędzie, „Neural Markup Language Paradigm” o nazwie VALL-E, Opiera się na technologii kompresji dźwięku EnCodec firmy Meta, zaprezentowany pod koniec zeszłego roku, który wykorzystuje sztuczną inteligencję do kompresji dźwięku lepszej niż jakość CD z szybkością transmisji danych 10 razy mniejszą niż nawet pliki MP3, bez zauważalnej utraty jakości. Meta wyobrażała sobie EnCodec jako sposób na poprawę jakości połączeń telefonicznych w obszarach o nierównym zasięgu komórkowym lub jako sposób na zmniejszenie wymagań dotyczących przepustowości dla usług strumieniowego przesyłania muzyki, ale Microsoft wykorzystuje tę technologię jako sposób na realistyczne przetwarzanie dźwięku w oparciu o mowę na bardzo ograniczonej próbie źródłowej.
Dzisiejsze systemy zamiany tekstu na mowę mogą generować głosy, które brzmią bardzo realistycznie, dlatego głosy inteligentnych asystentów brzmią tak autentycznie, mimo że ich reakcje werbalne są generowane szybko. Wymaga to jednak czystych, wysokiej jakości danych treningowych, które są zwykle rejestrowane w studiu nagraniowym wyposażonym w profesjonalny sprzęt. Podejście Microsoftu sprawia, że VALL-E jest w stanie symulować głos prawie każdego bez spędzania tygodni w studiu. Zamiast tego narzędzie jest szkolone Zbiór danych Meta Libri-lightktóry zawiera 60 000 godzin nagranych angielskich wypowiedzi ponad 7 000 wyjątkowych mówców”, wyodrębnionych i przetworzonych z audiobooków LibriVox’, wszystko w domenie publicznej.
Microsoft udostępnił plik Szeroka gama próbek generowanych przez VALL-E Możesz więc przekonać się, jak wspaniałe są jego możliwości symulacji głosu, choć obecnie wyniki są mieszane. Narzędzie czasami ma problemy z odtworzeniem akcentów, w tym nawet subtelnych akcentów z oryginalnych sampli, w których mówca brzmi po irlandzku, a jego zdolność do zmiany emocji w danym zdaniu jest czasami śmieszna. Ale najczęściej próbki generowane przez VALL-E brzmią naturalnie, ciepło i są prawie niemożliwe do odróżnienia od oryginalnych głośników w trzysekundowych klipach źródłowych.
W obecnej formie przeszkolony w Wolna lite, VALL-E ogranicza się do symulacji mowy angielskiej i chociaż jego wydajność wciąż nie jest doskonała, z pewnością poprawi się wraz z rozszerzeniem zestawu danych modelu. Jednak udoskonalenie VALL-E będzie należało do badaczy Microsoftu, ponieważ zespół nie publikuje kodu źródłowego narzędzia. w Niedawno opublikowany artykuł naukowy Omawiając szczegółowo rozwój VALL-E, jego twórcy w pełni rozumieją zagrożenia, jakie stwarza:
Ponieważ VALL-E może syntetyzować mowę, która zachowuje tożsamość mówiącego, może wiązać się z potencjalnym ryzykiem nadużyć modelu, takich jak fałszowanie rozpoznawania głosu lub podszywanie się pod konkretnego mówcę. Aby złagodzić te zagrożenia, możliwe jest zbudowanie modelu wykrywania w celu rozróżnienia, czy klip dźwiękowy został zsyntetyzowany przez VALL-E. Zgłosimy się również Zasady sztucznej inteligencji firmy Microsoft Kiedy nadal rozwijamy modele.
„Skłonny do napadów apatii. Introwertyk. Wielokrotnie nagradzany ewangelista internetowy. Ekspert od ekstremalnego piwa”.
More Stories
Wodoodporny telefon komórkowy Motorola MEDIA RANGE GAMER ma mocny procesor i niewyczerpaną baterię
Apple udostępnia nowe wersje beta systemów iOS 18 i iOS 18.1 z oczekiwanymi nowymi funkcjami
Pokémon GO oferuje swoim graczom niektóre ze swoich najpotężniejszych Pokémonów