Nový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový model Fugatto od společnosti Nvidia posouvá hranice generování zvuku. Nabízí kreativní možnosti, které kombinují různé zvuky a hlasy. Na rozdíl od tradičních modelů představuje Fugatto systém, který transformuje zvuk pomocí nových syntetických tréninkových metod.

Model Fugatto společnosti Nvidia představuje významný pokrok ve světě generování zvuku. Tato inovativní technologie je navržena tak, aby syntetizovala rozmanité zvukové zážitky a vytvářela zvuky, které dosud neexistovaly. Díky využití syntetických tréninkových metod a jedinečného přístupu na úrovni inference dokáže Fugatto míchat různé typy hudby, hlasů a zvuků. Slibuje širokou škálu akustických možností, což z něj činí všestranný nástroj pro hudebníky a zvukové umělce.

🎵 ✨The world’s most flexible sound machine?

With text and audio inputs, this new #generativeAI model, named Fugatto, can create any combination of music, voices, and sounds.🎹

Read more in our blog by @RichardKerris ➡️ https://t.co/AvTAbjn1iJ #NVIDIAResearch

Note: Some… pic.twitter.com/0IlYboF9JZ
— NVIDIA AI Developer (@NVIDIAAIDev) November 25, 2024

Štěkot saxofonu a jiné experimenty

Jednou z klíčových vlastností nástroje Fugatto je jeho schopnost vytvářet vysoce přizpůsobitelné zvukové výstupy, které uživatelům umožňují manipulovat se složitými rysy uvnitř zvuku. Dokáže například generovat kombinace jako „štěkot saxofonu“ nebo „zpěv sirén sanitky“. Ačkoli se tyto příklady mohou lišit v účinnosti, technologie ukazuje potenciál pro kreativní experimentování. Výzkumníci popsali Fugatto jako „švýcarský armádní nůž pro zvuk“. To naznačuje jeho schopnost transformovat zvuk mnoha způsoby.

Vytvoření robustní sady tréninkových dat bylo pro tým společnosti Nvidia zásadním úkolem. Výzkumníci začali tím, že použili rozsáhlý jazykový model (LLM) k vytvoření skriptů v jazyce Python, které by usnadnily vytvoření rozsáhlé sbírky zvukových vlastností. K usnadnění procesu generování využili jak absolutní, tak relativní instrukce. K vytvoření komplexního anotačního systému použili existující soubory zvukových dat s otevřeným zdrojovým kódem.

Výsledkem tohoto úsilí byla datová sada sestávající z 20 milionů zvukových vzorků, což představuje nejméně 50 000 hodin zvuku. S využitím tensorových jader společnosti Nvidia vytvořili model s 2,5 miliardami parametrů.

Vytvoří nové neexistující zvuky

Další význačnou vlastností Fugatto je systém „ComposableART“, který umožňuje bezprecedentní míchání zvukových vlastností. Zadáním pokynů v podobě textu nebo zvuku mohou uživatelé vést systém k vytvoření zcela nových zvuků. Tento proces považuje zvukové charakteristiky za laditelné kontinuum, což umožňuje širokou škálu výstupů. Uživatelé mohou například nastavit, jak výrazný má být v mixu zvuk kytary nebo tekoucí vody, což vede k osobitým výsledkům. Kromě toho může Fugatto provádět úlohy známé z předchozích zvukových modelů, jako je změna emocí v řeči nebo izolace vokálních stop od hudby.

Fugatto nejenže rozšiřuje tvůrčí možnosti profesionálů v oblasti zvuku, ale také značí způsob, jakým technologie nadále utváří svět hudby. Jak zdůrazňuje společnost Nvidia, je nezbytné vnímat modely jako Fugatto spíše jako nástroje pro kreativitu než jako náhradu lidského umění. Producent a skladatel Ido Zmishlany k tomuto posunu poznamenal: „Dějiny hudby jsou také dějinami technologií.“ Díky těmto inovacím jsou umělci vyzváni, aby zkoumali a nově definovali své řemeslo, a otevírají tak nové kapitoly v příběhu hudebního vyjadřování.

Nový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Štěkot saxofonu a jiné experimenty

Vytvoří nové neexistující zvuky

Doporučujeme

Meta nasazuje rozpoznávání obličejů a žaluje podvodníky s deepfaky

Bumble přidává AI nástroje pro úpravu profilů a výběr fotek

Sleva 15 tisíc. Samsung Galaxy S21 koupíte díky nové službě za bezkonkurenční cenu

YouTube Premium Lite přidává přehrávání na pozadí a offline stahování

iOS 26.4 beta 2 rozšiřuje testování šifrovaných RCS zpráv

Temu: Bezpečné nakupování pro důvtipné zákazníky

Google Labs spouští ProducerAI pro tvorbu hudby pomocí AI

iPhone 18 Pro má dostat tmavě červenou, skládací model zůstane u klasiky

Elektronická čtečka knih: Podle čeho vybrat tu nejlepší?

Google přidává AI Mode do adresního řádku Chromu

DLP: Data Loss Prevention – co to je a jak to implementovat ve své firmě?

V Česku se začaly prodávat elektrokoloběžky Kaabo. Nabízí rychlost až 100 km/h

Digitální pohoda v Androidu přešlapuje, Focus Mode ale pomáhá

Kdy je čas přejít na elektronickou knihu jízd? 5 indikátorů, které vás přesvědčí

Telefon byste měli vyměnit zhruba po sedmi letech

O nás

Polulární články

Lenovo představilo první Chromebook s čipem Kompanio Ultra

Autopilot Tesly naboural do falešné zdi

Splňte si se Spotify sen. Vytvořte vlastní superskupinu

Google představuje kompaktní AI model Gemma 3 270M

Tim Cook: K náboru nových zaměstnanců přistupujeme uvážlivě

Nejnovější články

Meta nasazuje rozpoznávání obličejů a žaluje podvodníky s deepfaky

Bumble přidává AI nástroje pro úpravu profilů a výběr fotek

Sleva 15 tisíc. Samsung Galaxy S21 koupíte díky nové službě za bezkonkurenční cenu

YouTube Premium Lite přidává přehrávání na pozadí a offline stahování

iOS 26.4 beta 2 rozšiřuje testování šifrovaných RCS zpráv

Provozovatel webu