AINový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový model Fugatto od společnosti Nvidia posouvá hranice generování zvuku. Nabízí kreativní možnosti, které kombinují různé zvuky a hlasy. Na rozdíl od tradičních modelů představuje Fugatto systém, který transformuje zvuk pomocí nových syntetických tréninkových metod.

Model Fugatto společnosti Nvidia představuje významný pokrok ve světě generování zvuku. Tato inovativní technologie je navržena tak, aby syntetizovala rozmanité zvukové zážitky a vytvářela zvuky, které dosud neexistovaly. Díky využití syntetických tréninkových metod a jedinečného přístupu na úrovni inference dokáže Fugatto míchat různé typy hudby, hlasů a zvuků. Slibuje širokou škálu akustických možností, což z něj činí všestranný nástroj pro hudebníky a zvukové umělce.

Štěkot saxofonu a jiné experimenty

Jednou z klíčových vlastností nástroje Fugatto je jeho schopnost vytvářet vysoce přizpůsobitelné zvukové výstupy, které uživatelům umožňují manipulovat se složitými rysy uvnitř zvuku. Dokáže například generovat kombinace jako „štěkot saxofonu“ nebo „zpěv sirén sanitky“. Ačkoli se tyto příklady mohou lišit v účinnosti, technologie ukazuje potenciál pro kreativní experimentování. Výzkumníci popsali Fugatto jako „švýcarský armádní nůž pro zvuk“. To naznačuje jeho schopnost transformovat zvuk mnoha způsoby.

Vytvoření robustní sady tréninkových dat bylo pro tým společnosti Nvidia zásadním úkolem. Výzkumníci začali tím, že použili rozsáhlý jazykový model (LLM) k vytvoření skriptů v jazyce Python, které by usnadnily vytvoření rozsáhlé sbírky zvukových vlastností. K usnadnění procesu generování využili jak absolutní, tak relativní instrukce. K vytvoření komplexního anotačního systému použili existující soubory zvukových dat s otevřeným zdrojovým kódem.

Výsledkem tohoto úsilí byla datová sada sestávající z 20 milionů zvukových vzorků, což představuje nejméně 50 000 hodin zvuku. S využitím tensorových jader společnosti Nvidia vytvořili model s 2,5 miliardami parametrů.

Vytvoří nové neexistující zvuky

Další význačnou vlastností Fugatto je systém „ComposableART“, který umožňuje bezprecedentní míchání zvukových vlastností. Zadáním pokynů v podobě textu nebo zvuku mohou uživatelé vést systém k vytvoření zcela nových zvuků. Tento proces považuje zvukové charakteristiky za laditelné kontinuum, což umožňuje širokou škálu výstupů. Uživatelé mohou například nastavit, jak výrazný má být v mixu zvuk kytary nebo tekoucí vody, což vede k osobitým výsledkům. Kromě toho může Fugatto provádět úlohy známé z předchozích zvukových modelů, jako je změna emocí v řeči nebo izolace vokálních stop od hudby.

Fugatto nejenže rozšiřuje tvůrčí možnosti profesionálů v oblasti zvuku, ale také značí způsob, jakým technologie nadále utváří svět hudby. Jak zdůrazňuje společnost Nvidia, je nezbytné vnímat modely jako Fugatto spíše jako nástroje pro kreativitu než jako náhradu lidského umění. Producent a skladatel Ido Zmishlany k tomuto posunu poznamenal: „Dějiny hudby jsou také dějinami technologií.“ Díky těmto inovacím jsou umělci vyzváni, aby zkoumali a nově definovali své řemeslo, a otevírají tak nové kapitoly v příběhu hudebního vyjadřování.

Reklama

Doporučujeme

Picsart otevírá monetizaci pro všechny tvůrce

Picsart spouští nový program Earn with Picsart, který má změnit způsob, jakým si tvůrci vydělávají. Platforma ho otevřela všem svým více než 130 milionům uživatelů bez pozvánek a bez požadavku na počet sledujících. Tvůrci tak mohou začít vydělávat bez ohledu na velikost publika.

Galaxy Z Fold 8 zůstane známý, hlavní změna se odehraje v displeji

Samsung chystá Galaxy Z Fold 8 a první informace naznačují překvapivě konzervativní přístup. Novinka má na první pohled vypadat téměř stejně jako loňský Fold 7. Důvod ale neleží v nedostatku inovací. Klíčová změna se má skrývat uvnitř konstrukce, konkrétně v samotném displeji.

Gemini pro Google Home přináší ovládání světel podle nálady

Google posouvá svůj chytrý domov o krok dál. Gemini pro Home dostává novou várku funkcí, které mají ovládání zjednodušit a zpřesnit. Nejvíc pozornosti budí takzvané expresivní ovládání světel. Stačí popsat náladu a systém nastaví barvy sám.

Samsung nabízí aplikaci proti nevolnosti z pohybu pomocí zvuku

Samsung přichází s neobvyklým řešením kinetózy. Nová aplikace Hearapy slibuje úlevu pomocí jednoduchého zvuku. Stačí si na minutu pustit tón o frekvenci 100 Hz do sluchátek. Podle firmy to může zmírnit nevolnost až na dvě hodiny.

Bluesky představuje Attie, AI nástroj pro tvorbu vlastních feedů

Bluesky rozšiřuje své ambice mimo sociální síť. Nově ukázalo aplikaci Attie, která využívá umělou inteligenci k tvorbě vlastních obsahových feedů. Nejde o další funkci uvnitř aplikace, ale o samostatný produkt postavený na stejném základu.

Android 17 Beta 3 vrací rychlé zapnutí WiFi jedním klepnutím

Google v Androidu 17 Beta 3 vrací funkci, kterou uživatelé dlouho postrádali. WiFi lze znovu zapnout nebo vypnout jediným klepnutím v rychlém nastavení. Jde o návrat ke staršímu a jednoduššímu chování, které zmizelo s příchodem Androidu 12.

Apple tvrdí, že iPhone v režimu Lockdown Mode nikdo neprolomil

Apple po téměř čtyřech letech od spuštění bezpečnostního režimu Lockdown Mode hlásí výrazný výsledek. Podle firmy neexistuje jediný potvrzený případ, kdy by byl iPhone s tímto režimem úspěšně napaden špionážním softwarem. Jde o nejtvrdší ochranu, jakou Apple běžným uživatelům nabízí.

Google rozšiřuje živé překlady do sluchátek na iOS a do dalších zemí

Google posouvá překlady o krok dál. Funkce Live Translate nově dorazila na iOS a výrazně rozšiřuje dostupnost po světě. Uživatelé tak mohou poslouchat překlady v reálném čase přímo ve sluchátkách. Stačí aplikace Google Translate a připojená sluchátka.

Reddit posílí boj s boty pomocí ověřování uživatelů

Reddit zpřísňuje boj proti botům. Nově chce lépe rozlišit mezi skutečnými uživateli a automatizovanými účty. Některé profily proto mohou narazit na výzvu, aby potvrdily, že za nimi stojí člověk. Podle šéfa firmy Steve Huffmana ale půjde o výjimečné případy.

AccuWeather přichází přímo do ChatGPT

AccuWeather spustil novou aplikaci pro ChatGPT. Uživatelé tak získají přístup k aktuálnímu počasí bez nutnosti opustit chat. Funkce přináší živá data, předpovědi i radar přímo do konverzace.

iPhone Fold má dorazit v roce 2026

Apple se chystá vstoupit do světa skládacích telefonů. iPhone Fold má nabídnout špičkový displej, nový design i vysoký výkon. První informace naznačují velké ambice a výraznou změnu celé produktové řady.

Apple zvažoval koupi Halide a chystá vylepšení fotoaparátu iPhonu 18 Pro

Apple se snaží posunout mobilní fotografii blíž profesionální úrovni. Pomoci mu k tomu měla i možná akvizice Lux Optics, studia stojícího za populární aplikací Halide. K obchodu nakonec nedošlo, ale plán zlepšit nativní fotoaplikaci zůstává.
Reklama
Reklama
Reklama
Reklama