AINový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový model Fugatto od společnosti Nvidia posouvá hranice generování zvuku. Nabízí kreativní možnosti, které kombinují různé zvuky a hlasy. Na rozdíl od tradičních modelů představuje Fugatto systém, který transformuje zvuk pomocí nových syntetických tréninkových metod.

Model Fugatto společnosti Nvidia představuje významný pokrok ve světě generování zvuku. Tato inovativní technologie je navržena tak, aby syntetizovala rozmanité zvukové zážitky a vytvářela zvuky, které dosud neexistovaly. Díky využití syntetických tréninkových metod a jedinečného přístupu na úrovni inference dokáže Fugatto míchat různé typy hudby, hlasů a zvuků. Slibuje širokou škálu akustických možností, což z něj činí všestranný nástroj pro hudebníky a zvukové umělce.

Štěkot saxofonu a jiné experimenty

Jednou z klíčových vlastností nástroje Fugatto je jeho schopnost vytvářet vysoce přizpůsobitelné zvukové výstupy, které uživatelům umožňují manipulovat se složitými rysy uvnitř zvuku. Dokáže například generovat kombinace jako „štěkot saxofonu“ nebo „zpěv sirén sanitky“. Ačkoli se tyto příklady mohou lišit v účinnosti, technologie ukazuje potenciál pro kreativní experimentování. Výzkumníci popsali Fugatto jako „švýcarský armádní nůž pro zvuk“. To naznačuje jeho schopnost transformovat zvuk mnoha způsoby.

Vytvoření robustní sady tréninkových dat bylo pro tým společnosti Nvidia zásadním úkolem. Výzkumníci začali tím, že použili rozsáhlý jazykový model (LLM) k vytvoření skriptů v jazyce Python, které by usnadnily vytvoření rozsáhlé sbírky zvukových vlastností. K usnadnění procesu generování využili jak absolutní, tak relativní instrukce. K vytvoření komplexního anotačního systému použili existující soubory zvukových dat s otevřeným zdrojovým kódem.

Výsledkem tohoto úsilí byla datová sada sestávající z 20 milionů zvukových vzorků, což představuje nejméně 50 000 hodin zvuku. S využitím tensorových jader společnosti Nvidia vytvořili model s 2,5 miliardami parametrů.

Vytvoří nové neexistující zvuky

Další význačnou vlastností Fugatto je systém „ComposableART“, který umožňuje bezprecedentní míchání zvukových vlastností. Zadáním pokynů v podobě textu nebo zvuku mohou uživatelé vést systém k vytvoření zcela nových zvuků. Tento proces považuje zvukové charakteristiky za laditelné kontinuum, což umožňuje širokou škálu výstupů. Uživatelé mohou například nastavit, jak výrazný má být v mixu zvuk kytary nebo tekoucí vody, což vede k osobitým výsledkům. Kromě toho může Fugatto provádět úlohy známé z předchozích zvukových modelů, jako je změna emocí v řeči nebo izolace vokálních stop od hudby.

Fugatto nejenže rozšiřuje tvůrčí možnosti profesionálů v oblasti zvuku, ale také značí způsob, jakým technologie nadále utváří svět hudby. Jak zdůrazňuje společnost Nvidia, je nezbytné vnímat modely jako Fugatto spíše jako nástroje pro kreativitu než jako náhradu lidského umění. Producent a skladatel Ido Zmishlany k tomuto posunu poznamenal: „Dějiny hudby jsou také dějinami technologií.“ Díky těmto inovacím jsou umělci vyzváni, aby zkoumali a nově definovali své řemeslo, a otevírají tak nové kapitoly v příběhu hudebního vyjadřování.

Reklama

Doporučujeme

Gmail přináší end-to-end šifrování na Android a iPhone

Google spustil end-to-end šifrování pro Gmail na mobilních zařízeních. Uživatelé Androidu a iPhonu mohou nově číst a psát šifrované e-maily přímo v aplikaci. Není potřeba instalovat další nástroje ani řešit složité nastavení. Funkce ale zatím nedorazí ke všem.

Amazon ukončí podporu starších Kindle zařízení

Amazon oznámil, že ukončí podporu starších čteček Kindle a tabletů Fire. Týká se modelů vydaných v roce 2012 a dříve. Změna začne platit 20. května 2026. Uživatelé si už na těchto zařízeních nestáhnou ani nekoupí nové e-knihy.

Firefox chystá velký redesign Nova

Firefox se po letech chystá na zásadní změnu. Projekt s interním názvem Nova má přinést největší úpravu rozhraní za zhruba šest let. Úniky designů ukazují úplně jiný prohlížeč, než na jaký jsou uživatelé zvyklí od éry Proton z roku 2021. Novinka má dorazit v horizontu několika měsíců spolu s dalšími funkcemi.

Picsart otevírá monetizaci pro všechny tvůrce

Picsart spouští nový program Earn with Picsart, který má změnit způsob, jakým si tvůrci vydělávají. Platforma ho otevřela všem svým více než 130 milionům uživatelů bez pozvánek a bez požadavku na počet sledujících. Tvůrci tak mohou začít vydělávat bez ohledu na velikost publika.

Galaxy Z Fold 8 zůstane známý, hlavní změna se odehraje v displeji

Samsung chystá Galaxy Z Fold 8 a první informace naznačují překvapivě konzervativní přístup. Novinka má na první pohled vypadat téměř stejně jako loňský Fold 7. Důvod ale neleží v nedostatku inovací. Klíčová změna se má skrývat uvnitř konstrukce, konkrétně v samotném displeji.

Gemini pro Google Home přináší ovládání světel podle nálady

Google posouvá svůj chytrý domov o krok dál. Gemini pro Home dostává novou várku funkcí, které mají ovládání zjednodušit a zpřesnit. Nejvíc pozornosti budí takzvané expresivní ovládání světel. Stačí popsat náladu a systém nastaví barvy sám.

Samsung nabízí aplikaci proti nevolnosti z pohybu pomocí zvuku

Samsung přichází s neobvyklým řešením kinetózy. Nová aplikace Hearapy slibuje úlevu pomocí jednoduchého zvuku. Stačí si na minutu pustit tón o frekvenci 100 Hz do sluchátek. Podle firmy to může zmírnit nevolnost až na dvě hodiny.

Bluesky představuje Attie, AI nástroj pro tvorbu vlastních feedů

Bluesky rozšiřuje své ambice mimo sociální síť. Nově ukázalo aplikaci Attie, která využívá umělou inteligenci k tvorbě vlastních obsahových feedů. Nejde o další funkci uvnitř aplikace, ale o samostatný produkt postavený na stejném základu.

Android 17 Beta 3 vrací rychlé zapnutí WiFi jedním klepnutím

Google v Androidu 17 Beta 3 vrací funkci, kterou uživatelé dlouho postrádali. WiFi lze znovu zapnout nebo vypnout jediným klepnutím v rychlém nastavení. Jde o návrat ke staršímu a jednoduššímu chování, které zmizelo s příchodem Androidu 12.

Apple tvrdí, že iPhone v režimu Lockdown Mode nikdo neprolomil

Apple po téměř čtyřech letech od spuštění bezpečnostního režimu Lockdown Mode hlásí výrazný výsledek. Podle firmy neexistuje jediný potvrzený případ, kdy by byl iPhone s tímto režimem úspěšně napaden špionážním softwarem. Jde o nejtvrdší ochranu, jakou Apple běžným uživatelům nabízí.

Google rozšiřuje živé překlady do sluchátek na iOS a do dalších zemí

Google posouvá překlady o krok dál. Funkce Live Translate nově dorazila na iOS a výrazně rozšiřuje dostupnost po světě. Uživatelé tak mohou poslouchat překlady v reálném čase přímo ve sluchátkách. Stačí aplikace Google Translate a připojená sluchátka.
Reklama
Reklama
Reklama
Reklama