-3.5 C
Czech
Pátek 30. ledna 2026
AINový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový AI model Fugatto společnosti NVIDIA dokáže syntetizovat zvuky, které nikdy neexistovaly

Nový model Fugatto od společnosti Nvidia posouvá hranice generování zvuku. Nabízí kreativní možnosti, které kombinují různé zvuky a hlasy. Na rozdíl od tradičních modelů představuje Fugatto systém, který transformuje zvuk pomocí nových syntetických tréninkových metod.

Model Fugatto společnosti Nvidia představuje významný pokrok ve světě generování zvuku. Tato inovativní technologie je navržena tak, aby syntetizovala rozmanité zvukové zážitky a vytvářela zvuky, které dosud neexistovaly. Díky využití syntetických tréninkových metod a jedinečného přístupu na úrovni inference dokáže Fugatto míchat různé typy hudby, hlasů a zvuků. Slibuje širokou škálu akustických možností, což z něj činí všestranný nástroj pro hudebníky a zvukové umělce.

Štěkot saxofonu a jiné experimenty

Jednou z klíčových vlastností nástroje Fugatto je jeho schopnost vytvářet vysoce přizpůsobitelné zvukové výstupy, které uživatelům umožňují manipulovat se složitými rysy uvnitř zvuku. Dokáže například generovat kombinace jako „štěkot saxofonu“ nebo „zpěv sirén sanitky“. Ačkoli se tyto příklady mohou lišit v účinnosti, technologie ukazuje potenciál pro kreativní experimentování. Výzkumníci popsali Fugatto jako „švýcarský armádní nůž pro zvuk“. To naznačuje jeho schopnost transformovat zvuk mnoha způsoby.

Vytvoření robustní sady tréninkových dat bylo pro tým společnosti Nvidia zásadním úkolem. Výzkumníci začali tím, že použili rozsáhlý jazykový model (LLM) k vytvoření skriptů v jazyce Python, které by usnadnily vytvoření rozsáhlé sbírky zvukových vlastností. K usnadnění procesu generování využili jak absolutní, tak relativní instrukce. K vytvoření komplexního anotačního systému použili existující soubory zvukových dat s otevřeným zdrojovým kódem.

Výsledkem tohoto úsilí byla datová sada sestávající z 20 milionů zvukových vzorků, což představuje nejméně 50 000 hodin zvuku. S využitím tensorových jader společnosti Nvidia vytvořili model s 2,5 miliardami parametrů.

Vytvoří nové neexistující zvuky

Další význačnou vlastností Fugatto je systém „ComposableART“, který umožňuje bezprecedentní míchání zvukových vlastností. Zadáním pokynů v podobě textu nebo zvuku mohou uživatelé vést systém k vytvoření zcela nových zvuků. Tento proces považuje zvukové charakteristiky za laditelné kontinuum, což umožňuje širokou škálu výstupů. Uživatelé mohou například nastavit, jak výrazný má být v mixu zvuk kytary nebo tekoucí vody, což vede k osobitým výsledkům. Kromě toho může Fugatto provádět úlohy známé z předchozích zvukových modelů, jako je změna emocí v řeči nebo izolace vokálních stop od hudby.

Fugatto nejenže rozšiřuje tvůrčí možnosti profesionálů v oblasti zvuku, ale také značí způsob, jakým technologie nadále utváří svět hudby. Jak zdůrazňuje společnost Nvidia, je nezbytné vnímat modely jako Fugatto spíše jako nástroje pro kreativitu než jako náhradu lidského umění. Producent a skladatel Ido Zmishlany k tomuto posunu poznamenal: „Dějiny hudby jsou také dějinami technologií.“ Díky těmto inovacím jsou umělci vyzváni, aby zkoumali a nově definovali své řemeslo, a otevírají tak nové kapitoly v příběhu hudebního vyjadřování.

Reklama

Doporučujeme

Moltbot láká tisíce lidí na osobního AI asistenta ale zároveň otevírá dveře rizikům

Otevřený projekt Moltbot se během pár týdnů proměnil v jeden z nejrychleji rostoucích AI nástrojů. Nabízí asistenta, který píše na WhatsApp nebo Slack a sám plní úkoly. Zájem letí nahoru. Spolu s ním ale i obavy o bezpečnost.

Android 17 přidá do systému ještě víc rozostření

Android 17 naváže na loňský designový posun a znovu zvýrazní práci s rozostřením. Uniklá interní verze systému ukazuje víc průhledných a barevně tónovaných prvků napříč rozhraním. Nejde o revoluci. Google ladí směr Material 3 Expressive a posouvá ho dál v detailech.

Apple v únoru ukáže Siri poháněnou Gemini

Apple se chystá předvést novou generaci Siri, která poběží na modelech Gemini od Googlu. Podle zákulisních informací má prezentace proběhnout už v druhé polovině února. Půjde o první hmatatelný výsledek nedávno oznámené spolupráce obou firem v oblasti umělé inteligence. Apple tím chce naplnit sliby, které zazněly už loni v létě.

YouTube Music nově synchronizuje frontu přehrávání mezi zařízeními

YouTube Music přidává funkci, na kterou uživatelé čekali roky. Služba nově synchronizuje přehrávací frontu napříč zařízeními, kde je uživatel přihlášený. Hudba tak plynule naváže při přechodu z mobilu na tablet nebo web. Funkce připomíná Spotify Connect a míří na každodenní pohodlí při poslechu.

WhatsApp umožní sdílení historie chatu s novými členy skupin

WhatsApp rozšiřuje funkci, na kterou uživatelé čekali roky. Noví členové skupinových chatů mohou po přidání dostat přístup k části starší konverzace. Díky tomu se rychle zorientují v dění a nebudou odkázáni na dodatečné vysvětlování. Funkce se zatím objevuje u vybraných beta testerů na iOS, ale směřuje k širšímu nasazení.

Apple chystá AI pin a telefon, který zvládne tři systémy

Apple po letech opatrnosti konečně zrychluje v oblasti umělé inteligence. Po odkladu vylepšené Siri na rok 2026 se rýsuje výrazná změna směru. Podle zákulisních informací má Apple pracovat na nové podobě Siri, která se má proměnit v plnohodnotný chatbot. Už nepůjde jen o hlasového asistenta, ale o konverzační rozhraní podobné ChatGPT.

Adobe Acrobat přidává tvorbu prezentací a podcastů z dokumentů

Adobe dál rozšiřuje umělou inteligenci v Acrobatu a souvisejících službách. Po loňském uvedení Acrobat Studio teď firma posouvá práci s PDF o krok dál. Nové funkce staví na PDF Spaces, tedy sdílených prostorech pro dokumenty, poznámky a spolupráci. Cíl je jasný. Ušetřit čas a zjednodušit práci s obsahem, který už uživatelé mají.

iPhone 18 má dostat výrazně jasnější displej

Apple chystá u iPhonu 18 jeden z největších posunů v oblasti displejů za poslední roky. Podle informací z dodavatelského řetězce má být obrazovka výrazně jasnější než u všech předchozích generací. Změna má být natolik zásadní, že ji nezvládne splnit jeden ze současných dodavatelů panelů. Konkrétně čínská společnost BOE.

Apple Intelligence Siri má zpoždění, které Applu nakonec může pomoct

Apple slíbil velkou proměnu Siri a nástup Apple Intelligence už v roce 2024. Realita ale za očekáváním zaostala. Nová generace hlasového asistenta dorazí výrazně později a firma to ani příliš neskrývá. Vývoj vlastních AI modelů se ukázal jako náročnější, než Apple čekal. Do hry navíc vstoupila dlouhodobá opatrnost při práci s daty.

Threads se dostaly před X v denní mobilní návštěvnosti

Sociální síť Threads od společnosti Meta poprvé předběhla X v počtu globálních denních uživatelů na mobilních zařízeních. Vyplývá to z odhadů analytické firmy Similarweb za první polovinu ledna. Threads podle nich denně používá zhruba 143 milionů lidí na mobilech, zatímco X přibližně 126 milionů. Jde o symbolický milník v dlouhodobém souboji dvou textově orientovaných platforem.

OLED MacBook Pro je blíž než kdy dřív a může dorazit už letos

Vývoj OLED MacBooku Pro se podle nejnovějších informací výrazně posunul. Výroba panelů už běží a Apple má mít za sebou klíčové testování. To naznačuje, že přechod na OLED displeje není vzdálená vize, ale konkrétní plán. A možná i otázka měsíců, ne let.

Microsoft potvrzuje první bezplatnou aktualizaci Windows pro rok 2026

Je rok 2026 a Windows znovu stojí na rozcestí. Microsoft po loňském odkladu definitivního konce Windows 10 potvrdil, že říjen 2026 bude skutečně poslední metou. Přesto firma znovu couvla jen částečně. Nabízí bezplatné rozšířené bezpečnostní aktualizace, ale jen těm, kteří splní dané podmínky.

Stovky milionů sluchátek a reproduktorů ohrožuje chyba v Bluetooth Fast Pair

Bezdrátová sluchátka a přenosné reproduktory se měly připojovat rychle a bez starostí. Přesně to byl cíl technologie Google Fast Pair. Jeden dotyk a hotovo. Teď se ale ukazuje, že stejná pohodlnost může hrát do karet útočníkům. Podle bezpečnostních výzkumníků z belgické univerzity KU Leuven obsahuje Fast Pair vážnou chybu, která otevírá cestu ke špehování, sledování i převzetí kontroly nad audio zařízeními.
Reklama
Reklama
Reklama
Reklama