您好，歡迎到訪!

英偉達對外展示了一款模型，可以生成音樂和音訊

2024-11-27 01:34:50 1

當地時間11月25日，晶片巨頭英偉達展示了一款用於生成音樂和音訊的人工智慧模型Fugatto。該模型可以根據文字提示修改聲音、產生新的聲音。不過英偉達目前沒有公開發布Fugatto技術。有業內人士對澎湃科技表示，音訊模型是AI的常規應用，英偉達推出這一模型更多得是為了展示AI的能力，從而促進其顯示卡得銷售。

據瞭解，新模型面向音樂、電影和遊戲製作商。它可以改變錄音的口音和情緒，將鋼琴演奏轉換成人聲歌唱，具體來講，Fugatto可以分離歌曲中的人聲，新增樂器，將鋼琴換成歌劇歌手來改變旋律。英偉達表示，新模型可以創造出“從未聽過的聲音”，比如可以使小號吠叫或者薩克斯發出貓叫聲。

Fugatto建立在英偉達團隊此前在語音建模、音訊編碼和音訊理解等領域的工作基礎上，完整版本使用25億引數。新模型根據開源資料在包含32個英偉達H100 Tensor Core GPU的NVIDIA DGX超級計算機系統上進行訓練。

英偉達表示，為了構建Fugatto模型，研究人員收集數百萬個音訊樣本的資料集並建立指令，擴充套件了模型可以執行的任務範圍，同時實現了更準確的效能，並在不需要額外資料的情況下完成新任務。在推理過程中，模型使用一種稱為ComposableART的技術來組合僅在訓練期間單獨看到的指令，例如提示片語合可以要求用法國口音講述悲傷的文字，實現使用者對文字指令的精細控制。

“如果我們回想一下過去50年的合成音訊，現在的音樂聽起來不同了，因為有了電腦和合成器。”英偉達應用深度學習研究副總裁布萊恩·卡坦扎羅（Bryan Catanzaro）說，生成式人工智慧將為音樂、電子遊戲以及想要創造東西的普通人帶來新的能力。

有網友詢問何時能使用該模型，但同時也有網友表示擔憂，並表示“這是重罪”，“參與這項研究的每個人都應該被關進監獄，原因很明顯。不要擾亂藝術、音樂和媒體。”

英偉達表示目前仍在討論是否以及如何將其公開發布。生成式AI模型的創造者尚未確定如何防止濫用該技術，例如使用者生成錯誤資訊或生成受版權保護的角色來侵犯版權。“任何生成技術都會帶來一些風險，因為人們可能會用它來生成我們不希望他們使用的東西。”卡坦扎羅表示，因此需要對此保持謹慎，“這就是為何我們沒有立即釋出這款模型。”

值得注意的是，除英偉達的Fugatto以外，來自Stability AI、OpenAI、谷歌DeepMind等公司也開發了人工智慧音訊工具，但其他公司都沒有聲稱能夠創造出全新的和聞所未聞的聲音。一些人工智慧初創公司甚至因其音樂創作工具而面臨版權訴訟。

本文標籤英偉達對外展示了一款模型可以生成音樂音訊

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報，壹經查實，本站將立刻刪除。

Kimi數學版上線：基於月之暗面k0-math模型，號稱能力對標OpenAI o1

« 上一篇 2024-11-27

AI聊天機器人讓使用者去死，大學生嚇到崩潰，官方緊急道歉

2024-11-27 下一篇 »

英偉達對外展示了一款模型，可以生成音樂和音訊

最近發布

隨便看看

熱門標簽

關于我們

英偉達對外展示了一款模型，可以生成音樂和音訊

相關文章

最近發布

隨便看看

熱門標簽

關于我們