您好,歡迎到訪!

英偉達對外展示了一款模型,可以生成音樂和音訊

2024-11-27 01:34:50 1

當地時間11月25日,晶片巨頭英偉達展示了一款用於生成音樂和音訊的人工智慧模型Fugatto。該模型可以根據文字提示修改聲音、產生新的聲音。不過英偉達目前沒有公開發布Fugatto技術。有業內人士對澎湃科技表示,音訊模型是AI的常規應用,英偉達推出這一模型更多得是為了展示AI的能力,從而促進其顯示卡得銷售。

據瞭解,新模型面向音樂、電影和遊戲製作商。它可以改變錄音的口音和情緒,將鋼琴演奏轉換成人聲歌唱,具體來講,Fugatto可以分離歌曲中的人聲,新增樂器,將鋼琴換成歌劇歌手來改變旋律。英偉達表示,新模型可以創造出“從未聽過的聲音”,比如可以使小號吠叫或者薩克斯發出貓叫聲。

Fugatto建立在英偉達團隊此前在語音建模、音訊編碼和音訊理解等領域的工作基礎上,完整版本使用25億引數。新模型根據開源資料在包含32個英偉達H100 Tensor Core GPU的NVIDIA DGX超級計算機系統上進行訓練。

英偉達表示,為了構建Fugatto模型,研究人員收集數百萬個音訊樣本的資料集並建立指令,擴充套件了模型可以執行的任務範圍,同時實現了更準確的效能,並在不需要額外資料的情況下完成新任務。在推理過程中,模型使用一種稱為ComposableART的技術來組合僅在訓練期間單獨看到的指令,例如提示片語合可以要求用法國口音講述悲傷的文字,實現使用者對文字指令的精細控制。

“如果我們回想一下過去50年的合成音訊,現在的音樂聽起來不同了,因為有了電腦和合成器。”英偉達應用深度學習研究副總裁布萊恩·卡坦扎羅(Bryan Catanzaro)說,生成式人工智慧將為音樂、電子遊戲以及想要創造東西的普通人帶來新的能力。

有網友詢問何時能使用該模型,但同時也有網友表示擔憂,並表示“這是重罪”,“參與這項研究的每個人都應該被關進監獄,原因很明顯。不要擾亂藝術、音樂和媒體。”

英偉達表示目前仍在討論是否以及如何將其公開發布。生成式AI模型的創造者尚未確定如何防止濫用該技術,例如使用者生成錯誤資訊或生成受版權保護的角色來侵犯版權。“任何生成技術都會帶來一些風險,因為人們可能會用它來生成我們不希望他們使用的東西。”卡坦扎羅表示,因此需要對此保持謹慎,“這就是為何我們沒有立即釋出這款模型。”

值得注意的是,除英偉達的Fugatto以外,來自Stability AI、OpenAI、谷歌DeepMind等公司也開發了人工智慧音訊工具,但其他公司都沒有聲稱能夠創造出全新的和聞所未聞的聲音。一些人工智慧初創公司甚至因其音樂創作工具而面臨版權訴訟。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。