您好,歡迎到訪!

搞定影象+文字+影片大一統!智源釋出多模態世界模型Emu3:下一個token預測直通AGI

2024-10-23 01:35:20 3

作者 | 智源研究院

OpenAI前首席科學家、聯合創始人Ilya Sutskever曾在多個場合表達觀點:只要能夠非常好的預測下一個token,就能幫助人類達到通用人工智慧(AGI)。

雖然,下一token預測已在大語言模型領域實現了ChatGPT等突破,但是在多模態模型中的適用性仍不明確,多模態任務仍然由擴散模型(如Stable Diffusion)和組合方法(如結合 CLIP視覺編碼器和LLM)所主導。

2024年10月21日,智源研究院正式釋出原生多模態世界模型Emu3。該模型只基於下一個token預測,無需擴散模型或組合方法,即可完成文字、影象、影片三種模態資料的理解和生成。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。