您好，歡迎到訪!

搞定影象+文字+影片大一統！智源釋出多模態世界模型Emu3：下一個token預測直通AGI

2024-10-23 01:35:20 3

作者 | 智源研究院

OpenAI前首席科學家、聯合創始人Ilya Sutskever曾在多個場合表達觀點：只要能夠非常好的預測下一個token，就能幫助人類達到通用人工智慧（AGI）。

雖然，下一token預測已在大語言模型領域實現了ChatGPT等突破，但是在多模態模型中的適用性仍不明確，多模態任務仍然由擴散模型（如Stable Diffusion）和組合方法（如結合 CLIP視覺編碼器和LLM）所主導。

2024年10月21日，智源研究院正式釋出原生多模態世界模型Emu3。該模型只基於下一個token預測，無需擴散模型或組合方法，即可完成文字、影象、影片三種模態資料的理解和生成。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報，壹經查實，本站將立刻刪除。