您好,歡迎到訪!

智源推出全能視覺生成模型OmniGen:支援文生圖、影象編輯等

2024-10-30 01:32:55 3

IT之家 10 月 29 日訊息,北京智源人工智慧研究院(BAAI)推出了新的擴散模型架構 OmniGen,這是一種用於統一影象生成的多模態模型。

▲ 文字生成影象,編輯生成影象的部分元素,根據生成影象的人體姿態生成重繪影象,從另一影象中提取所需物件與新影象融合

官方表示,OmniGen 具有以下特點:

統一性:OmniGen 天然地支援各種影象生成任務,例如文生圖、影象編輯、主題驅動生成和視覺條件生成等。此外,OmniGen 可以處理經典的計算機視覺任務,將其轉換為影象生成任務。

簡單性:OmniGen 的架構高度簡化。此外,與現有模型相比,它更加使用者友好,可以透過指令完成複雜的任務,而不需要冗長的處理步驟和額外的模組 (如 ControlNet 或 IP-Adapter),從而大大簡化了工作流程。

知識遷移:受益於統一格式的學習,OmniGen 有效地跨不同任務遷移知識,應對未見過的任務和領域,並展示新穎的功能。我們還探討了模型的推理能力和思維鏈機制的在影象生成領域的潛在應用。

▲ 指代表達生成

IT之家附相關連結如下:

論文:https://arxiv.org/pdf/2409.11340

程式碼:https://github.com/VectorSpaceLab/OmniGen

演示:https://huggingface.co/spaces/Shitao/OmniGen

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。