您好,歡迎到訪!

訊飛星火多模態互動大模型上線,數字人、語音、視覺支援一鍵呼叫

2024-11-15 01:34:05 1

IT之家 11 月 14 日訊息,“訊飛開放平臺”公眾號今天傍晚宣佈,訊飛星火多模態互動大模型正式上線,其實現從語音互動拓展到音影片流實時多模互動,新增“多模態、超擬人和個性化”能力,實現語音、視覺、數字人互動三合一,支援一鍵呼叫。

據介紹,訊飛星火多模態互動大模型首發超擬人數字人技術,數字人軀幹和四肢動作能夠精準匹配語音內容,快速生成表情和動作,令 AI“栩栩如生”。透過統一文字、語音和表情,能夠實現跨模態的語義一致性,從而使大模型情感表達真實連貫。

其支援超擬人極速互動,採用統一神經網路直接實現語音到語音的端到端建模,響應更快速、流暢,可敏銳感知情緒變化,也可根據指令自由變換聲音的節奏、大小和人設。

其支援多模態視覺互動,能夠“聽懂世界”“認清萬物”,更全面感知具體背景場景、物流狀態等資訊,對任務的理解更加精準,並透過語音、手勢、行為、情緒等進行綜合判斷,作出合適的回覆。

據IT之家此前報道,使用者可與數字人進行語音、視訊通話,數字人可實現與使用者的自然語音對話,人物表情等也能夠匹配說話的語句。星火超擬人數字人還支援多模態互動,可讓數字人識別攝像頭中的內容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。