您好，歡迎到訪!

訊飛星火多模態互動大模型上線，數字人、語音、視覺支援一鍵呼叫

2024-11-15 01:34:05 1

IT之家 11 月 14 日訊息，“訊飛開放平臺”公眾號今天傍晚宣佈，訊飛星火多模態互動大模型正式上線，其實現從語音互動拓展到音影片流實時多模互動，新增“多模態、超擬人和個性化”能力，實現語音、視覺、數字人互動三合一，支援一鍵呼叫。

據介紹，訊飛星火多模態互動大模型首發超擬人數字人技術，數字人軀幹和四肢動作能夠精準匹配語音內容，快速生成表情和動作，令 AI“栩栩如生”。透過統一文字、語音和表情，能夠實現跨模態的語義一致性，從而使大模型情感表達真實連貫。

其支援超擬人極速互動，採用統一神經網路直接實現語音到語音的端到端建模，響應更快速、流暢，可敏銳感知情緒變化，也可根據指令自由變換聲音的節奏、大小和人設。

其支援多模態視覺互動，能夠“聽懂世界”“認清萬物”，更全面感知具體背景場景、物流狀態等資訊，對任務的理解更加精準，並透過語音、手勢、行為、情緒等進行綜合判斷，作出合適的回覆。

據IT之家此前報道，使用者可與數字人進行語音、視訊通話，數字人可實現與使用者的自然語音對話，人物表情等也能夠匹配說話的語句。星火超擬人數字人還支援多模態互動，可讓數字人識別攝像頭中的內容，比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。

本文標籤訊飛星火多模互動大模型上線數字語音視覺支援一鍵呼叫

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報，壹經查實，本站將立刻刪除。