2024-08-31 18:24:16 39
新智元報道
編輯:編輯部
【新智元導讀】OpenAI的「Her」還是期貨,訊飛星火版「Her」就搶先上線了!不僅極速響應自由打斷,還情緒價值拉滿,各種情感、風格、方言隨意切換。熊二被召喚出來的時候,家裡的熊孩子直接被硬控了30秒。
就在昨天,人類與機器的對話方式,全面升級了!
我們在使用一番之後,可謂是大開眼界。
比如,讓它用天津話講段相聲。
您別說,這味兒可太對了!
<video alt=" 訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天 " controls="" data-commentboard="" data-commentid="" data-img="http://videoimg.ws.126.net/cover/20240831/J9AsbcaZz_cover.jpg" data-m3u8="https://flv0.bn.netease.com/2d3bc1073f499825c79b8d6efc2b3f18a8fc37643e1ade95bc425b1bb0bd3a20accddff91a6d8f5f56644c2a9485441f1cb014dd801676aa47278303d543c603b22f531043f6e3e038ee7ebba863a21a3fc9c86dad34e77287bc0a03cc936d3c235bf12e052ef2051ad6eb75efe42e1680ec60eb77c1585c.m3u8" data-topicid="1000" data-vid="VFA0JSRIB" data-video="https://flv0.bn.netease.com/2d3bc1073f499825c79b8d6efc2b3f18a8fc37643e1ade95bc425b1bb0bd3a20accddff91a6d8f5f56644c2a9485441f1cb014dd801676aa47278303d543c603b22f531043f6e3e038ee7ebba863a21a3fc9c86dad34e77287bc0a03cc936d3c235bf12e052ef2051ad6eb75efe42e1680ec60eb77c1585c.m3u8,https://removemp4" preload="none" src="https://removemp4"></video>
敲黑板:作為國內首個「極速超擬人互動」,這款訊飛星火版的「Her」,已經全民開放體驗了!
只要下載訊飛星火APP,即可體驗對標GPT-4o的超自然AI語音助手。
目錄中
星火對話中
實測驚豔
要知道,傳統的語音互動,一直面臨著三大挑戰:準確理解說話人意圖;生成恰當響應;高效透過聲音傳達資訊。
以往的語音互動,一直無法擺脫滿滿的智障味兒,就是因為這些環節中的延遲,大大拉低了使用者體驗。
而這一次,人機之間的互動,將如真人般自然流暢。
那麼問題來了,所謂的「超擬人」到底有多擬人?
直觀感受是:我們也有自己的「GPT-4o」了!
極速響應,自由打斷
此前,我們見到的語音AI,總是給人感覺不太聰明的樣子。
如果忽然打斷它,它就瞬間蒙圈了,要麼接不上來,要麼就開始「已讀亂回」。
但這次的小星,模型響應的快速和流暢度讓人眼前一亮。
即使隨時打斷、插話,小星依舊能做到秒回,這個快速反應能力,讓我們的觀感彷彿真人一般。
比如,我們拿前段時間的全球大熱點——巴黎奧運會考一考小星:「中國隊在巴黎奧運會上獎牌總數排行第幾?」
小星瞬間回覆,而且在搜尋過程中還使用了「讓我來數一數」這種流暢的過渡方式,讓互動過程更加自然。
可能是搜尋結果太過全面,小星不僅把金銀銅牌的總數都說了出來,還開始總結中國隊的優勢專案。
可以感覺到,整個語音交流的過程中非常順暢,非常自然,即使隨時打斷它,它都能立刻給出正確的反應,而不是跟一個「人工智障」在對話,這個感覺真是太~爽~了~
不僅如此,小星「緊跟熱點」的能力也是相當令人滿意。
十一調休安排過於混亂?只要問一句,它就能給你解釋得明明白白——
之所以模型的響應如此之快,如此之流暢,是因為它採用的是統一神經網路,直接實現了語音到語音的端到端建模。
情緒價值拉滿,情商秒殺部分人類
第二個非常鮮明的特點是,小星對情緒的感知,實在是太敏銳了。
無論是高興、悲傷、生氣、害怕,我們話中的情緒,它都能立刻識別出來,敏銳地和你的情緒產生共鳴。
然後,它會自動把你代入符合情境的對話,然後用合適的情緒語氣,進行貼心的回覆。
可以說,簡直秒殺了部分人類。
要上臺演講了,看著臺下的幾百個觀眾,緊張得手直抖,不用怕,小星來貼心地安慰你。
<video alt=" 訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天 " controls="" data-commentboard="" data-commentid="" data-img="http://videoimg.ws.126.net/cover/20240831/N1LreVsAT_cover.jpg" data-m3u8="https://flv0.bn.netease.com/2d3bc1073f4998253546dd60cfa3775ef648399f8849fe624f1adf04bda9f3023dd26c8cfd9db44559b925c2d04e7fe73d48d33bf347f1122be0164a447b5ec46bf49592716101db19c951eaf98a85051efde9ba18da8b36c3ca94945c7bb75fbec9a3bfd129795171ea85ad83c48145805f1b975a051d0f.m3u8" data-topicid="1000" data-vid="VFA0JSRFI" data-video="https://flv0.bn.netease.com/2d3bc1073f4998253546dd60cfa3775ef648399f8849fe624f1adf04bda9f3023dd26c8cfd9db44559b925c2d04e7fe73d48d33bf347f1122be0164a447b5ec46bf49592716101db19c951eaf98a85051efde9ba18da8b36c3ca94945c7bb75fbec9a3bfd129795171ea85ad83c48145805f1b975a051d0f.m3u8,https://removemp4" preload="none" src="https://removemp4"></video>
「我從未見過如此厚顏無恥之人」的網路熱梗,它都知道,識別出這句話中的情緒,自然也是不在話下。
然後,我們還能讓它用開心/沮喪/搞怪的方式來描述一下今天的天氣。
你見過有帶著哭腔念出的「全天多雲」嗎?
其實,從日常的交流中也可以感受到小星的豐富情緒。
比如沒有聽清問題時會不好意思地微笑,平時交流時始終情緒高漲、語氣上揚,但察覺到你的消極情緒時,語氣又會變得十分關切柔和,情緒價值給得相當到位。
注意,它並不是簡單地透過語音文字來進行情緒的判斷,而是針對複雜場景下的語音識別效果做了提升,因而能夠感知數十種情緒。
表達方式隨心控,情感、風格、方言都不在話下
在交流中,小星可以跟隨你的指令,控制數十種情感、風格、方言,還可以變換語速。
比如,讓它開心地給我們講一段睡前故事。
<video alt=" 訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天 " controls="" data-commentboard="" data-commentid="" data-img="http://videoimg.ws.126.net/cover/20240831/aVHjBkEWq_cover.jpg" data-m3u8="https://flv0.bn.netease.com/2d3bc1073f4998253546dd60cfa3775ed20bc01a84b87621ab3df336602385a28b6a5e447f15bbd0ee347bebcd12c147da867ce48b6ff18828b597cb65fea6dece31e8fc9b13ab2750f06eaca5057ab945215f17e9f45dbf9bd88f8bee9fdfa780a8b20f6c0826f33c8bc7e4db482b508ed029812ab67943.m3u8" data-topicid="1000" data-vid="VFA0JSSDF" data-video="https://flv0.bn.netease.com/2d3bc1073f4998253546dd60cfa3775ed20bc01a84b87621ab3df336602385a28b6a5e447f15bbd0ee347bebcd12c147da867ce48b6ff18828b597cb65fea6dece31e8fc9b13ab2750f06eaca5057ab945215f17e9f45dbf9bd88f8bee9fdfa780a8b20f6c0826f33c8bc7e4db482b508ed029812ab67943.m3u8,https://removemp4" preload="none" src="https://removemp4"></video>
好聽,但是還能更誇張一點嗎?完全可以!
而且,這個小狐狸和月亮的故事,充滿詩意和淡淡的傷感,還懸念十足,聽到最後我們都為小狐狸的堅持而感動。
<video alt=" 訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天 " controls="" data-commentboard="" data-commentid="" data-img="http://videoimg.ws.126.net/cover/20240831/XqoJ0NWaP_cover.jpg" data-m3u8="https://flv0.bn.netease.com/2d3bc1073f49982569a1dbbeac9e284fa28964d0cbd1f9242472613dffc1af5f5ee2fce76b26b3bc4f2394d0fafb30b48afb1597b706ace342ef9b9a0a9cb7a45417704814b45dea8712b2684a1c1ce98876a0724849fbf131860848638f98772cdc3231f344765ba47cafe63387b526ad6a47b4731bb568.m3u8" data-topicid="1000" data-vid="VFA0JSSB4" data-video="https://flv0.bn.netease.com/2d3bc1073f49982569a1dbbeac9e284fa28964d0cbd1f9242472613dffc1af5f5ee2fce76b26b3bc4f2394d0fafb30b48afb1597b706ace342ef9b9a0a9cb7a45417704814b45dea8712b2684a1c1ce98876a0724849fbf131860848638f98772cdc3231f344765ba47cafe63387b526ad6a47b4731bb568.m3u8,https://removemp4" preload="none" src="https://removemp4"></video>
誒,暑假哄娃神器,這不就來了嘛。
我們還能讓它用主持人的口氣,給咱們讀一篇文章。不得不說,小星的朗誦十分有感染力,值得鼓掌!
如果你厭倦了同一種語調,還可以讓小星大展身手——扮演東北大哥給你來段相聲。
聽完之後,沒忍住吐槽了一句:就這?
您猜怎麼著,小星竟然絲滑地接過了話茬。這體驗也太類人了,彷彿手機裡真住了個大哥。
<video alt=" 訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天 " controls="" data-commentboard="" data-commentid="" data-img="http://videoimg.ws.126.net/cover/20240831/i1JqQ0uRG_cover.jpg" data-m3u8="https://flv0.bn.netease.com/2d3bc1073f499825c79b8d6efc2b3f18d54fbff4284e4b7c2298fb1c1d74bb680020bc24fd9e69b4ed205f5a1a094b7e8f32de07616479fef4d2849274f8d4eb346c4fd8084073b64971cff8951e48e75f77189cbcdfc170e54a18feece5015668d0180115efe8f5c383d59d10c2024eee7b361296c9d847.m3u8" data-topicid="1000" data-vid="VFA0JSSFP" data-video="https://flv0.bn.netease.com/2d3bc1073f499825c79b8d6efc2b3f18d54fbff4284e4b7c2298fb1c1d74bb680020bc24fd9e69b4ed205f5a1a094b7e8f32de07616479fef4d2849274f8d4eb346c4fd8084073b64971cff8951e48e75f77189cbcdfc170e54a18feece5015668d0180115efe8f5c383d59d10c2024eee7b361296c9d847.m3u8,https://removemp4" preload="none" src="https://removemp4"></video>
小星說起天津話來,也是妥妥的喜劇人一枚,那是相當幹哏倔脆、調皮搗蛋。
跟悟空聊西遊,百變人設任意切換
小星的超擬人互動,還擁有百變人設,一不小心就被挖掘出「戲精」的一面。
孫悟空、蠟筆小新、小豬佩奇……多種角色的音色、語氣,它都模仿得惟妙惟肖,甚至還能模仿他們的人設和你聊天。
只需要一句簡單的指令:「扮演XX和我對話」,就能隨時和它來一場「語音cosplay」了。
只要幾句話,我們就召喚出孫悟空了。
那就讓我們問一下,取經過程中最難忘的一件事?
看來,白骨精著實給了他不小的陰影。
下一秒,小星就林妹妹上身,「三分柔弱兩分溫柔四分譏誚一分氣惱」的feel,拿捏得是十分到位。
被問到「在大觀園中最喜歡和誰一起玩」時,黛玉的回答是薛寶釵和史湘雲。
聽,小星模仿起熊二的聲音和語氣簡直是惟妙惟肖,瞬間從陽光開朗大男孩變成了一隻愛吃蜂蜜的傻萌棕熊,回答問題時也全程在人設內,完全不會OOC。
<video alt=" 訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天 " controls="" data-commentboard="" data-commentid="" data-img="http://videoimg.ws.126.net/cover/20240831/CStMJTKwd_cover.jpg" data-m3u8="https://flv0.bn.netease.com/2d3bc1073f499825c79b8d6efc2b3f187bd2920315febf5a01eecd09a9c30a6313d270e706bb14e938c8bd23fbff14920e6f41a5905b0d251c60fcd6bda52db44b6a7e44355f475e36b4f316e267b8f6d6031b88c7b12bd0ac220745f24d902e111656a3dda7c087fa1d20a9ec811d54a81bdcf1561d9b76.m3u8" data-topicid="1000" data-vid="VFA0JSTPV" data-video="https://flv0.bn.netease.com/2d3bc1073f499825c79b8d6efc2b3f187bd2920315febf5a01eecd09a9c30a6313d270e706bb14e938c8bd23fbff14920e6f41a5905b0d251c60fcd6bda52db44b6a7e44355f475e36b4f316e267b8f6d6031b88c7b12bd0ac220745f24d902e111656a3dda7c087fa1d20a9ec811d54a81bdcf1561d9b76.m3u8,https://removemp4" preload="none" src="https://removemp4"></video>
另外,我們還發現,小星迴答問題的知識水平也令人刮目相看。難怪許多人沉迷和AI「談戀愛」,有「智性戀」那味兒了。
無聊時,可以喚醒它來和你玩兒一段成語接龍解悶——
讓它解釋物理學概念「胡克定律」和「能量守恆定律」,小星依舊能做到「秒回」。
而且絕不僅是機械地背概念,而是結合彈簧、陀螺這種生活中的例子向你繪聲繪色地解釋,還會生動地把能量守恆定律比作「大自然的記賬本」。
端到端新模型,讓互動快如閃電
相較以往的語音互動,此次的訊飛星火極速超擬人互動,有何不同?
傳統語音互動系統,若要實現和人的對話,一般需要透過語音識別——自然語言理解——自然語言生成,這三步來實現。具體來說:
第一步,需要透過語音系統,將語音轉換為文字;
第二步,利用大模型生成回覆的文字;
第三步,再用語音合成系統,轉換成語音。
此前,英偉達高階科學家Jim Fan曾表示,這也是讓Siri/Alexa互動能力,提升10倍速的秘訣。
他利用當前先進的AI語音系統Whisper、大模型ChatGPT、以及語音合成技術VALL-E,重述了這一過程。
不過,這一過程需要三個獨立管道串聯才可實現,因此會帶來響應延遲,至少需要3秒左右。
另一方面,語音轉文字再轉語音的過程中,我們語音中的情感、副語言資訊,甚至是環境資訊都會丟失。
這樣一來,導致語音互動系統,只能針對轉換之後的文字資訊進行回應,不能有效靈活地做出應答。
由此,基於以上問題,科大訊飛提出了極速超擬人語音互動框架——一個端到端跨文字、音訊模型的新模型。
雖然模型內部劃分了多個模組,但仍是一個「統一模型」。
使用者語音透過音訊編碼器模組,編碼成音訊表徵,然後透過介面卡,將其與文字的語義表徵對齊。
再透過多模態大模型,去預測生成表徵,最後透過音訊解碼器得到語音。
相較於傳統語音互動系統,端到端統一模型以知識對齊表徵方式,讓資訊在各個模組之間傳遞。
這意味著,同一個神經網路直接實現語音-語音的建模,輸入和輸出皆由相同神經網路處理,大大縮短了對話響應時間。
同時,音訊中的情感、環境中資訊,它都可以沒有損失地進行傳遞。
從上面實測例子能夠深刻感知,人類和AI互動終於從你一句、我一句的「聊天軟體模式」,切換到對答如流的「日常交流模式」。
不僅如此,整個系統的資訊實現了無損貫穿,讓互動更加擬人化、豐富流暢。
核心:語音屬性解耦表徵
若說極速超擬人語音互動最大的不同,就是訊飛開發了一種特殊的語音訓練方法——多維度語音屬性解耦表徵訓練。
它能夠將語音的不同屬性分開處理,比如語種、內容、韻律、音色。
要知道,語音中的所有屬性都是耦合在一起的,比如你說話的情緒和吐出的內容,是密不可分的。
那麼,如何將這些表徵分開,如何確保它在下游任務中充分利用,對解耦能力提出了更高的要求。
對此,訊飛團隊做了很多對比loss學習,以及研發預測自監督學習等一些方案。
不過需要提一句,這裡並非說,必須把所有表徵資訊徹底分開。這就需要把握一個度,在TTS中就可以控制的更好。
這種方法,能夠讓不同語音樣本之間,實現更好的學習效果。
另外,它還能更靈活地控制內容、音色、情感等元素,滿足不同場景和需求。甚至,透過更便捷的相關定製,可加速落地過程。
雖然OpenAI版Her還未全面開放,但訊飛版Her已經完全開放使用了。
20億終端或被顛覆
語音互動是人機互動的一個子集,也是萬物互聯最自然的一個互動方式。
從歷史上看,人機語音互動經歷了幾個重要的發展階段。
第一個里程碑便是,以Siri語音助手為代表雲端語音助手的出現,標誌著語義互動技術的一大突破。
這是基於語音單點技術的進步,透過將這些技術巧妙地結合,語音助手能夠專注於執行基本的指令控制功能。
比如,設定鬧鐘、查詢天氣、播放音樂等等。
第二階段是以「智慧音箱」為代表的產品,得益於麥克風陣列處理技術改進,以及遠場語音識別能力的提升,使得裝置互動可以在很遠的距離進行,比如家庭環境。
到了第三階段,便是以智慧汽車語音助手為代表的互動,多音區技術、雲端意圖識別等技術發展,實現了多人複雜指令控制。
最後一階段,就是以ChatGPT釋出為起點,開創的全新語音對話的新正規化。
這一次,訊飛語音互動系統的升級,帶來的更快響應、更懂情緒、更加靈活、更加百變的優勢,足以重寫整個語音互動市場。
2023全球數字經濟大會上,來自工信部資料顯示,截止去年5月,我國移動物聯網終端使用者超過20.5億。
而從產業發展來看,智慧語音正迎來應用突破、產業擴充套件的黃金期。
據IDC分析,預計到2030年,全球智慧語音服務市場規模將達約731.6億美元,複合增長率27%。
國內外科技公司看準這片藍海,紛紛入局開發,掀起了新一輪人機互動革命。
不光GPT-4o的語音功能還在內測;谷歌宣發的Gemini Live,也僅面向高階訂閱使用者使用。
反觀國內,鮮有大廠能夠站出,以匹敵OpenAI版Her產品的姿態,與之進行正面競爭。
憑藉語音起家的科大訊飛,是其中最強悍的挑戰者之一。
這是因為,訊飛星火大模型在不斷迭代過程中,逼近國際領先水平。
今年1月,訊飛星火V3.5釋出,歷經5個月的時間,再次迭代至V4.0版本,整體能力超越OpenAI的GPT-4 Turbo。
同在1月,訊飛還首發了語音大模型,實現首批37個主流語種語音識別效果超過OpenAI Whisper V3。
基於訊飛全球領先的多語種語音技術,語音大模型隨後再度升級,支援74種語言方言免切換輸入。
時隔1個月,訊飛在極速超擬人互動上取得的技術突破,足夠讓終端裝置實現「無感迭代」。
設想一下,當你有了這樣的裝置,不僅手握百科全書,還擁有了一個得力的助手、最親密的夥伴/朋友。
未來三大計劃,讓AI互動走進更多場景
科大訊飛表示,基於全新端到端框架,未來新系統還會朝著三大方向去拓展:更多模態、更多語言、更好體驗,帶來更實用、更豐富的功能。
這也代表著國產大模型如今早已從追趕、對標,快進到了自主創新的差異化之路。
不僅如此,訊飛還要雙管齊下,加速極速超擬人互動落地,便是下一個需要瞄準的方向。
一項技術只有落地了,才能彰顯它的價值。
未來,訊飛可能會佈局情感陪伴場景,將極速超擬人互動整合到兒童機器人中,又或是賦予線上IP能夠感知使用者情緒的能力。
另外,便是在智慧汽車、智慧家電等方面大規模開拓應用。
這一技術的應用和普及,還隱藏著巨大的可能性——語音市場在這個時代將被改寫,語音互動帶動萬物互聯的第六次產業浪潮,有望出現一次井噴。
智慧語音技術,將進一步應用到智慧手機、智慧汽車、智慧家電以及智慧家居等產品中。
據IDC分析,到2030年,全球智慧語音服務市場規模將達約731.6億美元,複合增長率27%。科大訊飛,有望收穫這一輪產業紅利。
中國AI語音的ChatGPT時刻,指日可待。
本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。