您好,歡迎到訪!

AI翻譯界殺手誕生!阿里國際翻譯大模型吊打谷歌和GPT-4

2024-10-17 01:33:27 4

【新智元導讀】AI翻譯,全球大廠都卷瘋了!但「綠就是白」「光腿神」這類翻譯卻讓人啼笑皆非。就在剛剛,阿里國際釋出首個商用翻譯大模型,電商出海神器真來了!

果式文案一出,少不了網友的熱議。

蘋果iOS 18官方7月更新的系統宣傳語中,「真的很你」硬生生文案,被許多人吐槽太過抽象。

原本英文的廣告語是「Yours. Truly.」。

但到了中文這裡,則有種「明明每個字都認識,可連在一起卻怎麼也讀不懂了」的感覺。

如果從翻譯的角度來看,原因主要在於語言之間存在的文化鴻溝。

與專業術語不同的是,蘊含豐富文化寓意的詞語,字面翻譯對於有文化背景的人來說,難以理解。

論文地址:https://arxiv.org/html/2305.14328v2

如今,隨著LLM的多語言能力越來越強,也讓此前鮮有進展的AI翻譯賽道,突然捲了起來。

早已佈局的科技大廠,以及剛剛下場的各路LLM初創,紛紛推出了自家的AI翻譯產品。

DeepL表示,自家LLM的譯文需要更少的編輯。要達到同樣的質量,谷歌需要兩倍的編輯量,而GPT-4則需要三倍

不可否認,AI翻譯仍然是一個複雜領域。

基於深度學習的機器翻譯,雖然對於訓練過的文字語料可以遊刃有餘,但對於和訓練文字差異過大的文字,翻譯能力就會大幅下降。

除了訓練資料的侷限性之外,AI的上下文理解有限、也讓不同語種的語言結構差異和文化語境差異等原因,也會導致AI經常給出偏差很遠的答案。

就沒有一款輕易上手、放心可用的高效AI翻譯工具嗎?

我們經過一番實測發現,在一眾模型產品中,阿里國際最新的大模型產品——Marco-MT,在廣義的翻譯領域表現就相當亮眼,透過結合上下語義、場景、物件等,提供更加精準的翻譯,結合阿里的資料優勢,在電商領域尤為出色。

國產大模型,解決「光腿神」難題

眾所周知,電商行業中術語繁多,不同領域有眾多盲點,即使請專職的翻譯,也很難短時間內給出最準確的說法。

舉個例子,在國內賣爆了的光腿神器,怎麼解釋給歪果仁呢?

有人說,用現成的翻譯產品不就行了?

某產品給出的結果是——「Bare legs god」,好傢伙,「光腿神」可還行。

類似的翻譯一個比一個抽象,要讓老外驚掉下巴。

而有了Marco,我們就不會再常常遇到這種抽象的場景了。

Marco翻譯大模型可支援三種方式的翻譯:基於語境的產品翻譯、影象翻譯、實時聊天翻譯。

在處理電商專有詞、流行詞和口語詞等翻譯任務時,這個模型不僅能更好地保留原意,還能立馬輸出簡潔、準確的表達,而且非常符合「歪果仁」的語言習慣。

比如「光腿神器」的翻譯,以往的兩個翻譯產品分別是「A magical tool for bare legs」(一個神奇的光腿工具)和「Bare legs god」(光腿神)。

而用了Marco翻譯大模型,「The bare leg artifact」的譯法簡潔精妙,老外看了都說好!

同樣,「綠色顯白」這類非常口語化的流行詞,Marco-MT給出的翻譯也是非常地道——Green is flattering for the complexion!

綠色是顯白哦!真的很仙的裙子,洋氣不過時的,比較大氣的感覺,還挺顯瘦的,比較適合我的風格,穿出去回頭率有的哦。

相比之下,翻譯1號在表述上並不是很符合當地人的習慣,尤其是「make your skin look whiter」這段。

內容大意:綠色讓你的皮膚看起來更白!這是一條非常仙的裙子,時尚且永不過時,相當優雅,而且顯瘦。它很適合我的風格,穿上它我一定會吸引很多注意力

翻譯2號則更加拉跨,內容和語法完全不對。

「綠就是白」,「時尚但不時尚」,充滿了矛盾的哲學……

內容大意:綠色是白色哦!真的非常仙的裙子,時尚但不時尚,更有大氣的感覺,而且也很顯瘦,更適合我的風格,穿出去回頭率很高哦

接下來,我們加大難度。

「真的是可鹽可甜,穿著顯瘦,拍照簡直不要好看呀,太上鏡了!」,怎麼說?

Marco率先作答:sweet and cute——甜美可愛。

翻譯1號和2號則異口同聲:salt/salty and sweet!(好的,有被齁到)

再來一題:

泰美辣!紮起來的時候看不出來是假髮,而且髮質看起來超好的,髮量看起來也很多!對於短髮髮量少星人太友好了嗚嗚好喜歡!

Marco依然發揮穩定,正確地翻譯出了「泰美辣」的意思——「so beautiful」。

另外兩位選手的表現,倒是也在意料之中——

1號並不能get到這是什麼意思,直接輸出了拼音「Tai Meila」;2號拆開翻譯成了Tammy(人名)和Spice(香料)。

再比如「畫風突變」,西班牙語版翻譯出來是這樣的——

不瞭解西語的朋友可能看不出端倪,「cambio repentino en el estilo de pintura」這句話,翻譯回來的意思是——「繪畫風格的突然變化」。

可以說是驢唇不對馬嘴了。

針對這些訓練預料相對較少的語種,Marco-MT給出的答案——「Cambio de estilo」,不僅意思更加貼合原文,表達也更加native。

英文種草「信達雅」

效能如此強大的翻譯模型,為什麼出自阿里國際?

顯然,這與公司在該領域的多年積累密不可分:

數十億規模的高質量電商預料資料,讓團隊在跨境電商領域一下子就建起了起極為顯著的資料優勢

服務於全球市場的電商平臺,讓團隊對不同國家和地區的文化、語言以及商業法規有了深入的瞭解

因此一經發布,Marco翻譯大模型就在BLEU、COMET,以及人工評測指標上上,一舉超越市場上的頭部翻譯產品。

基於Flores公開榜單資料的評測結果

將其它語言譯為英語的測試中,它的所有結果均已超越行業標杆企業的產品,比如谷歌、ChatGPT、DeepL。

而將英語譯成其他語言方面,也有一半語言的測試結果超過了谷歌、ChatGPT。

這麼好用的大模型,用起來會不會很貴?恰恰相反!

Marco的價效比可謂拉滿,100萬個字元僅需12美元。

針對不同的翻譯,前兩者價格一致,影象翻譯還更划算些。

Marco翻譯大模型主要支援15種語言間的互譯。

除了常見的中英,還覆蓋了韓語、日語、西班牙語、法語等全球使用量最多的語種,以及烏爾都、孟加拉、尼泊爾、希伯來等小語種。

可以說,跨境電商常用語種,Marco基本實現了全覆蓋。

應用場景

能夠在多語種之間流暢轉換,Marco也就打通了跨境電商中的兩個核心場景。

內容本地化

商家上傳的商品資訊,包括標題、詳情、屬性、商品圖片短語等,都能被精準翻譯成目標市場語言。

根據海量電子商務資料訓練後的AI,在產品標題生成上是手到擒來

另外,模型在搜尋關鍵詞和對話翻譯上也表現不俗,還支援高併發呼叫,並且能理解電商相關知識,滿足各種風格偏好。

不管買家用的什麼語言,都可以靠AI絲滑地把對話翻譯過去

個人文件翻譯

對於個人文件翻譯,Marco也能根據上下文提供高質量翻譯。

譯文不僅有良好的可讀性,還支援不同風格,滿足個人使用者的多樣化需求。

總之,Marco作為AI原子能力,可以輕鬆接入到電商商品管理、客服及搜尋導購等系統中。

商家和買家都能獲得自動翻譯服務,溝通效率倍增,全面提升消費者觸達效果。

可以說,Marco的出現,能讓阿里國際的速賣通、Lazada、Trendyol等電商平臺,以及外部電商類客戶,比如為多平臺運營商家提供服務的獨立SaaS商(ISV),和對翻譯效果有更高要求的跨境商家,都能提供更絲滑的服務。

背後技術

在訓練Marco的過程中,阿里國際團隊用了多項創新性技術。

基於通義千問系列大模型,他們進行了多語言增強訓練,搭建出多語言大模型基座——Marco翻譯大模型。

預訓練過程中,Marco採用了多語言資料篩選技術。

比如,特別增強語種識別、多維度資料質量評估,由此,就獲得了高質量、大規模多語言資料。

與此同時,透過利用多語言MoE、引數擴充套件方法,從而保證主導語言(如中英)效能不下降的情況下,提升了其他語種的效能。

微調階段,基於多語言大模型基座,再利用SFT對模型翻譯能力全面啟用。

對此,研究人員提出了一種自動構建高質量偏好資料的方法,透過強化學習緩解LLM的幻覺問題,還提升了電商場景特有詞翻譯效果。

Marco翻譯大模型還有兩處獨特的創新。

大模型驅動

首先,模型能夠主動進行語義理解與內容重構,而不是簡單的文字轉換,從而避免了各種哭笑不得的歧義。

比如,「你的寶貝正在路上」,不會再被翻譯成「Your baby is on the way」;

而且「豬豬女孩」,也不再會被直白地翻譯為「Pig girl」。

這些富含特色文化且難以直譯的詞彙,Marco翻譯大模型都能恰如其分地表達出來。

再以「我太太太太喜歡這個商品了」為例,一些AI翻譯產品會將這句話翻譯為「My wife likes this product」。

而在Marco大模型中,這句話非常地道地翻譯為「I love this product sooooo much」。

情景化翻譯

其次,AI翻譯中融入了情境化翻譯能力,這就使它能夠依據特定的環境及目標受眾進行智慧調整。

最終呈現的效果上,不僅翻譯準確無誤,還貼近本土語言的自然流暢。

跨境電商ALL in AI,下一步再降成本

說來,阿里國際為什麼要做翻譯大模型呢?

與那些致力於模型研發、實現AGI公司不同,阿里國際從一開始就想明白了,要走AI應用落地之路。

AI成為跨境電商關鍵變數

2023年,人工智慧作為技術全新變數,掀起了整個跨境電商行業的巨大風暴。

全球最大電商平臺亞馬遜,推出了AI服務平臺Amazon Bedrock,讓客戶透過線上領先模型構建GenAI應用程式。

還有蝦皮(Shopee)、Shopify等一些知名電商平臺,爭相佈局。

作為全球最大的跨境電商平臺之一,阿里國際也在全力All in AI。

去年4月,他們在內部專門成立了AI Business百人團隊,並對40+關鍵場景進行AI測試。

中小商家們在出海路上經歷的「九九八十一難」——語言文化壁壘、專業人才短缺、獲客成本高等等,被逐一破解。

比如,AI影象編輯功能可以一鍵實現裁剪、背景生成、移除等功能,點選率超7%;

虛擬模特能夠隨意上身試穿,膚色性別任選,堪比專業影棚拍攝效果。

經過一年多的嘗試,成果已經初顯。

近半年的資料顯示,平均每兩個月,商家對於AI的呼叫量就翻1倍,AI的呼叫量已經突破日均1億次。

更具象地說,一個在速賣通起家的Zeuslap顯示器創業9年,藉助AI從名不經傳的小作坊,迅速成長為平臺行業TOP 1的品牌。

以往,他們會招聘專業美工師,從摳圖、找素材、PS,一週只能做4-5套。

自從去年11月用上AI工具之後,70%以上的設計圖幾乎被AI承包。比如,商品banner圖、產品場景圖、YouTube封面圖等等。

截至目前,全球超1億件商品被AI最佳化,50萬跨境商家用AI賺到了錢。

阿里國際之所以成績斐然,與團隊過去所攻克的研究難題密不可分。

在多語言方面,為了提升大模型多語言能力,並將其更高效地用實際任務中,多語言增強大模型MarcoPolo由此誕生。

並且,實現了更低成本更優效果。

在多模態方面,多模態大模型MarcoPolo-VL能夠用「眼睛」精準識別,進行推薦。

還有團隊最新發布的多模態大模型Ovi,直接拿下開源第一。

在ICCV 2023頂會上,一向低調的阿里國際AI團隊,憑藉「視覺-語言演算法推理」workshop拔得頭籌。

簡單講,這與當下火熱的GPT-4V多模態生成是同題競賽。

Marco翻譯大模型,大規模商用

這次,Marco翻譯大模型亮相,進一步為語言文化壁壘提供了絕佳的解決方案。

這款AI翻譯大模型核心聚焦在兩大領域——電子商務、日常交流。

它將整合到阿里國際旗下眾多跨境電商業務平臺,如速賣通、Lazada、Trendyol。

此外,Marco翻譯大模型還將面向全球個人使用者,真正實現從專業商務到日常生活全覆蓋。

由此可見,阿里國際的AI翻譯大模型有著巨大的商業化前景。

首先,它與阿里生態系統深度融合。

阿里國際擁有著天然的3億使用者出海業務,而且電商足跡遍佈全球100+國家/地區,連線著數百萬商家及數億消費者。

這一龐大的生態網路預示著,僅在阿里國際內部,就擁有服務廣泛使用者群體和多樣化應用場景的廣闊舞臺。

其次,AI翻譯服務並不侷限於阿里生態之內。

團隊成員們積極向外擴充套件,讓Marco翻譯大模型觸及更廣泛使用者群體、商業實體。

因為,外部的生態才是一個潛力無窮、規模驚人的市場空間,尤其是全球新興市場的需求。

阿里國際AI國際在最受歡迎TOP 20使用國中,約半數未發展中國家。

那麼,全新的AI翻譯大模型也將賦能這些國家的中小企業(SMEs),幫助它們跨越語言障礙,高效開展全球業務。

未來,阿里國際還將持續投入,擴充套件語向的數量,提升更多不同場景下的翻譯質量。

最重要的是,進一步降低使用者的使用成本。

在阿里國際看來,AI+跨境電商只是邁出了第一步,AI之於電商最大的改造,應是做到「降本增效」的極致。

向前一步,可以看到AI會顛覆電商使用者互動、購物形態。

向後一步,AI將會重塑整個電商供應鏈,甚至上從根本去改變搜、推、廣的商業模式。

AI將為跨境電商的未來帶來種種可能,讓我們拭目以待。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。