果式文案一出,少不了網(wǎng)友的熱議。 蘋果iOS 18官方7月更新的系統(tǒng)宣傳語中,「真的很你」硬生生文案,被許多人吐槽太過抽象。 原本英文的廣告語是「Yours. Truly.」。 但到了中文這里,則有種「明明每個(gè)字都認(rèn)識(shí),可連在一起卻怎么也讀不懂了」的感覺。 如果從翻譯的角度來看,原因主要在于語言之間存在的文化鴻溝。 與專業(yè)術(shù)語不同的是,蘊(yùn)含豐富文化寓意的詞語,字面翻譯對(duì)于有文化背景的人來說,難以理解。 如今,隨著LLM的多語言能力越來越強(qiáng),也讓此前鮮有進(jìn)展的AI翻譯賽道,突然卷了起來。 早已布局的科技大廠,以及剛剛下場的各路LLM初創(chuàng),紛紛推出了自家的AI翻譯產(chǎn)品。 DeepL表示,自家LLM的譯文需要更少的編輯。要達(dá)到同樣的質(zhì)量,谷歌需要兩倍的編輯量,而GPT-4則需要三倍 不可否認(rèn),AI翻譯仍然是一個(gè)復(fù)雜領(lǐng)域。 基于深度學(xué)習(xí)的機(jī)器翻譯,雖然對(duì)于訓(xùn)練過的文本語料可以游刃有余,但對(duì)于和訓(xùn)練文本差異過大的文本,翻譯能力就會(huì)大幅下降。 除了訓(xùn)練數(shù)據(jù)的局限性之外,AI的上下文理解有限、也讓不同語種的語言結(jié)構(gòu)差異和文化語境差異等原因,也會(huì)導(dǎo)致AI經(jīng)常給出偏差很遠(yuǎn)的答案。 就沒有一款輕易上手、放心可用的高效AI翻譯工具嗎? 我們經(jīng)過一番實(shí)測發(fā)現(xiàn),在一眾模型產(chǎn)品中,阿里國際最新的大模型產(chǎn)品——Marco-MT,在廣義的翻譯領(lǐng)域表現(xiàn)就相當(dāng)亮眼,通過結(jié)合上下語義、場景、對(duì)象等,提供更加精準(zhǔn)的翻譯,結(jié)合阿里的數(shù)據(jù)優(yōu)勢,在電商領(lǐng)域尤為出色。 國產(chǎn)大模型,解決「光腿神」難題 眾所周知,電商行業(yè)中術(shù)語繁多,不同領(lǐng)域有眾多盲點(diǎn),即使請專職的翻譯,也很難短時(shí)間內(nèi)給出最準(zhǔn)確的說法。 舉個(gè)例子,在國內(nèi)賣爆了的光腿神器,怎么解釋給歪果仁呢? 有人說,用現(xiàn)成的翻譯產(chǎn)品不就行了? 某產(chǎn)品給出的結(jié)果是——「Bare legs god」,好家伙,「光腿神」可還行。 類似的翻譯一個(gè)比一個(gè)抽象,要讓老外驚掉下巴。 而有了Marco,我們就不會(huì)再常常遇到這種抽象的場景了。 Marco翻譯大模型可支持三種方式的翻譯:基于語境的產(chǎn)品翻譯、圖像翻譯、實(shí)時(shí)聊天翻譯。 在處理電商專有詞、流行詞和口語詞等翻譯任務(wù)時(shí),這個(gè)模型不僅能更好地保留原意,還能立馬輸出簡潔、準(zhǔn)確的表達(dá),而且非常符合「歪果仁」的語言習(xí)慣。 比如「光腿神器」的翻譯,以往的兩個(gè)翻譯產(chǎn)品分別是「A magical tool for bare legs」(一個(gè)神奇的光腿工具)和「Bare legs god」(光腿神)。 而用了Marco翻譯大模型,「The bare leg artifact」的譯法簡潔精妙,老外看了都說好! 同樣,「綠色顯白」這類非?谡Z化的流行詞,Marco-MT給出的翻譯也是非常地道——Green is flattering for the complexion!
相比之下,翻譯1號(hào)在表述上并不是很符合當(dāng)?shù)厝说牧?xí)慣,尤其是「make your skin look whiter」這段。 內(nèi)容大意:綠色讓你的皮膚看起來更白!這是一條非常仙的裙子,時(shí)尚且永不過時(shí),相當(dāng)優(yōu)雅,而且顯瘦。它很適合我的風(fēng)格,穿上它我一定會(huì)吸引很多注意力 翻譯2號(hào)則更加拉跨,內(nèi)容和語法完全不對(duì)。 「綠就是白」,「時(shí)尚但不時(shí)尚」,充滿了矛盾的哲學(xué)…… 內(nèi)容大意:綠色是白色哦!真的非常仙的裙子,時(shí)尚但不時(shí)尚,更有大氣的感覺,而且也很顯瘦,更適合我的風(fēng)格,穿出去回頭率很高哦 接下來,我們加大難度。 「真的是可鹽可甜,穿著顯瘦,拍照簡直不要好看呀,太上鏡了!」,怎么說? Marco率先作答:sweet and cute——甜美可愛。 翻譯1號(hào)和2號(hào)則異口同聲:salt/salty and sweet。ê玫模斜积J到) 再來一題:
Marco依然發(fā)揮穩(wěn)定,正確地翻譯出了「泰美辣」的意思——「so beautiful」。 另外兩位選手的表現(xiàn),倒是也在意料之中—— 1號(hào)并不能get到這是什么意思,直接輸出了拼音「Tai Meila」;2號(hào)拆開翻譯成了Tammy(人名)和Spice(香料)。 再比如「畫風(fēng)突變」,西班牙語版翻譯出來是這樣的—— 不了解西語的朋友可能看不出端倪,「cambio repentino en el estilo de pintura」這句話,翻譯回來的意思是——「繪畫風(fēng)格的突然變化」。 可以說是驢唇不對(duì)馬嘴了。 針對(duì)這些訓(xùn)練預(yù)料相對(duì)較少的語種,Marco-MT給出的答案——「Cambio de estilo」,不僅意思更加貼合原文,表達(dá)也更加native。 英文種草「信達(dá)雅」 性能如此強(qiáng)大的翻譯模型,為什么出自阿里國際? 顯然,這與公司在該領(lǐng)域的多年積累密不可分: 數(shù)十億規(guī)模的高質(zhì)量電商預(yù)料數(shù)據(jù),讓團(tuán)隊(duì)在跨境電商領(lǐng)域一下子就建起了起極為顯著的數(shù)據(jù)優(yōu)勢 服務(wù)于全球市場的電商平臺(tái),讓團(tuán)隊(duì)對(duì)不同國家和地區(qū)的文化、語言以及商業(yè)法規(guī)有了深入的了解 因此一經(jīng)發(fā)布,Marco翻譯大模型就在BLEU、COMET,以及人工評(píng)測指標(biāo)上上,一舉超越市場上的頭部翻譯產(chǎn)品。 基于Flores公開榜單數(shù)據(jù)的評(píng)測結(jié)果 將其它語言譯為英語的測試中,它的所有結(jié)果均已超越行業(yè)標(biāo)桿企業(yè)的產(chǎn)品,比如谷歌、ChatGPT、DeepL。 而將英語譯成其他語言方面,也有一半語言的測試結(jié)果超過了谷歌、ChatGPT。 這么好用的大模型,用起來會(huì)不會(huì)很貴?恰恰相反! Marco的性價(jià)比可謂拉滿,100萬個(gè)字符僅需12美元。 針對(duì)不同的翻譯,前兩者價(jià)格一致,圖像翻譯還更劃算些。 Marco翻譯大模型主要支持15種語言間的互譯。 除了常見的中英,還覆蓋了韓語、日語、西班牙語、法語等全球使用量最多的語種,以及烏爾都、孟加拉、尼泊爾、希伯來等小語種。 可以說,跨境電商常用語種,Marco基本實(shí)現(xiàn)了全覆蓋。 應(yīng)用場景 能夠在多語種之間流暢轉(zhuǎn)換,Marco也就打通了跨境電商中的兩個(gè)核心場景。 內(nèi)容本地化 商家上傳的商品信息,包括標(biāo)題、詳情、屬性、商品圖片短語等,都能被精準(zhǔn)翻譯成目標(biāo)市場語言。 根據(jù)海量電子商務(wù)數(shù)據(jù)訓(xùn)練后的AI,在產(chǎn)品標(biāo)題生成上是手到擒來 另外,模型在搜索關(guān)鍵詞和對(duì)話翻譯上也表現(xiàn)不俗,還支持高并發(fā)調(diào)用,并且能理解電商相關(guān)知識(shí),滿足各種風(fēng)格偏好。 不管買家用的什么語言,都可以靠AI絲滑地把對(duì)話翻譯過去 個(gè)人文檔翻譯 對(duì)于個(gè)人文檔翻譯,Marco也能根據(jù)上下文提供高質(zhì)量翻譯。 譯文不僅有良好的可讀性,還支持不同風(fēng)格,滿足個(gè)人用戶的多樣化需求。 總之,Marco作為AI原子能力,可以輕松接入到電商商品管理、客服及搜索導(dǎo)購等系統(tǒng)中。 商家和買家都能獲得自動(dòng)翻譯服務(wù),溝通效率倍增,全面提升消費(fèi)者觸達(dá)效果。 可以說,Marco的出現(xiàn),能讓阿里國際的速賣通、Lazada、Trendyol等電商平臺(tái),以及外部電商類客戶,比如為多平臺(tái)運(yùn)營商家提供服務(wù)的獨(dú)立SaaS商(ISV),和對(duì)翻譯效果有更高要求的跨境商家,都能提供更絲滑的服務(wù)。 背后技術(shù) 在訓(xùn)練Marco的過程中,阿里國際團(tuán)隊(duì)用了多項(xiàng)創(chuàng)新性技術(shù)。 基于通義千問系列大模型,他們進(jìn)行了多語言增強(qiáng)訓(xùn)練,搭建出多語言大模型基座——Marco翻譯大模型。 預(yù)訓(xùn)練過程中,Marco采用了多語言數(shù)據(jù)篩選技術(shù)。 比如,特別增強(qiáng)語種識(shí)別、多維度數(shù)據(jù)質(zhì)量評(píng)估,由此,就獲得了高質(zhì)量、大規(guī)模多語言數(shù)據(jù)。 與此同時(shí),通過利用多語言MoE、參數(shù)擴(kuò)展方法,從而保證主導(dǎo)語言(如中英)性能不下降的情況下,提升了其他語種的性能。 微調(diào)階段,基于多語言大模型基座,再利用SFT對(duì)模型翻譯能力全面激活。 對(duì)此,研究人員提出了一種自動(dòng)構(gòu)建高質(zhì)量偏好數(shù)據(jù)的方法,通過強(qiáng)化學(xué)習(xí)緩解LLM的幻覺問題,還提升了電商場景特有詞翻譯效果。 Marco翻譯大模型還有兩處獨(dú)特的創(chuàng)新。 大模型驅(qū)動(dòng) 首先,模型能夠主動(dòng)進(jìn)行語義理解與內(nèi)容重構(gòu),而不是簡單的文字轉(zhuǎn)換,從而避免了各種哭笑不得的歧義。 比如,「你的寶貝正在路上」,不會(huì)再被翻譯成「Your baby is on the way」; 而且「豬豬女孩」,也不再會(huì)被直白地翻譯為「Pig girl」。 這些富含特色文化且難以直譯的詞匯,Marco翻譯大模型都能恰如其分地表達(dá)出來。 再以「我太太太太喜歡這個(gè)商品了」為例,一些AI翻譯產(chǎn)品會(huì)將這句話翻譯為「My wife likes this product」。 而在Marco大模型中,這句話非常地道地翻譯為「I love this product sooooo much」。 情景化翻譯 其次,AI翻譯中融入了情境化翻譯能力,這就使它能夠依據(jù)特定的環(huán)境及目標(biāo)受眾進(jìn)行智能調(diào)整。 最終呈現(xiàn)的效果上,不僅翻譯準(zhǔn)確無誤,還貼近本土語言的自然流暢。 跨境電商ALL in AI,下一步再降成本 說來,阿里國際為什么要做翻譯大模型呢? 與那些致力于模型研發(fā)、實(shí)現(xiàn)AGI公司不同,阿里國際從一開始就想明白了,要走AI應(yīng)用落地之路。 AI成為跨境電商關(guān)鍵變量 2023年,人工智能作為技術(shù)全新變量,掀起了整個(gè)跨境電商行業(yè)的巨大風(fēng)暴。 全球最大電商平臺(tái)亞馬遜,推出了AI服務(wù)平臺(tái)Amazon Bedrock,讓客戶通過在線領(lǐng)先模型構(gòu)建GenAI應(yīng)用程序。 還有蝦皮(Shopee)、Shopify等一些知名電商平臺(tái),爭相布局。 作為全球最大的跨境電商平臺(tái)之一,阿里國際也在全力All in AI。 去年4月,他們在內(nèi)部專門成立了AI Business百人團(tuán)隊(duì),并對(duì)40+關(guān)鍵場景進(jìn)行AI測試。 中小商家們在出海路上經(jīng)歷的「九九八十一難」——語言文化壁壘、專業(yè)人才短缺、獲客成本高等等,被逐一破解。 比如,AI圖像編輯功能可以一鍵實(shí)現(xiàn)裁剪、背景生成、移除等功能,點(diǎn)擊率超7%; 虛擬模特能夠隨意上身試穿,膚色性別任選,堪比專業(yè)影棚拍攝效果。 經(jīng)過一年多的嘗試,成果已經(jīng)初顯。 近半年的數(shù)據(jù)顯示,平均每兩個(gè)月,商家對(duì)于AI的調(diào)用量就翻1倍,AI的調(diào)用量已經(jīng)突破日均1億次。 更具象地說,一個(gè)在速賣通起家的Zeuslap顯示器創(chuàng)業(yè)9年,借助AI從名不經(jīng)傳的小作坊,迅速成長為平臺(tái)行業(yè)TOP 1的品牌。 以往,他們會(huì)招聘專業(yè)美工師,從摳圖、找素材、PS,一周只能做4-5套。 自從去年11月用上AI工具之后,70%以上的設(shè)計(jì)圖幾乎被AI承包。比如,商品banner圖、產(chǎn)品場景圖、YouTube封面圖等等。 截至目前,全球超1億件商品被AI優(yōu)化,50萬跨境商家用AI賺到了錢。 阿里國際之所以成績斐然,與團(tuán)隊(duì)過去所攻克的研究難題密不可分。 在多語言方面,為了提升大模型多語言能力,并將其更高效地用實(shí)際任務(wù)中,多語言增強(qiáng)大模型MarcoPolo由此誕生。 并且,實(shí)現(xiàn)了更低成本更優(yōu)效果。 在多模態(tài)方面,多模態(tài)大模型MarcoPolo-VL能夠用「眼睛」精準(zhǔn)識(shí)別,進(jìn)行推薦。 還有團(tuán)隊(duì)最新發(fā)布的多模態(tài)大模型Ovi,直接拿下開源第一。 在ICCV 2023頂會(huì)上,一向低調(diào)的阿里國際AI團(tuán)隊(duì),憑借「視覺-語言算法推理」workshop拔得頭籌。 簡單講,這與當(dāng)下火熱的GPT-4V多模態(tài)生成是同題競賽。 Marco翻譯大模型,大規(guī)模商用 這次,Marco翻譯大模型亮相,進(jìn)一步為語言文化壁壘提供了絕佳的解決方案。 這款A(yù)I翻譯大模型核心聚焦在兩大領(lǐng)域——電子商務(wù)、日常交流。 它將集成到阿里國際旗下眾多跨境電商業(yè)務(wù)平臺(tái),如速賣通、Lazada、Trendyol。 此外,Marco翻譯大模型還將面向全球個(gè)人用戶,真正實(shí)現(xiàn)從專業(yè)商務(wù)到日常生活全覆蓋。 試用傳送門:https://aidc-ai.com/page/translation.htm#tryout 由此可見,阿里國際的AI翻譯大模型有著巨大的商業(yè)化前景。 首先,它與阿里生態(tài)系統(tǒng)深度融合。 阿里國際擁有著天然的3億用戶出海業(yè)務(wù),而且電商足跡遍布全球100+國家/地區(qū),連接著數(shù)百萬商家及數(shù)億消費(fèi)者。 這一龐大的生態(tài)網(wǎng)絡(luò)預(yù)示著,僅在阿里國際內(nèi)部,就擁有服務(wù)廣泛用戶群體和多樣化應(yīng)用場景的廣闊舞臺(tái)。 其次,AI翻譯服務(wù)并不局限于阿里生態(tài)之內(nèi)。 團(tuán)隊(duì)成員們積極向外擴(kuò)展,讓Marco翻譯大模型觸及更廣泛用戶群體、商業(yè)實(shí)體。 因?yàn)椋獠康纳鷳B(tài)才是一個(gè)潛力無窮、規(guī)模驚人的市場空間,尤其是全球新興市場的需求。 阿里國際AI國際在最受歡迎TOP 20使用國中,約半數(shù)未發(fā)展中國家。 那么,全新的AI翻譯大模型也將賦能這些國家的中小企業(yè)(SMEs),幫助它們跨越語言障礙,高效開展全球業(yè)務(wù)。 未來,阿里國際還將持續(xù)投入,擴(kuò)展語向的數(shù)量,提升更多不同場景下的翻譯質(zhì)量。 最重要的是,進(jìn)一步降低用戶的使用成本。 在阿里國際看來,AI+跨境電商只是邁出了第一步,AI之于電商最大的改造,應(yīng)是做到「降本增效」的極致。 向前一步,可以看到AI會(huì)顛覆電商用戶交互、購物形態(tài)。 向后一步,AI將會(huì)重塑整個(gè)電商供應(yīng)鏈,甚至上從根本去改變搜、推、廣的商業(yè)模式。 AI將為跨境電商的未來帶來種種可能,讓我們拭目以待。 參考資料: https://aidc-ai.com/ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選