好久沒出門,AI產(chǎn)品的世界已經(jīng)快進到這個樣子了? 在全球三大IT展之一的GITEX GLOBAL上,量子位在某個展臺,先后體驗了和Chatbot聊天、用AI創(chuàng)建屬于自己的3D數(shù)字人形象、和3D形象實時語言、肢體互動。 也就是說,《Her》有了3D虛擬人版。 旁邊的展商過來神神秘秘說了句:
量子位還沒反應過來,展商又補了一句:
啊……這……我……行吧,有了AI,和人聊天都有預制版了。 如果我說這家展商是個中國公司,也許不少朋友立馬能猜出來。 沒錯,它就是Soul。 量子位在現(xiàn)場拉著Soul的工作人員大聊特聊了一番,其中不僅僅有Soul AI某子板塊負責人和他的組員,還被量子位捉到了這家公司的CTO陶明。 △Soul CTO陶明這么好的機會,那還等什么?體驗完展臺互動,直接再安排庫庫一頓聊。 Gitex展會,Soul它Show了啥? 整個Soul的展位上,主要互動區(qū)擺著三塊體驗屏幕。 面向展位從左至右,分別可以體驗: 左邊屏幕:與自己創(chuàng)建的3D數(shù)字人流暢互動 中間屏幕:創(chuàng)建能語音文本對話、多語言交流的逼真3D數(shù)字人形象 右邊屏幕:和聊天機器人語音或文本聊天 量子位在這個展臺前站了很久,發(fā)現(xiàn)在此駐足的人,更喜歡體驗左邊和中間的兩個功能。 而且大家去Soul展臺體驗,仿佛有一個無形的規(guī)則,那就是選擇先在中間的屏幕前探索Soul的實時3D建模功能。 掰開了講,那就是現(xiàn)場拍一張體驗者的照片,在幾秒鐘的時間內(nèi),通過分析90多個面部形狀參數(shù)和6個屬性參數(shù),快速重建虛擬的面部特征,完成虛擬3D形象的生成。 然后,體驗者就可以與3D形象對話了。 但光有語言的交流還不夠—— 到這個時候,大家就會(不自覺地)挪到左邊那塊屏幕前面。 屏幕上也是自己創(chuàng)造出的虛擬3D形象;趯崟r的人體動作識別、數(shù)字還原以及多模態(tài)對話交互能力,現(xiàn)場可以實現(xiàn)3D虛擬人與真人的沉浸式互動。 多沉浸呢?由于配備了實時運動跟蹤,你可以說一些話or擺動身體、四肢,來與屏幕那頭的ta低延遲交互。 值得多提一嘴,得益于Soul自家多模態(tài)AI模型在背后的支持,這兩個屏幕承載的AI體驗,允許語音、文本和物理交互同時進行。 AI社交,場景、模型的認知與感知都很重要 盡管這家公司已經(jīng)推出了Soul海外版,但參加本次Gitex,其實是Soul在海外展會上的第一次亮相, “從體驗層面來說,海外產(chǎn)品希望給用戶端創(chuàng)造更好的粘性。”Soul CTO陶明解釋道,“主要還是以Soul這個主平臺,來傳遞我們關于AIGC+社交的概念! 陶明表示,以他所見,AI+社交這條賽道,無論國內(nèi)外市場,都要有兩個必要條件。 一,是要持續(xù)地繼續(xù)往前發(fā)展。 二,是探索的場景和業(yè)務,其實現(xiàn)在還不是很明朗。 而Soul擁有的,是「人機對話」這個基礎點(或者稱為原子能力) 。 在Soul的理念中,因為用戶和業(yè)務之間其實存在鴻溝,所以要做的事不是把原子能力直接推向用戶,而是要建一個AI being和Human being共存的社區(qū)。 單點的聊天會在這個社區(qū)發(fā)生,但是社區(qū)無法靠單點聊天維持,“大模型六小強做的一些AI聊天產(chǎn)品,都有支持單點聊天的能力,但持續(xù)的聊天難以為繼,這就是因為任何AI不在場景里,人機單點聊天其實門檻很高! Soul更希望打造不同的場景(比如語聊房),利用一些規(guī)則和策略,讓人和AI在一起社交,過程難辨真人還是AI。 這里的社交不會局限在聊天這一件事情上,AI NPC和真人用戶共同做同一件事,也很容易構建彼此之間的鏈接。 如陶明所說,Soul的AI+社交理念,最基礎的一點是“必須要保證人和AI在同一時空下”。類似于現(xiàn)實世界和現(xiàn)實世界的仿真,人和人的仿真對AI和人建立聯(lián)系非常重要。 “如果只是單純聊天這件事,不太成立……一定要要發(fā)現(xiàn)場景,才能夠說能讓用戶有更好的體驗。” 這一方面,Soul是怎么基于理念來設計產(chǎn)品的呢? 舉幾個例子。 ,在人和人、人和AI的交互過程當中去打造更多的場景。 比如用戶和AI聊天,你發(fā)一張照片讓它知道你感冒了,然后就能圍繞感冒這個話題繼續(xù)對話,而不是非要硬找話題。 ,和AI語音通話時,它聽到你周圍的環(huán)境音,判斷你在咖啡館或者音樂派對上,話題也能自然而然地展開了。 這就不難理解為什么Soul在大模型方面堅持GPT-4o的方向,因為團隊認為一個AI,應當具有統(tǒng)一的感知能力和認知能力。 純有認知能力,并不能給用戶帶來價值,因為用戶是希望被感知到的。 而o1的方向同樣重要,因為o1加強了大模型的認知能力,其實就能給用戶帶來很好的體驗。 社交平臺做AI《Her》會有什么不一樣嗎? 在社交平臺這條賽道上,Soul是絕對的頭部梯隊玩家。很多人不知道的是,它也是國內(nèi)最早將AI融入社交互動的平臺之一。 App上線之初,Soul就開始搭建一些AI能力的基礎建設,兩個基于AI的引擎。 一個是靈犀引擎,基于Soul用戶站內(nèi)全場景畫像的智能推薦系統(tǒng),通過AI技術,持續(xù)挖掘有效特征,通過算法方式提高用戶在內(nèi)容方向的消費和互動體驗,提高用戶建立關系的效率和質量。 另一個是NAWA引擎,為集AI、渲染與圖像處理于一體的集成化SDK,提供AR視頻技術、基于多模態(tài)感知與驅動的交互技術和基于重建的虛擬形象技術,能夠輸出包含Avatar表情驅動、美顏美妝、卡通化等數(shù)十種圖像處理與2D/3D渲染能力的引擎。用它創(chuàng)建的個性化3D頭像表現(xiàn)力更強,還能動起來。 2020年(ChatGPT掀起大浪之前),Soul就開始啟動對AIGC相關的算法研發(fā)工作,并在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。 Soul在多模態(tài)領域發(fā)力很早,2023年Soul就推出自研垂類語言大模型Soul X,垂直應用于平臺上多元社交互動場景。 例如智能對話機器人“AI茍蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什么的。 △在Soul上開啟AI輔助聊天當時的Soul是這么說的:
今年,Soul持續(xù)開搞“AIGC+社交”。 目標很明確: 在有技術能力基礎、有用戶實際需求、認準“模應一體”方向的情況下,推動AIGC和社交場景的深度融合。 Soul推出了最新的端到端多模態(tài)AI模型,該模型集成了文本、語音和視覺交互,具備超低延遲、聲音擬真、情緒感知等特點。 端到端尤其顯著地降低了聊天的延遲。 陶明披露,Soul現(xiàn)在的語音對話延遲不到200毫秒,“這不再像以前那樣是一個連續(xù)的過程,我們首先生成文本和圖像,然后將它們轉換為語音,F(xiàn)在,我們將語音和 NLP 統(tǒng)一到一個集成流程中,從而消除了滯后問題! 而同時期的“數(shù)字孿生”功能,則允許用戶根據(jù)過去的交互或自定義設置,創(chuàng)建自己的個性化虛擬版本。 現(xiàn)在,剛剛在Gitex上秀了一把的Soul,又快宣布自己的新進展了。 陶明表示,預計到了11月,平臺將推出全雙工視頻通話能力, Soul的AI NPC就能“看得見了”。 也就是說,下個月,用戶們就能在Soul里實時和AI的視頻聊天了,對方還是有形象、有表情、有記憶,會對前幾天不經(jīng)意咳嗽過一句的你,說感冒好了沒有的那種。 這就很《Her》! 之前國內(nèi)外很多團隊都發(fā)過各種版本的《Her》,但這次的期待有所不同—— 不是在期待語音是否最逼真、延遲是否最低,口型是否對得最好,而是期待,加入AI元素的社交平臺公司,熟諳搞社交那一套,在這個人機交互的產(chǎn)品/功能上,會不會有特別的設計。 不過時間還沒到,只有先期待一波咯~ 關于Gitex Soul參加的這個海外展會,GITEX GLOBAL全球三大IT展之一,本周五在阿聯(lián)酋迪拜落下帷幕。 這是第44屆GITEX GLOBAL,不出意外創(chuàng)下新高,規(guī)模迄今為止最大: 吸引了超過6500家參展商、1800家初創(chuàng)企業(yè)、1200名投資者以及來自180多個國家的政府參與。 連迪拜王室也組團蒞臨現(xiàn)場視察…… 這陣仗,讓本來就肩膀挨著肩膀的場館現(xiàn)場更是水泄不通了。 盡管如此,量子位還是拿出go shopping的激情,在二十幾個展館里一個挨一個地認真逛。 終于,不僅打卡了很多中國企業(yè)出海來參展的展臺,比如阿里、華為、騰訊、涂鴉智能、普渡機器人等等; 也看到了全球范圍內(nèi)很多AI公司的身影出現(xiàn)在現(xiàn)場,比如英國AI獨角獸Builder.ai(對沒錯,背后微軟支持,但創(chuàng)始人一直官司不斷的那家)、中國的智譜華章等。 當然,如果對電子方面感興趣的朋友們,一定會逛得更快樂,現(xiàn)場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有,還有很多沒太看明白設計(但中東土豪們肯定喜歡)的飛行器。 不簡單啊不簡單。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選