太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

國產(chǎn)3D虛擬人版《Her》「殺向」迪拜

量子位整合編輯：太平洋科技發(fā)布于：2024-10-21 17:33

好久沒出門，AI產(chǎn)品的世界已經(jīng)快進到這個樣子了？

在全球三大IT展之一的GITEX GLOBAL上，量子位在某個展臺，先后體驗了和Chatbot聊天、用AI創(chuàng)建屬于自己的3D數(shù)字人形象、和3D形象實時語言、肢體互動。

也就是說，《Her》有了3D虛擬人版。

旁邊的展商過來神神秘秘說了句：

看上去是三個功能體驗，但以后，這三個功能在產(chǎn)品里是要合并到一起的。

量子位還沒反應過來，展商又補了一句：

創(chuàng)立這些數(shù)字形象，是希望以后用戶下線后，ta們的數(shù)字形象還能接著在社區(qū)里幫ta們聊天，減少自己聊聊到不合適的好友浪費時間的情況。

啊……這……我……行吧，有了AI，和人聊天都有預制版了。

如果我說這家展商是個中國公司，也許不少朋友立馬能猜出來。

沒錯，它就是Soul。

量子位在現(xiàn)場拉著Soul的工作人員大聊特聊了一番，其中不僅僅有Soul AI某子板塊負責人和他的組員，還被量子位捉到了這家公司的CTO陶明。

△Soul CTO陶明

這么好的機會，那還等什么？體驗完展臺互動，直接再安排庫庫一頓聊。

Gitex展會，Soul它Show了啥？

整個Soul的展位上，主要互動區(qū)擺著三塊體驗屏幕。

面向展位從左至右，分別可以體驗：

左邊屏幕：與自己創(chuàng)建的3D數(shù)字人流暢互動

中間屏幕：創(chuàng)建能語音文本對話、多語言交流的逼真3D數(shù)字人形象

右邊屏幕：和聊天機器人語音或文本聊天

量子位在這個展臺前站了很久，發(fā)現(xiàn)在此駐足的人，更喜歡體驗左邊和中間的兩個功能。

而且大家去Soul展臺體驗，仿佛有一個無形的規(guī)則，那就是選擇先在中間的屏幕前探索Soul的實時3D建模功能。

掰開了講，那就是現(xiàn)場拍一張體驗者的照片，在幾秒鐘的時間內(nèi)，通過分析90多個面部形狀參數(shù)和6個屬性參數(shù)，快速重建虛擬的面部特征，完成虛擬3D形象的生成。

然后，體驗者就可以與3D形象對話了。

但光有語言的交流還不夠——

到這個時候，大家就會（不自覺地）挪到左邊那塊屏幕前面。

屏幕上也是自己創(chuàng)造出的虛擬3D形象�；趯崟r的人體動作識別、數(shù)字還原以及多模態(tài)對話交互能力，現(xiàn)場可以實現(xiàn)3D虛擬人與真人的沉浸式互動。

多沉浸呢？由于配備了實時運動跟蹤，你可以說一些話or擺動身體、四肢，來與屏幕那頭的ta低延遲交互。

值得多提一嘴，得益于Soul自家多模態(tài)AI模型在背后的支持，這兩個屏幕承載的AI體驗，允許語音、文本和物理交互同時進行。

AI社交，場景、模型的認知與感知都很重要

盡管這家公司已經(jīng)推出了Soul海外版，但參加本次Gitex，其實是Soul在海外展會上的第一次亮相，

“從體驗層面來說，海外產(chǎn)品希望給用戶端創(chuàng)造更好的粘性。”Soul CTO陶明解釋道，“主要還是以Soul這個主平臺，來傳遞我們關于AIGC+社交的概念�！�

陶明表示，以他所見，AI+社交這條賽道，無論國內(nèi)外市場，都要有兩個必要條件。

一，是要持續(xù)地繼續(xù)往前發(fā)展。

二，是探索的場景和業(yè)務，其實現(xiàn)在還不是很明朗。

而Soul擁有的，是「人機對話」這個基礎點（或者稱為原子能力）。

在Soul的理念中，因為用戶和業(yè)務之間其實存在鴻溝，所以要做的事不是把原子能力直接推向用戶，而是要建一個AI being和Human being共存的社區(qū)。

單點的聊天會在這個社區(qū)發(fā)生，但是社區(qū)無法靠單點聊天維持，“大模型六小強做的一些AI聊天產(chǎn)品，都有支持單點聊天的能力，但持續(xù)的聊天難以為繼，這就是因為任何AI不在場景里，人機單點聊天其實門檻很高�！�

Soul更希望打造不同的場景（比如語聊房），利用一些規(guī)則和策略，讓人和AI在一起社交，過程難辨真人還是AI。

這里的社交不會局限在聊天這一件事情上，AI NPC和真人用戶共同做同一件事，也很容易構建彼此之間的鏈接。

如陶明所說，Soul的AI+社交理念，最基礎的一點是“必須要保證人和AI在同一時空下”。類似于現(xiàn)實世界和現(xiàn)實世界的仿真，人和人的仿真對AI和人建立聯(lián)系非常重要。

“如果只是單純聊天這件事，不太成立……一定要要發(fā)現(xiàn)場景，才能夠說能讓用戶有更好的體驗。”

這一方面，Soul是怎么基于理念來設計產(chǎn)品的呢？

舉幾個例子。

，在人和人、人和AI的交互過程當中去打造更多的場景。

比如用戶和AI聊天，你發(fā)一張照片讓它知道你感冒了，然后就能圍繞感冒這個話題繼續(xù)對話，而不是非要硬找話題。

，和AI語音通話時，它聽到你周圍的環(huán)境音，判斷你在咖啡館或者音樂派對上，話題也能自然而然地展開了。

這就不難理解為什么Soul在大模型方面堅持GPT-4o的方向，因為團隊認為一個AI，應當具有統(tǒng)一的感知能力和認知能力。

純有認知能力，并不能給用戶帶來價值，因為用戶是希望被感知到的。

而o1的方向同樣重要，因為o1加強了大模型的認知能力，其實就能給用戶帶來很好的體驗。

社交平臺做AI《Her》會有什么不一樣嗎？

在社交平臺這條賽道上，Soul是絕對的頭部梯隊玩家。很多人不知道的是，它也是國內(nèi)最早將AI融入社交互動的平臺之一。

App上線之初，Soul就開始搭建一些AI能力的基礎建設，兩個基于AI的引擎。

一個是靈犀引擎，基于Soul用戶站內(nèi)全場景畫像的智能推薦系統(tǒng)，通過AI技術，持續(xù)挖掘有效特征，通過算法方式提高用戶在內(nèi)容方向的消費和互動體驗，提高用戶建立關系的效率和質量。

另一個是NAWA引擎，為集AI、渲染與圖像處理于一體的集成化SDK，提供AR視頻技術、基于多模態(tài)感知與驅動的交互技術和基于重建的虛擬形象技術，能夠輸出包含Avatar表情驅動、美顏美妝、卡通化等數(shù)十種圖像處理與2D/3D渲染能力的引擎。用它創(chuàng)建的個性化3D頭像表現(xiàn)力更強，還能動起來。

2020年（ChatGPT掀起大浪之前），Soul就開始啟動對AIGC相關的算法研發(fā)工作，并在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。

Soul在多模態(tài)領域發(fā)力很早，2023年Soul就推出自研垂類語言大模型Soul X，垂直應用于平臺上多元社交互動場景。

例如智能對話機器人“AI茍蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什么的。