“缺乏新意”,是主流聲音對(duì)蘋果AI首秀的評(píng)價(jià),蘋果股價(jià)也跌了2%。 一切原因這場(chǎng)發(fā)布會(huì),昨天在WWDC24大會(huì)上,iOS18正式發(fā)布,蘋果智能助手Siri不僅迎來了史詩級(jí)進(jìn)化,首次加入了生成式AI功能,不僅能免費(fèi)調(diào)用ChatGPT了,還能關(guān)聯(lián)GPT-4o。 目前所有最新的AI功能,例如文檔總結(jié)、圖片生成,以及更智能的語音交互,以及跨應(yīng)用進(jìn)行AI操作等等,iOS上都應(yīng)有盡有了。 但大家期待的是蘋果能夠帶來OpenAI級(jí)別的成果,而不是一些交互創(chuàng)新。 可是蘋果選擇的是合作。在iPhone手機(jī)植入了GPT-4o的iOS,在跨應(yīng)用方面的能力,可以說,正是這一能力的出現(xiàn),使得原先手機(jī)上的各大APP形成的信息壁壘,徹底不存在了,這一意義很多人并沒有深刻認(rèn)知。 至此以后,用戶無論是寫郵件,還是回復(fù)短消息,都能通過一個(gè)簡(jiǎn)單的AI指令一氣呵成。 例如,要是想把某張照片,添加到備忘錄里,只需對(duì)Srir說出相應(yīng)的指令,所有的操作就能直接一步到位地完成,而無需在相冊(cè)、備忘錄之間切換。 更重要的是,在進(jìn)行跨應(yīng)用操作時(shí),蘋果AI還能“因時(shí)制宜”,通過感知屏幕顯示內(nèi)容,理解不同情境,進(jìn)行針對(duì)性操作。 例如,在消息多得看不過來時(shí),AI就會(huì)根據(jù)消息內(nèi)容,優(yōu)先將最重要、最緊急的那條排在前面。 凡此種種,大極大地提升了iOS將來的智能性。 而至于本次大會(huì)的其他內(nèi)容,鑒于相關(guān)的文章已經(jīng)在鋪天蓋地地報(bào)道,在此便不再贅述。 今天我們想重點(diǎn)聊的是,為何對(duì)于現(xiàn)階段的大模型來說,與蘋果的結(jié)合,是打破自身局限性,并解決交互痛點(diǎn)的關(guān)鍵。 手機(jī)交互層面的兩大痛點(diǎn) 自從2023年年初,生成式AI的浪潮興起以來,各路大模型,都始終存在著兩個(gè)看似不起眼,但實(shí)則很影響體驗(yàn)的痛點(diǎn)。 而第一個(gè)痛點(diǎn),正是目前大模型的交互方式。 因?yàn)楫?dāng)前大部分的大模型用戶,仍在用一種頗為低效的方式,在與大模型進(jìn)行交互——敲擊鍵盤,逐字逐字地打出相應(yīng)的提示詞。 這種交互方式,有時(shí)候真的很反人性,很不流暢。 記得在某個(gè)周五的下午,我忙完了一天的工作,躺在椅子上,想和某個(gè)大模型探討下一個(gè)存疑已久的問題。 然而,打開了頁面許久,我卻遲遲沒有敲下一個(gè)字,原因是那天我太累了,而要問的那個(gè)問題又有點(diǎn)復(fù)雜,這勢(shì)必免不了要打一長串提示詞。 在PC端,用戶往往只能通過打字與模型交流。 在大模型的用戶,或者說潛在用戶中,有多少人是被類似的原因給勸退了呢? 誠然,目前的某些大模型,雖然也在其APP上開放了語音功能,并且用戶自己也可以通過語音輸入法來彌補(bǔ)這一痛點(diǎn)。但直到iOS結(jié)合ChatGPT-4o才真正解決這一痛點(diǎn),Siri能識(shí)別情緒,連續(xù)對(duì)話,執(zhí)行任務(wù)。 特別受女性用戶青睞的一項(xiàng)新功能,Siri現(xiàn)在能夠直接控制iPhone進(jìn)行圖片編輯,簡(jiǎn)化了圖片處理流程。 另外,目前手機(jī)系統(tǒng)存在的一大問題,在于由于當(dāng)前較為單一的交互形式,當(dāng)用戶試圖將模型的能力應(yīng)用在不同的軟件、場(chǎng)景時(shí),用戶只能每次都很辛苦地在不同軟件間切換,并將大量的內(nèi)容,一步步地轉(zhuǎn)化成輸入框里的信息(文字、圖片),才能與之進(jìn)行交互。 不同App之間信息不流通,此為大模型當(dāng)前的第二大痛點(diǎn)。 例如,在你在淘寶上看到了個(gè)想買的東西,拿不準(zhǔn)要不要買,想請(qǐng)AI來判斷下,這時(shí)你就得把整個(gè)網(wǎng)頁的內(nèi)容、描述,以及相應(yīng)的商品截圖全都辛苦地保存下來,再一步步上傳給模型看。 這樣的體驗(yàn)實(shí)在復(fù)雜,且不通人性。 正是由于上述痛點(diǎn)的存在,當(dāng)前的大模型,只能成為一種在正式的工作場(chǎng)合才會(huì)被經(jīng)常用到,且主要服務(wù)于部分高知群體的技術(shù)。 據(jù)Quest Mobile報(bào)告,在中國12.32億互聯(lián)網(wǎng)用戶中,只有數(shù)百萬活躍在AI頭部產(chǎn)品上。研究同樣顯示,只有約50%的受訪者聽說過ChatGPT等AI工具,而每天使用這些工具的人更是寥寥無幾。 這樣的情況,全世界都好不到哪去,日本僅有1%,美國稍多一些,有7%。 牛津大學(xué)和路透社的一項(xiàng)新研究,對(duì)六個(gè)國家的約 12,000 人進(jìn)行了有關(guān)人工智能的調(diào)查,結(jié)果20% 至 30% 的受訪者表示他們從未聽說過 ChatGPT 或 Copilot 這些AI工具。 那么,蘋果的這次AI大更新,究竟將怎樣解決這一痛點(diǎn)呢? AI手機(jī)帶來的第二次交互革命 從這次發(fā)布會(huì)的內(nèi)容來看,新版的Siri,由于融入了GPT-4o的能力,在進(jìn)行語音交互時(shí),直戳到了上述的痛點(diǎn)。 能夠理解模糊指令和上下文; 主動(dòng)理解不同應(yīng)用的情境。 這就意味著,首先,用戶在進(jìn)行語音交互時(shí),有時(shí)不必把話說得特別“明白”,或者有時(shí)對(duì)話稍微停頓了一下,AI也能理解相應(yīng)的內(nèi)容。 例如,倘若用戶之前查詢了某地的天氣情況,即使之后中斷了片刻,之后再次進(jìn)行交互時(shí),只需提及一個(gè)較為模糊的“那里”,AI就能知道此處的“那里”正是剛才提到的地點(diǎn)。 這就意味著,此后用戶只需用很少的輸出,就能得到準(zhǔn)確的結(jié)果。 而這樣的輸出—結(jié)果交換比,是在網(wǎng)頁端通過打字進(jìn)行交互的大模型,很難帶來的一種體驗(yàn)。 此外,除了交互更省事之外,要想讓模型更通人性,更準(zhǔn)確理解不同的情境,換句話說,就是AI得知我現(xiàn)在用APP在干嘛。 而這一點(diǎn),考驗(yàn)的正是AI在系統(tǒng)層面的跨應(yīng)用能力。 像是將證件上的號(hào)碼填進(jìn)表格這種操作,就是一個(gè)十分考驗(yàn)跨應(yīng)用能力和情境理解的例子。 過去,要完成這樣的操作,首先得打開相冊(cè),找到相應(yīng)的證件照,掃描好相應(yīng)的文字,再打開備忘錄,把掃描好的內(nèi)容復(fù)制進(jìn)去,最后再打開要填寫表格的APP,一條條將信息填寫進(jìn)去, 每填寫一欄,就要切一次APP,過程十分繁瑣。 要是換成了AI來干這事,通過識(shí)別特定的屏幕內(nèi)容,AI就能知道這是一個(gè)需要填寫表格的頁面,于是就會(huì)自動(dòng)地提取證件上的號(hào)碼,準(zhǔn)確地填到相應(yīng)的欄位。 這樣的操作,給用戶體驗(yàn)上的提升實(shí)在太大了。 一個(gè)搞笑視頻顯示,你利用Sri定時(shí)了明早7點(diǎn)的鬧鐘,他看了你的備忘錄,你要晨練,要咖啡,要讀書,于是建議你定在更早的4點(diǎn)半。而當(dāng)你前一天晚10點(diǎn)還在玩手機(jī),他會(huì)提醒你該休息了,“根據(jù)你的計(jì)劃,你明早還要晨練! 能管你別刷短視頻的AI手機(jī),有沒有很有趣? 在此之前,很多人一直質(zhì)疑,手機(jī)AI存在的意義和必要性是什么。畢竟,現(xiàn)在的很多大模型,都推出了各自的手機(jī)APP。 如果需求能在大模型APP上完成,何必將AI整合進(jìn)系統(tǒng)里? 而這種跨應(yīng)用的繁瑣操作,則恰恰印證了一個(gè)系統(tǒng)級(jí)別的AI的意義。因?yàn)槲ㄓ幸粋(gè)根植于系統(tǒng)中的AI,才能無縫地進(jìn)行不同APP的協(xié)同操作。 總結(jié)下就是,這種高度優(yōu)化的輸出—結(jié)果交換比,以跨應(yīng)用的便捷交互體驗(yàn),正是將來的大模型進(jìn)一步“破圈”、落地的關(guān)鍵。 必要的“錯(cuò)位” ,蘋果仍處最佳位置 發(fā)布會(huì)之前,很多人都說,蘋果這次的AI即使再怎么牛逼,本質(zhì)上還是要靠OpenAI的技術(shù),既然最關(guān)鍵的AI技術(shù)都要受制于人了,就算能力再強(qiáng),又有什么值得吹的? 但實(shí)際上,放眼整個(gè)行業(yè)來看,這種特殊的“錯(cuò)位”,其實(shí)某種程度上,是技術(shù)和時(shí)代發(fā)展的必然性所致。 這種必然性就是:原先主要搞硬件,做手機(jī)的廠商,遇到新的生成式AI,目前沒一個(gè)真正做得好的。這主要是其業(yè)務(wù)方向和商業(yè)模式所致。 即使目前某些國產(chǎn)大模型推出了自研大模型,但就其生成效果來看,與云端大模型相比,實(shí)在不忍直視。 對(duì)于這些傳統(tǒng)手機(jī)廠商來說,在此前很長一段時(shí)間里,真正能對(duì)其產(chǎn)品進(jìn)行賦能的,是某些專用性較強(qiáng)的傳統(tǒng)AI,如攝影、面部識(shí)別之類的AI等等。 而專注于模型研發(fā)的AI企業(yè),例如OpenAI,本質(zhì)上定位更接近于一個(gè)軟件開發(fā)公司,本身并不具備硬件的載體。 于是,這種一方缺模型,一方缺硬件的錯(cuò)位現(xiàn)象,就造成了一種特殊的“真空地帶”。這種“真空地帶”就是:專注于云端大模型的AI公司,很少會(huì)針對(duì)AI交互進(jìn)行優(yōu)化,而有AI交互需求的手機(jī)廠商,又難以推出性能足夠強(qiáng)大的模型。 于是,在很長的一段時(shí)間,用戶只能忍受十分低效的交互方式——在鍵盤上一個(gè)一個(gè)字地敲出相應(yīng)的提示詞。 并且由于模型交互形式的局限性,這種發(fā)生在網(wǎng)頁端的交互,往往很難實(shí)現(xiàn)跨應(yīng)用的協(xié)同。 因此就現(xiàn)階段來說,掌握了云端大模型技術(shù)的AI企業(yè),與手機(jī)廠商進(jìn)行聯(lián)合,對(duì)用戶而言,是一種技術(shù)上的最優(yōu)解。 而國內(nèi)的手機(jī)廠商,將來要在手機(jī)AI方面有大的進(jìn)展,大概率也只能走這條路,但都基于安卓的底層,誰也無法真正系統(tǒng)級(jí)融合AI。 畢竟,從術(shù)業(yè)有專攻的角度來說,專業(yè)的AI企業(yè),無疑有著更成熟和先進(jìn)的模型架構(gòu),并且就使用場(chǎng)景而言,真正具有很強(qiáng)的“即時(shí)性”,必須直接依靠端側(cè)模型來完成的操作,也并不是那么的廣泛。 在這種情況下,性能更強(qiáng)大的云端模型,無疑更容易得到用戶的歡迎。 從長遠(yuǎn)來看,即使這次蘋果在AI上的更新,未能像預(yù)期的那樣引發(fā)新一輪的換機(jī)潮,但用戶畢竟看到了一種更人性化,更舒適的AI交互體驗(yàn)。 在這樣的體驗(yàn)下,用戶是否還愿意回頭忍受目前手機(jī)UI遲緩的交互方式? 如果不愿,這或許會(huì)倒逼著目前的AI企業(yè),在交互方式上引發(fā)一輪新的革命,而這或許正是AI逐漸破圈的開始。 本文來源:AI鯨選社 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選