太平洋科技要聞

打通APP墻，才是蘋果AI首秀的最大創(chuàng)舉！

AI鯨選社整合編輯：太平洋科技發(fā)布于：2024-06-12 16:46

“缺乏新意”，是主流聲音對(duì)蘋果AI首秀的評(píng)價(jià)，蘋果股價(jià)也跌了2%。

一切原因這場(chǎng)發(fā)布會(huì)，昨天在WWDC24大會(huì)上，iOS18正式發(fā)布，蘋果智能助手Siri不僅迎來了史詩級(jí)進(jìn)化，首次加入了生成式AI功能，不僅能免費(fèi)調(diào)用ChatGPT了，還能關(guān)聯(lián)GPT-4o。

目前所有最新的AI功能，例如文檔總結(jié)、圖片生成，以及更智能的語音交互，以及跨應(yīng)用進(jìn)行AI操作等等，iOS上都應(yīng)有盡有了。

但大家期待的是蘋果能夠帶來OpenAI級(jí)別的成果，而不是一些交互創(chuàng)新。

可是蘋果選擇的是合作。在iPhone手機(jī)植入了GPT-4o的iOS，在跨應(yīng)用方面的能力，可以說，正是這一能力的出現(xiàn)，使得原先手機(jī)上的各大APP形成的信息壁壘，徹底不存在了，這一意義很多人并沒有深刻認(rèn)知。

至此以后，用戶無論是寫郵件，還是回復(fù)短消息，都能通過一個(gè)簡(jiǎn)單的AI指令一氣呵成。

例如，要是想把某張照片，添加到備忘錄里，只需對(duì)Srir說出相應(yīng)的指令，所有的操作就能直接一步到位地完成，而無需在相冊(cè)、備忘錄之間切換。

更重要的是，在進(jìn)行跨應(yīng)用操作時(shí)，蘋果AI還能“因時(shí)制宜”，通過感知屏幕顯示內(nèi)容，理解不同情境，進(jìn)行針對(duì)性操作。

例如，在消息多得看不過來時(shí)，AI就會(huì)根據(jù)消息內(nèi)容，優(yōu)先將最重要、最緊急的那條排在前面。

凡此種種，大極大地提升了iOS將來的智能性。

而至于本次大會(huì)的其他內(nèi)容，鑒于相關(guān)的文章已經(jīng)在鋪天蓋地地報(bào)道，在此便不再贅述。

今天我們想重點(diǎn)聊的是，為何對(duì)于現(xiàn)階段的大模型來說，與蘋果的結(jié)合，是打破自身局限性，并解決交互痛點(diǎn)的關(guān)鍵。

手機(jī)交互層面的兩大痛點(diǎn)

自從2023年年初，生成式AI的浪潮興起以來，各路大模型，都始終存在著兩個(gè)看似不起眼，但實(shí)則很影響體驗(yàn)的痛點(diǎn)。

而第一個(gè)痛點(diǎn)，正是目前大模型的交互方式。

因?yàn)楫?dāng)前大部分的大模型用戶，仍在用一種頗為低效的方式，在與大模型進(jìn)行交互——敲擊鍵盤，逐字逐字地打出相應(yīng)的提示詞。

這種交互方式，有時(shí)候真的很反人性，很不流暢。

記得在某個(gè)周五的下午，我忙完了一天的工作，躺在椅子上，想和某個(gè)大模型探討下一個(gè)存疑已久的問題。

然而，打開了頁面許久，我卻遲遲沒有敲下一個(gè)字，原因是那天我太累了，而要問的那個(gè)問題又有點(diǎn)復(fù)雜，這勢(shì)必免不了要打一長串提示詞。

在PC端，用戶往往只能通過打字與模型交流。

在大模型的用戶，或者說潛在用戶中，有多少人是被類似的原因給勸退了呢？

誠然，目前的某些大模型，雖然也在其APP上開放了語音功能，并且用戶自己也可以通過語音輸入法來彌補(bǔ)這一痛點(diǎn)。但直到iOS結(jié)合ChatGPT-4o才真正解決這一痛點(diǎn)，Siri能識(shí)別情緒，連續(xù)對(duì)話，執(zhí)行任務(wù)。

特別受女性用戶青睞的一項(xiàng)新功能，Siri現(xiàn)在能夠直接控制iPhone進(jìn)行圖片編輯，簡(jiǎn)化了圖片處理流程。

另外，目前手機(jī)系統(tǒng)存在的一大問題，在于由于當(dāng)前較為單一的交互形式，當(dāng)用戶試圖將模型的能力應(yīng)用在不同的軟件、場(chǎng)景時(shí)，用戶只能每次都很辛苦地在不同軟件間切換，并將大量的內(nèi)容，一步步地轉(zhuǎn)化成輸入框里的信息（文字、圖片），才能與之進(jìn)行交互。

不同App之間信息不流通，此為大模型當(dāng)前的第二大痛點(diǎn)。

例如，在你在淘寶上看到了個(gè)想買的東西，拿不準(zhǔn)要不要買，想請(qǐng)AI來判斷下，這時(shí)你就得把整個(gè)網(wǎng)頁的內(nèi)容、描述，以及相應(yīng)的商品截圖全都辛苦地保存下來，再一步步上傳給模型看。

這樣的體驗(yàn)實(shí)在復(fù)雜，且不通人性。

正是由于上述痛點(diǎn)的存在，當(dāng)前的大模型，只能成為一種在正式的工作場(chǎng)合才會(huì)被經(jīng)常用到，且主要服務(wù)于部分高知群體的技術(shù)。

據(jù)Quest Mobile報(bào)告，在中國12.32億互聯(lián)網(wǎng)用戶中，只有數(shù)百萬活躍在AI頭部產(chǎn)品上。研究同樣顯示，只有約50%的受訪者聽說過ChatGPT等AI工具，而每天使用這些工具的人更是寥寥無幾。

這樣的情況，全世界都好不到哪去，日本僅有1%，美國稍多一些，有7%。

牛津大學(xué)和路透社的一項(xiàng)新研究，對(duì)六個(gè)國家的約 12,000 人進(jìn)行了有關(guān)人工智能的調(diào)查，結(jié)果20% 至 30% 的受訪者表示他們從未聽說過 ChatGPT 或 Copilot 這些AI工具。

那么，蘋果的這次AI大更新，究竟將怎樣解決這一痛點(diǎn)呢？

AI手機(jī)帶來的第二次交互革命

從這次發(fā)布會(huì)的內(nèi)容來看，新版的Siri，由于融入了GPT-4o的能力，在進(jìn)行語音交互時(shí)，直戳到了上述的痛點(diǎn)。

能夠理解模糊指令和上下文；

主動(dòng)理解不同應(yīng)用的情境。

這就意味著，首先，用戶在進(jìn)行語音交互時(shí)，有時(shí)不必把話說得特別“明白”，或者有時(shí)對(duì)話稍微停頓了一下，AI也能理解相應(yīng)的內(nèi)容。

例如，倘若用戶之前查詢了某地的天氣情況，即使之后中斷了片刻，之后再次進(jìn)行交互時(shí)，只需提及一個(gè)較為模糊的“那里”，AI就能知道此處的“那里”正是剛才提到的地點(diǎn)。

這就意味著，此后用戶只需用很少的輸出，就能得到準(zhǔn)確的結(jié)果。

而這樣的輸出—結(jié)果交換比，是在網(wǎng)頁端通過打字進(jìn)行交互的大模型，很難帶來的一種體驗(yàn)。

此外，除了交互更省事之外，要想讓模型更通人性，更準(zhǔn)確理解不同的情境，換句話說，就是AI得知我現(xiàn)在用APP在干嘛。

而這一點(diǎn)，考驗(yàn)的正是AI在系統(tǒng)層面的跨應(yīng)用能力。

像是將證件上的號(hào)碼填進(jìn)表格這種操作，就是一個(gè)十分考驗(yàn)跨應(yīng)用能力和情境理解的例子。

過去，要完成這樣的操作，首先得打開相冊(cè)，找到相應(yīng)的證件照，掃描好相應(yīng)的文字，再打開備忘錄，把掃描好的內(nèi)容復(fù)制進(jìn)去，最后再打開要填寫表格的APP，一條條將信息填寫進(jìn)去，

每填寫一欄，就要切一次APP，過程十分繁瑣。

要是換成了AI來干這事，通過識(shí)別特定的屏幕內(nèi)容，AI就能知道這是一個(gè)需要填寫表格的頁面，于是就會(huì)自動(dòng)地提取證件上的號(hào)碼，準(zhǔn)確地填到相應(yīng)的欄位。

這樣的操作，給用戶體驗(yàn)上的提升實(shí)在太大了。

一個(gè)搞笑視頻顯示，你利用Sri定時(shí)了明早7點(diǎn)的鬧鐘，他看了你的備忘錄，你要晨練，要咖啡，要讀書，于是建議你定在更早的4點(diǎn)半。而當(dāng)你前一天晚10點(diǎn)還在玩手機(jī)，他會(huì)提醒你該休息了，“根據(jù)你的計(jì)劃，你明早還要晨練�！�

能管你別刷短視頻的AI手機(jī)，有沒有很有趣？

在此之前，很多人一直質(zhì)疑，手機(jī)AI存在的意義和必要性是什么。畢竟，現(xiàn)在的很多大模型，都推出了各自的手機(jī)APP。

如果需求能在大模型APP上完成，何必將AI整合進(jìn)系統(tǒng)里？

而這種跨應(yīng)用的繁瑣操作，則恰恰印證了一個(gè)系統(tǒng)級(jí)別的AI的意義。因?yàn)槲ㄓ幸粋€(gè)根植于系統(tǒng)中的AI，才能無縫地進(jìn)行不同APP的協(xié)同操作。

總結(jié)下就是，這種高度優(yōu)化的輸出—結(jié)果交換比，以跨應(yīng)用的便捷交互體驗(yàn)，正是將來的大模型進(jìn)一步“破圈”、落地的關(guān)鍵。

必要的“錯(cuò)位” ，蘋果仍處最佳位置

發(fā)布會(huì)之前，很多人都說，蘋果這次的AI即使再怎么牛逼，本質(zhì)上還是要靠OpenAI的技術(shù)，既然最關(guān)鍵的AI技術(shù)都要受制于人了，就算能力再強(qiáng)，又有什么值得吹的？

但實(shí)際上，放眼整個(gè)行業(yè)來看，這種特殊的“錯(cuò)位”，其實(shí)某種程度上，是技術(shù)和時(shí)代發(fā)展的必然性所致。

這種必然性就是：原先主要搞硬件，做手機(jī)的廠商，遇到新的生成式AI，目前沒一個(gè)真正做得好的。這主要是其業(yè)務(wù)方向和商業(yè)模式所致。

即使目前某些國產(chǎn)大模型推出了自研大模型，但就其生成效果來看，與云端大模型相比，實(shí)在不忍直視。

對(duì)于這些傳統(tǒng)手機(jī)廠商來說，在此前很長一段時(shí)間里，真正能對(duì)其產(chǎn)品進(jìn)行賦能的，是某些專用性較強(qiáng)的傳統(tǒng)AI，如攝影、面部識(shí)別之類的AI等等。

而專注于模型研發(fā)的AI企業(yè)，例如OpenAI，本質(zhì)上定位更接近于一個(gè)軟件開發(fā)公司，本身并不具備硬件的載體。