在 OpenAI 融資完之后,Perplexity 也在找錢了:據《華爾街日報》報道,這家一直以來廣受好評的 AI 搜索,希望以 80 億美元的估值,尋求 5 億美元的融資。 雖然自從出道以來,Perplexity 在搜索上一直很領先,但不是沒有與各大出版商鬧矛盾,而且也不是沒有對手,各家都對搜索業(yè)務,都盯得很牢。 真正落實到使用層面,總有一個問題:被 AI 賦能,尤其是被大語言模型賦能之后的搜索,究竟哪里有所不同了? 這篇文章里我們測評了幾個推出了「大升級」了的搜索工具,包括 Perplexity 的 Pro 模式,GPT 的新模型、 Kimi 的探索版,智譜的 AI 搜索,秘塔的深度和研究版。 簡而言之:更廣更多的資料、更深的信息占有量,是毋庸置疑的,但這只是一部分。還可以更有所不同的,是對用戶意圖的理解與感知。 實用性測評:不僅能搜,搜完就能用 如果說 AI 加持后的搜索功能有什么變化,一定是實用性上的提升,得到的信息對解決實際問題更有效了。 以一個操作性非常強的問題為例,「如何在 mac 系統(tǒng)上,批量修改音樂文件封面」。 在百度這樣的傳統(tǒng)搜索引擎上,輸入關鍵字,出現的是一大堆信息的羅列,而且關聯度很低。 Google 的關聯度好一點,但還是需要用戶自己點進去,逐一確認內文究竟說的方法,是不是能用。 從前的搜索引擎,是圍繞關鍵字,搜羅一大堆信息,有相似度,但不多,并且需要用戶自己做第一輪整理。 而大語言模型給搜索注入靈魂之后,重新組織了海量信息,整合成了相關度最高的樣子,返送給用戶——這直接省掉了第一輪整理的過程。比如下面的 ChatGPT,根據方法的類型,總結出了三類。 不過,AI 雖好但不能依賴,比如下面智譜,在「使用 Finder」和「使用 Apple Music」兩個方式下面的細節(jié)步驟,完全是一樣的。 更保險的方法是在幾個 AI 搜索里,同一個問題獲取不同的回答,橫向對比,以免其中一個出現幻覺。 接下來,在操作細節(jié)上進一步詢問,也會提出相應的方法。 Kimi 探索版 相比于 4o 給出的籠統(tǒng)回答,Kimi 給出了更多的細節(jié)——或者說,是在 4o 的基礎上,調整了回答的格式,讓回答更有操作性。 不是每個 AI 搜索都擅長給具體實用的建議,像 Perplexity,就只丟出來可以用的軟件。 實用性還體現在對數據的抓取上,以 Kimi 的演示 prompt 為例「世界上最有錢的 10 個人是誰?他們都是做什么的?」,各家的表現都不太一樣。 其中,注重資料深度的 Perplexity 和 Kimi,都把具體的數字列出來了,Perplexity 更加是直接拉了個表格,每一個詞條都貼出了出處。 涉及到數字的信息,列表格是更清晰的方式。不過 Perplexity 自己的表格,和下面的總結里,排序不太一樣。甚至,這四個 AI 搜索給出的結果排序,都不太一樣——自行核查還是很有必要的。 接下來我嘗試了一個比較有挑戰(zhàn)性的問題,「在準備業(yè)余無線電考試期間,我可以買什么樣的設備熟悉操作?」 一個小小的備注:業(yè)余無線電是需要考證的,在牌照下來前,只能聽不能發(fā)。所以這個問題,暗地里在考驗模型會不會了解到這樣的「隱藏信息」。 秘塔和 Kimi 都直接給出了設備的種類、建議的品牌。其中秘塔還從一些論壇里搜索,整合出了用戶評價。這個做法沿可以擴展到所有比價的場景上。 不過,這幾個 AI 搜索都沒有涉及到是否具備發(fā)射資格的問題,秘塔和智譜提到了要確認設備是否具備發(fā)射核準,但這是針對設備而不是用戶的。Kimi 模糊地提到需要遵守通聯流程和禮儀,比較像是按慣例寫了點安全守則。 「在準備考試期間」已經非常明牌了,這就是還沒有取得牌照的階段。只能說 AI 在真正理解用戶的處境這方面,還是能力有限。 簡單小結一下是:基于大模型的 AI 搜索更有實用性,能夠整合海量信息,提煉出最有效的部分。 資料深度:是搜索就下一百層 在測評實用性的過程中,我發(fā)現 Kimi 隨機提供的一些演示案例里有這樣一個問題:標注三國戰(zhàn)役地點,對應現代城市和地區(qū)。 很自信喔。 三國是中國歷史上非常有趣的一個歷史時期,群雄割據,人物和事件多變。而且正史和野史齊飛,三國演義和三國志傻傻分不清。 更有趣的是,在中文以外的世界也有很多研究對三國感興趣,歐美和日本有不少針對漢代和三國的研究學者,是一個信息存量很豐富的時期。 這樣一個問題,就非常考驗對資料和信息的占有量。 這一次我直接把 ChatGPT 踢出戰(zhàn)局了,因為不提供具體出處,沒辦法判斷它的占有深度。我決定用主打文庫檢索的秘塔代替它的位置。 可以看到中間 Perplexity 和智譜,表現無功無過,都以官渡之戰(zhàn)作為三國的開端來計算,周期大概是公元 200 年到 230 年之間。 而 Kimi 展現出了一些不同的理解:以公元 184 年的黃巾起義為開端,把后漢末尾、三國前夜的幾場戰(zhàn)事都包含了進去。我問了一下為什么這么做,它回答:我不是,我沒有。 而秘塔搜索展示出了完全不一樣的資料占有量。就像上面說,在文庫和深入模式下,它不僅有相關教科書上的研究,囊括了非中文的相關文獻。 可能是時效性還可以提高,這兩年出版的一些新書沒有囊括進去。但是這個資料占有量的廣度和豐富度,已經相當不錯了。 不過秘塔有一個迷惑的 bug:居然翻查了 Kimi 的測評網頁…… AI 生成 AI 搜,閉環(huán)了屬于是。 這個 bug 反而能看出來,AI 搜索再先進,也會有無效網頁,本質上還是基于對 prompt 更細的拆解,切分出更小單位的關鍵詞——至于有沒有后探到關鍵詞所屬的知識領域,那就不一定了。 這是中文資料的檢索。接下來我做了另一個檢索,更偏向于非中文資料:1978 年,哲學與心理學協會舉辦了一場座談會,最后這演變成了幾位哲學家對于 AI 的辯論,其中包括諾姆·喬姆斯基(Noam Chomsky)、杰里·福多(Jerry Fodor)、羅杰·尚克(Roger Schank)和特沃·溫諾格拉德(Terry Winograd)。具體的情況是什么? 四個搜索給出的回答都大同小異:整理了這場辯論的正反方人物、各自的觀點、這場辯論所帶來的影響,等等,算是打了個平手。 不過,考慮到這次主要看的是資料深度,秘塔的表現更好,資料深度很驚艷。 實際上,1978 年的這次辯論沒有太多原始記錄,只有哲學家 Daniel Dennett 的一篇論文中提到了一下。Perplexity 和 Kimi 都需要追問一下,智譜則是在追問環(huán)節(jié)直接卡住了。秘塔第一次就收錄到了這篇論文,放在了引用目錄里,點擊可以直接找到相關的段落。 總結一下,大語言模型對于搜索而言最有意義的是兩點:一,基于語義的用戶理解,提供有操作性的信息。二,跳出關鍵字的圈圈,后探到更深的知識領域。 這兩點說起來容易,做起來很難。兩者當中,都涉及對用戶意圖的理解。 但是了解用戶的意圖,難度堪比讀空氣——打過工的人都知道,這里面的門道有多深。不要說模型對人的意圖理解,就是日常生活中人與人之間、同事與同事之間、同事與領導之間,想要理解彼此的意圖,都要付出溝通成本。 模型想要通過用戶的提問來揣測意圖,前提是提問越清晰越好,然而用戶自己可能也并不百分百清楚自己要的是什么。 相比之下,后者的容錯率更高一點:不知道用戶到底想要什么,那就有什么給什么,資料深度直下一百層,總有一份能擊中目標。這可能也是為什么各家 AI 搜索,在推出 Pro 版、plus 版、深度版等等高級服務時,都主打一個搜索又大又全。 而這場競爭的下一個賽點,可能恰恰在前者,畢竟那涉及到人類對人工智能的終極幻想:想我所想,懂我所懂。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網友評論
聚超值•精選