OpenAI o1 發(fā)布到現(xiàn)在,都快一個月了,但它給 AI 圈帶來的震撼和影響,其實才剛剛開始。 反正圈內(nèi)的不少大佬,直接就給 o1 來了一頓猛猛夸。大模型拆解用戶提問的能力,還有深度思考的能力,已經(jīng)成了大伙們卷的一個新方向。 但與此同時,就像在等《 黑神話 · 悟空 》發(fā)售一樣,不少網(wǎng)友也和差評君一樣猴急,盼著國內(nèi)的大模型們,何時能有類似的產(chǎn)品出現(xiàn)。 也有差友在公眾號后臺,一直私信,表示自個都被 o1 釣成翹嘴了,現(xiàn)在是吃不飽、睡不香,只想在國內(nèi)也用到類似深度思考的功能。 然而這一次,差評君發(fā)現(xiàn)還真有人給整出來了。。。 它便是年初,才剛掀起圈內(nèi)長文本競賽的 Kimi ,而這次他們發(fā)布的 Kimi 探索版,可以模擬人類的推理思考過程,自主分解復雜問題進行深度搜索,還加上了即時反思的功能,幫助用戶完成分析調(diào)研。 更重要的,這次探索版,搜索量達到了普通版的 10 倍,一次搜索甚至可以精讀 500 個頁面。 翻譯一下,以前我們向 AI 提出復雜的提問,得在腦子里把預想的問題人為拆一下,讓 AI 一個一個答。而現(xiàn)在,不僅解放了雙手,還可以一次窮盡更多信源,只需想好問題, Kimi 就會像個分析師一樣來為你服務。 難怪產(chǎn)品負責人說, “ 如果 Kimi 搜不到的信息,大概率用戶也很難自己通過傳統(tǒng)搜索引擎找到答案 ” 。 今天一大早, Kimi 探索版在 PC 端開始了灰度測試,據(jù)說手機端很快就會上。 結果,用戶的火爆很快把 “ Kimi 崩了 ” 送上熱搜。 官方也很快發(fā)了致歉公告,并預告一下大概在周一,探索版的功能就會全量開放。 先給前段時間斷了網(wǎng)的差友們,用幾句話簡單介紹一下 Kimi 的來頭。 這么說吧,差評君愿意把它稱之為國產(chǎn)大模型的一束光,光是在 PC 網(wǎng)頁端,今年以來 Kimi 的月訪問量就從 140 多萬漲到 2400 多萬,增長了 1670 % 。 爆火到他們服務器一度宕機。資本市場,甚至還炒作起了 Kimi 概念股。。。 這次發(fā)布的 Kimi 探索版,某些方面其實和 OpenAI o1 有點類似,那就是會解難題、懂思考了,但差評君覺得,它和 o1 還是有不少差異的。其中最大的不同,便是在使用場景上。 OpenAI o1 主打的,是能回答博士級別的問題,解比如物理、數(shù)學、生物上的難題等等。不過也因為這兒,差評君當時在用上 o1 的第一時間,其實憋了好幾個題目沒敢問。 畢竟 Preview 版本一周只能提問 40 個問題,我生怕問得簡單了,配不上博士級別的模型,浪費了額度。。。 好在差評君靠人脈,找來了好幾位博士,和他們聯(lián)手和砍拿下三雙給 o1 上了一波壓力。當然,最后博士們對 o1 的評價,也是相當高。 而這次 Kimi ,則選擇了另外一條更實用、更接地氣的道路,那就是把思考和拆解問題的勁兒,聚焦在是和咱們普通人更近的生產(chǎn)力場景上,尤其是大學生、上班族們常干的調(diào)研分析類任務。 在體驗了一番之后,我的評價是,如果 AI 也有 MBTI 的話:那它活脫脫就是一個思維和計劃縝密 & 執(zhí)行力強的 J 人。 首先,差評君發(fā)現(xiàn), Kimi 探索版在解答問題時,真就和人思考時一個樣。 它會拆解長難提問,自己規(guī)劃解答思路,最后分步驟并執(zhí)行任務。 就比如說國慶假期一過,在座的各位巴菲特們,估計股票賬戶里都是一片紅。 差評君給 Kimi 探索版的第一題便是:如果我們在 5 年前,分別花了 10 萬人民幣,買入了比亞迪股票、茅臺股票、還有黃金,現(xiàn)在它們分別價值多少? 說實話,這題對咱們普通碳基生物而言,其實并不復雜,主要就是步驟有點多,得花個小幾分鐘才能算清楚。 而 Kimi 探索版把差評君的問題,成功拆解成了三步:先分別查 5 年前的價格,再查當天的價格,最后計算并制表。 Kimi 也是三下五除二,在一分鐘不到的時間內(nèi),一步步得出了結果。 差評君也才知道,《 只 》要在 5 年前買入 10 萬人民幣的比亞迪股票,這會兒已經(jīng)價值 70 多萬了。 其實類似的問題,差評君其實也甩個隔壁的 Perplexity 試了試。。。但且不說表格沒畫清楚了,它抓取的五年前的股票和黃金價格,相比實際價格都偏差了不少。 它的表現(xiàn),我只能說 not even wrong 。 大概清楚了 Kimi 探索版能力的深淺之后,差評君也立馬給 Kimi 上了一波難度。 說實話,出去玩兒的時候,攻略往往是最燒腦和最讓人頭疼的了。 于是我的第二問便是:幫我查詢 9 月北京環(huán)球影城各個游樂項目,在一天不同時段的平均排隊時長,列出表格,再根據(jù)這個設計一條耗費排隊時間最少的游玩路線。 光是看到這個題面,我就感覺自個兒的頭發(fā)在不停地掉。。。 Kimi 則依舊穩(wěn)如老狗,給出了搜游樂項目、搜索平均排隊時長、設計路線這三步走的思考過程,并在閱讀了 53 個網(wǎng)頁后,按步驟來了一波解題。 最后的結果,也還真是井井有條。 相同的問題,差評君也在其他幾款主流的 AI 助手里試了試,而我看到最多的兩個字,卻是 “ 抱歉 ” 。。。 隨后,我也趁熱打鐵,給 Kimi 整上了網(wǎng)上那些讓人抓狂的咨詢機構面試題。 其實這類題目,往往都沒有絕對的正確答案,它們考察的就是應聘者臨場的邏輯思維、數(shù)據(jù)分析、問題解決和溝通表達能力。 大伙們也可以看一看 Kimi 的回答,能不能讓在座的各位面試官們信服。 問題:中國 2023 年的社會用電總量如果都用太陽能發(fā)電,需要多少平米的太陽能板,面積相當于幾個足球場? 問題:如果所有鋼琴都定期調(diào)律,估算一下北京需要多少名全職的鋼琴調(diào)律師? 除了拆解和解決問題的能力,差評君還發(fā)現(xiàn), Kimi 探索版在信息的大量收集方面,簡直就是啟動了 V8 引擎,突出的就是一個馬力十足,能一次搜索幾十個關鍵詞,閱讀幾百個網(wǎng)頁。 就比如說,諾貝爾獎正在陸續(xù)頒獎中,如果讓一個普通的碳基生物,匯總一下近十年所有諾貝爾物理學獎得主的姓名、生卒年月、還有國籍,并且統(tǒng)計出他們的平均獲獎年齡。 反正看到這活兒,差評腦袋里已經(jīng)出現(xiàn)瀏覽器被幾十上百個網(wǎng)頁塞滿、電腦開始卡頓的畫面了。 而同樣的問題交給 Kimi ,在短短不到 1 分鐘的時間內(nèi), AI 一次性搜索了幾十個諾貝爾獎得主的信息,并且閱讀了 200 多個網(wǎng)頁,從中匯總出來咱們想要的信息。 最后 Kimi 也是沉著冷靜,給出了計算結果:近十年諾貝爾物理學獎得主的平均得獎年齡,在 75 歲前后。 而 “ 在 2024 年《 財富 》中國科技 50 強企業(yè)中,哪些公司的總部在北京? ” 這個問題中,差評還發(fā)現(xiàn)了個有趣的現(xiàn)象,那就是 Kimi 正答著題目呢,自個兒就開始反思了。。。 在反思一番后,又補充上了兩個答案。 要是差評君當年高考時,也這么嚴謹?shù)仳炈悖@會兒應該不是個律師就是個醫(yī)生了吧。 另外差評君覺得,其實很多時候,咱們還有很多模糊搜索的需求。 特別是熬夜看球、通宵打游戲了之后,經(jīng)常記性不太好,常常連問題本身都記不太清了。。。 就比如前段時間,差評君想找個數(shù)學家的資料,但他的名字感覺就在我嘴邊,但卻死活想不出具體名字。只依稀記得了幾個特征,那就是:屬于歐洲的一個家族,哥哥、弟弟、父親都是數(shù)學家,他們互相之間還嫉妒彼此。 結果 Kimi 立馬就成功發(fā)現(xiàn),我要找的是數(shù)學家伯努利,還順帶把他們的 “ 族譜 ” 的都列出來了。 同樣 Kimi 也在答題時,也進入了反思和補充環(huán)節(jié),給回答又加了億點點細節(jié)。 提問:歐洲有一個家族,哥哥、弟弟、爸爸都是數(shù)學家,他們互相之間還嫉妒彼此,這個家族叫啥名字?展示一下他們各自的成就。 包括有時候記不起具體的公司名,咱只要還記得一些故事和細節(jié),也能順暢地搜索。 問題:上個世紀有個硅谷公司,做過類似 iPhone 的產(chǎn)品,這個公司叫什么,這個公司的早期員工后來參與了哪些重要公司的創(chuàng)立。 總的來說,綜合體驗一波 Kimi 探索版后,差評君覺得 AI 幫助用戶解決的問題范圍,有了指數(shù)級擴展,真的多了一位可以幫著快速收集、調(diào)研和分析的私人助理。對傳統(tǒng)搜索來說,也是一種顛覆。 說實話,從年初 Kimi 掀起的長文本競賽,咱就不難看出,其實除了那些 Benchmark 分數(shù)、排行榜,普通用戶最在意的,還是大模型到底能給大伙們解決怎樣的痛點。 畢竟有了真正好用的工具,才好在發(fā)現(xiàn)和創(chuàng)造過程中,探索更大的世界。 所以 Kimi 探索版,真的讓我回不去了。 本文來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選