首頁(yè) > 科技要聞 > 科技> 正文

谷歌回?fù)鬙penAI:發(fā)布AI全家桶,搜索大變身,Project Astra劍指GPT-4o

網(wǎng)易科技 整合編輯:龔震 發(fā)布于:2024-05-15 09:38

眼看著OpenAI各種搶鏡,喊了十年“AI為先”的老大哥Google再也坐不住了。   

想要蓋過(guò)谷歌風(fēng)頭,OpenAI的GPT-4o有沒(méi)有如愿,我們找找答案。

谷歌和Alphabet首席執(zhí)行官桑達(dá)爾·皮查伊公布,有超過(guò) 150 萬(wàn)開(kāi)發(fā)人員在使用 Gemini 模型,有20億用戶在使用Gemini,在短短三個(gè)月內(nèi),已有超過(guò) 100 萬(wàn)人注冊(cè)試用。

他振臂高呼,我們正處于雙子座(Gemini)時(shí)代,人工智能為先的戰(zhàn)略正在開(kāi)花結(jié)果,然后花了長(zhǎng)達(dá)兩個(gè)多小時(shí),手把手教開(kāi)發(fā)者使用Gemini。

谷歌說(shuō)我們使命是讓AI對(duì)每個(gè)人都有幫助,基于這個(gè)目標(biāo),再圍繞Gemini,剛剛過(guò)去的這個(gè)凌晨,從搜索到照片應(yīng)用、智能體、Android,他們逐一展開(kāi)。   

谷歌的雙子座(Gemini)時(shí)代

一年前,谷歌首次發(fā)布Gemini,定義為原生多模態(tài)模型,可以跨文本、圖像、視頻、代碼等進(jìn)行推理。這次終于正式開(kāi)放訂閱Gemini 1.5 Pro,且?guī)?lái)全新升級(jí)。

此前的Gemini 1.5版本上下文長(zhǎng)度為100萬(wàn)token,新版本長(zhǎng)度刷新,達(dá)到200萬(wàn)token,基于此,發(fā)布上新的輕量化模型Gemini 1.5 flash這是一個(gè)針對(duì)端側(cè)的模型,同樣有100萬(wàn)和200萬(wàn)token的版本,速度更快、成本低至0.35美元每百萬(wàn)tokens。

與此同時(shí),通過(guò)數(shù)據(jù)和算法改進(jìn),Gemini 1.5 Pro增強(qiáng)了模型的代碼生成、邏輯推理和規(guī)劃、多輪對(duì)話以及音頻和圖像理解能力。

升級(jí)后的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項(xiàng)公共基準(zhǔn)測(cè)試中取得了顯著改進(jìn),在多項(xiàng)圖像和視頻理解基準(zhǔn)測(cè)試中也實(shí)現(xiàn)了最先進(jìn)性能。

換句話說(shuō),“我們已經(jīng)妥妥吊打GPT4了。”

現(xiàn)在,用戶可以通過(guò) Gemini Advanced 訂閱服務(wù)體驗(yàn)最新的Gemini 1.5 Pro,目前支持超過(guò)150個(gè)國(guó)家的35種語(yǔ)言。

谷歌還預(yù)告,即將推出下一代 Gemma 型號(hào) Gemma 2。Gemma 2適用于廣泛的 AI 開(kāi)發(fā)人員,并采用全新的架構(gòu),旨在實(shí)現(xiàn)突破性的性能和效率。

AI助手的未來(lái) 谷歌“智能體”Project Astra 

基于谷歌對(duì)于智能體的理解,Google DeepMind開(kāi)發(fā)了Project Astra ,類(lèi)似GPT-4o的語(yǔ)音交互,Project Astra是主動(dòng)的、可教的和個(gè)性化的,用戶可以自然地與它交談,沒(méi)有滯后或延遲。

在演示中,Project Astra 所見(jiàn)即所得,回應(yīng)一切,沒(méi)有任何延遲,它可以識(shí)別物體,進(jìn)行分析并且給出自己的反應(yīng),對(duì)此,有網(wǎng)友評(píng)論:對(duì)于盲人和低視力用戶來(lái)說(shuō),這將是天賜之物!

不僅如此,大家的關(guān)注點(diǎn)還在于,谷歌眼鏡項(xiàng)目是不是要復(fù)活了?什么時(shí)候發(fā)布?這才是Project Astra絕佳的應(yīng)用場(chǎng)景。

搜索引擎,依舊是谷歌AI的戰(zhàn)略要塞          

搜索一直是谷歌的命門(mén),而搜索這個(gè)“古老”的動(dòng)作似乎正在悄然發(fā)生變化。

在OpenAI GPT-4o發(fā)布之前,就有大量呼聲說(shuō)會(huì)不會(huì)有OpenAI 搜索的到來(lái),不過(guò)有驚無(wú)險(xiǎn),谷歌在自己的主陣地,依舊高歌猛進(jìn)。

桑達(dá)爾·皮查伊表示,在過(guò)去的一年里,作為搜索生成體驗(yàn)的一部分,已經(jīng)回答了數(shù)十億個(gè)查詢。人們正在使用它以全新的方式搜索,并提出新的問(wèn)題類(lèi)型——更長(zhǎng)和更復(fù)雜的查詢,甚至使用照片進(jìn)行搜索。

從今天開(kāi)始,美國(guó)用戶將體驗(yàn)到重大搜索交互界面的更新,搜索框下方會(huì)顯示AI生成的概覽,谷歌方面表示:“我們一直在實(shí)驗(yàn)室之外測(cè)試這種體驗(yàn)。令我們欣慰的是,不僅搜索使用量有所增加,用戶滿意度也有所提高。”

谷歌版Sora,視頻生成模型 Veo 和 Imagen 3

今天,谷歌還帶來(lái)最新、最先進(jìn)的視頻生成模型 Veo 和迄今為止質(zhì)量最高的文本到圖像模型 Imagen 3。

 

Veo能夠生成超過(guò)一分鐘的高質(zhì)量1080p視頻,涵蓋多種電影和視覺(jué)風(fēng)格。據(jù)谷歌介紹,Veo具備高級(jí)的自然語(yǔ)言和視覺(jué)語(yǔ)義理解能力,能準(zhǔn)確呈現(xiàn)細(xì)節(jié)并捕捉情感基調(diào)。

本著“打不過(guò)就加入”的原則,很多藝術(shù)家已經(jīng)加入嘗試了這個(gè)項(xiàng)目。

現(xiàn)在,谷歌展示了與電影制片人唐納德·格洛弗(Donald Glover)及其創(chuàng)意工作室吉爾加(Gilga)的一些合作,以及藝術(shù)家Wyclef Jean,Marc Rebillet和詞曲作者Justin Tranter在音樂(lè)AI沙盒的幫助下發(fā)布的新演示錄音。  

從今天開(kāi)始,Veo可以通過(guò)加入候補(bǔ)名單在 VideoFX 的個(gè)人預(yù)覽版中使用,未來(lái),谷歌計(jì)劃把Veo的一些功能引入 YouTube Shorts 和其他產(chǎn)品。

與之相結(jié)合的是Imagen 3,Google最高質(zhì)量的文本到圖像生成模型,Imagen 3 可以更好地理解自然語(yǔ)言、提示背后的意圖,并結(jié)合較長(zhǎng)提示中的小細(xì)節(jié)。

從今天開(kāi)始,Imagen 3可供 ImageFX 中的個(gè)人預(yù)覽版和加入谷歌候補(bǔ)名單的創(chuàng)作者使用。

與此同時(shí),Imagen 3宣布即將登陸 Vertex AI——Vertex AI 是 Google Cloud 的完全托管的統(tǒng)一開(kāi)發(fā)平臺(tái),用于大規(guī)模利用模型,提供 150 多種第一方、開(kāi)放和第三方基礎(chǔ)模型,用于 使用企業(yè)級(jí)調(diào)優(yōu)、接地、監(jiān)控和部署功能自定義模型,以及構(gòu)建 AI 代理。

Google相冊(cè)“詢問(wèn)照片”再也不怕照片難翻找

Google相冊(cè)是谷歌首批以AI為中心的產(chǎn)品之一,現(xiàn)在,谷歌正在通過(guò)功能最強(qiáng)大的 AI 模型 Gemini 對(duì) Google 相冊(cè)進(jìn)行重大升級(jí)。

一直以來(lái),大家使用相冊(cè)有這樣的痛點(diǎn),我們希望以自然交互的方式找到自己的照片,但是隨著人們照片數(shù)量的累積,找到需要的東西可能會(huì)需要滾動(dòng)瀏覽照片和視頻頁(yè)面,耗時(shí)巨大。

谷歌透露,每天有超過(guò) 60 億張照片上傳到 Google 相冊(cè),現(xiàn)在,通過(guò)“詢問(wèn)照片”,你可以以一種自然的方式詢問(wèn)你要找的東西,比如:“給我看我去過(guò)的每個(gè)國(guó)家公園的最佳照片。

谷歌還談及對(duì)用戶隱私的保護(hù),承諾 Google 相冊(cè)中的個(gè)人數(shù)據(jù)絕不會(huì)用于廣告,也不會(huì)在“問(wèn)答”中查看用戶的對(duì)話和數(shù)據(jù),而且,谷歌不會(huì)使用這些個(gè)人數(shù)據(jù)訓(xùn)練 Google 相冊(cè)以外的任何生成式 AI 產(chǎn)品,包括其他 Gemini 型號(hào)和產(chǎn)品。   

重構(gòu)交互體驗(yàn) Android進(jìn)入Gemini 時(shí)代

谷歌表示,隨著 Google AI 成為 Android 操作系統(tǒng)的核心,數(shù)十億使用 Android 的人現(xiàn)在可以以全新的方式與他們的設(shè)備進(jìn)行交互。

比如,從今天開(kāi)始,Circle to Search可以幫助學(xué)生完成家庭作業(yè),當(dāng)學(xué)生圈出他們的提示時(shí),他們會(huì)得到分步說(shuō)明,以解決一系列物理和數(shù)學(xué)問(wèn)題、單詞問(wèn)題,而無(wú)需離開(kāi)他們的數(shù)字信息表或教學(xué)大綱。

與此同時(shí),Circle to Search在稍后的更新中,將能夠幫助解決涉及符號(hào)公式、圖表、圖形等的更復(fù)雜的問(wèn)題。谷歌披露,Circle to Search 已經(jīng)在超過(guò) 1 億臺(tái)設(shè)備上可用。

另外,谷歌在Android 上發(fā)布 Gemini 新型助手,它使用生成式 AI 來(lái)幫助用戶提高創(chuàng)造力和生產(chǎn)力。這種體驗(yàn)已集成到 Android 中,在理解屏幕上的內(nèi)容和用戶正在使用的應(yīng)用程序的上下文方面變得越來(lái)越好。   

 

不僅如此,Android基于AI帶來(lái)一系列更新,Gemini Nano的多模態(tài)功能將登陸 TalkBack,幫助失明或視力低下的人更豐富、更清晰地描述圖像中發(fā)生的事情。

從今年晚些時(shí)候的 Pixel 開(kāi)始,谷歌還推出最新型號(hào) Gemini Nano with Multimodality,這意味著手機(jī)不僅能夠處理文本輸入,還可以在視覺(jué)、聲音和口語(yǔ)等上下文中理解更多信息。

第六代TPU Trillium 迄今為止性能最高的TPU 

十多年來(lái),谷歌一直在開(kāi)發(fā)定制的AI專(zhuān)用硬件、張量處理單元(TPU),以推動(dòng)規(guī)模和效率的前沿發(fā)展。

今天,迄今為止性能最高、能效最優(yōu)的第六代TPU Trillium正式發(fā)布,該硬件支持今天在 Google I/O大會(huì)上宣布的包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新型號(hào)。所有這些型號(hào)的模型都經(jīng)過(guò)了TPU的訓(xùn)練,并使用TPU提供服務(wù)。

與 TPU v5e 相比,Trillium TPU 的每芯片峰值計(jì)算性能提高了 4.7 倍。與 TPU v5e 相比,Trillium TPU將高帶寬存儲(chǔ)器 (HBM) 容量和帶寬提高了一倍,并將芯片間互連 (ICI) 帶寬提高了一倍。

此外,Trillium 還配備了第三代 SparseCore,這是一種專(zhuān)用加速器,用于處理高級(jí)排名和推薦工作負(fù)載中常見(jiàn)的超大型嵌入。與此同時(shí),rillium 可以在單個(gè)高帶寬、低延遲的 pod 中擴(kuò)展到 256 個(gè) TPU。

作為硬件產(chǎn)品,谷歌還介紹了客戶案例,谷歌表示,Trillium TPU 將為下一波 AI 模型和代理提供動(dòng)力,期待通過(guò)這些先進(jìn)功能幫助我們的客戶。例如,自動(dòng)駕駛汽車(chē)公司 Nuro 致力于通過(guò)機(jī)器人技術(shù)創(chuàng)造更美好的日常生活,方法是使用 Cloud TPU 訓(xùn)練他們的模型。

谷歌宣布,作為十年結(jié)晶,第六代TPU Trillium將于今年晚些時(shí)候上市。

文章來(lái)源:網(wǎng)易科技

網(wǎng)易科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部