太平洋科技要聞

谷歌回?fù)鬙penAI：發(fā)布AI全家桶，搜索大變身，Project Astra劍指GPT-4o

網(wǎng)易科技整合編輯：龔震發(fā)布于：2024-05-15 09:38

眼看著OpenAI各種搶鏡，喊了十年“AI為先”的老大哥Google再也坐不住了。

想要蓋過(guò)谷歌風(fēng)頭，OpenAI的GPT-4o有沒(méi)有如愿，我們找找答案。

谷歌和Alphabet首席執(zhí)行官桑達(dá)爾·皮查伊公布，有超過(guò) 150 萬(wàn)開(kāi)發(fā)人員在使用 Gemini 模型，有20億用戶在使用Gemini，在短短三個(gè)月內(nèi)，已有超過(guò) 100 萬(wàn)人注冊(cè)試用。

他振臂高呼，我們正處于雙子座（Gemini）時(shí)代，人工智能為先的戰(zhàn)略正在開(kāi)花結(jié)果，然后花了長(zhǎng)達(dá)兩個(gè)多小時(shí)，手把手教開(kāi)發(fā)者使用Gemini。

谷歌說(shuō)我們使命是讓AI對(duì)每個(gè)人都有幫助，基于這個(gè)目標(biāo)，再圍繞Gemini，剛剛過(guò)去的這個(gè)凌晨，從搜索到照片應(yīng)用、智能體、Android，他們逐一展開(kāi)。

谷歌的雙子座（Gemini）時(shí)代

一年前，谷歌首次發(fā)布Gemini，定義為原生多模態(tài)模型，可以跨文本、圖像、視頻、代碼等進(jìn)行推理。這次終于正式開(kāi)放訂閱Gemini 1.5 Pro，且?guī)?lái)全新升級(jí)。

此前的Gemini 1.5版本上下文長(zhǎng)度為100萬(wàn)token，新版本長(zhǎng)度刷新，達(dá)到200萬(wàn)token，基于此，發(fā)布上新的輕量化模型Gemini 1.5 flash這是一個(gè)針對(duì)端側(cè)的模型，同樣有100萬(wàn)和200萬(wàn)token的版本，速度更快、成本低至0.35美元每百萬(wàn)tokens。

與此同時(shí)，通過(guò)數(shù)據(jù)和算法改進(jìn)，Gemini 1.5 Pro增強(qiáng)了模型的代碼生成、邏輯推理和規(guī)劃、多輪對(duì)話以及音頻和圖像理解能力。

升級(jí)后的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多項(xiàng)公共基準(zhǔn)測(cè)試中取得了顯著改進(jìn)，在多項(xiàng)圖像和視頻理解基準(zhǔn)測(cè)試中也實(shí)現(xiàn)了最先進(jìn)性能。

換句話說(shuō)，“我們已經(jīng)妥妥吊打GPT4了。”

現(xiàn)在，用戶可以通過(guò) Gemini Advanced 訂閱服務(wù)體驗(yàn)最新的Gemini 1.5 Pro，目前支持超過(guò)150個(gè)國(guó)家的35種語(yǔ)言。

谷歌還預(yù)告，即將推出下一代 Gemma 型號(hào) Gemma 2。Gemma 2適用于廣泛的 AI 開(kāi)發(fā)人員，并采用全新的架構(gòu)，旨在實(shí)現(xiàn)突破性的性能和效率。

AI助手的未來(lái) 谷歌“智能體”Project Astra

基于谷歌對(duì)于智能體的理解，Google DeepMind開(kāi)發(fā)了Project Astra ，類(lèi)似GPT-4o的語(yǔ)音交互，Project Astra是主動(dòng)的、可教的和個(gè)性化的，用戶可以自然地與它交談，沒(méi)有滯后或延遲。

在演示中，Project Astra 所見(jiàn)即所得，回應(yīng)一切，沒(méi)有任何延遲，它可以識(shí)別物體，進(jìn)行分析并且給出自己的反應(yīng)，對(duì)此，有網(wǎng)友評(píng)論：對(duì)于盲人和低視力用戶來(lái)說(shuō)，這將是天賜之物！

不僅如此，大家的關(guān)注點(diǎn)還在于，谷歌眼鏡項(xiàng)目是不是要復(fù)活了？什么時(shí)候發(fā)布？這才是Project Astra絕佳的應(yīng)用場(chǎng)景。

搜索引擎，依舊是谷歌AI的戰(zhàn)略要塞

搜索一直是谷歌的命門(mén)，而搜索這個(gè)“古老”的動(dòng)作似乎正在悄然發(fā)生變化。

在OpenAI GPT-4o發(fā)布之前，就有大量呼聲說(shuō)會(huì)不會(huì)有OpenAI 搜索的到來(lái)，不過(guò)有驚無(wú)險(xiǎn)，谷歌在自己的主陣地，依舊高歌猛進(jìn)。

桑達(dá)爾·皮查伊表示，在過(guò)去的一年里，作為搜索生成體驗(yàn)的一部分，已經(jīng)回答了數(shù)十億個(gè)查詢。人們正在使用它以全新的方式搜索，并提出新的問(wèn)題類(lèi)型——更長(zhǎng)和更復(fù)雜的查詢，甚至使用照片進(jìn)行搜索。

從今天開(kāi)始，美國(guó)用戶將體驗(yàn)到重大搜索交互界面的更新，搜索框下方會(huì)顯示AI生成的概覽，谷歌方面表示：“我們一直在實(shí)驗(yàn)室之外測(cè)試這種體驗(yàn)。令我們欣慰的是，不僅搜索使用量有所增加，用戶滿意度也有所提高。”

谷歌版Sora，視頻生成模型 Veo 和 Imagen 3

今天，谷歌還帶來(lái)最新、最先進(jìn)的視頻生成模型 Veo 和迄今為止質(zhì)量最高的文本到圖像模型 Imagen 3。

Veo能夠生成超過(guò)一分鐘的高質(zhì)量1080p視頻，涵蓋多種電影和視覺(jué)風(fēng)格。據(jù)谷歌介紹，Veo具備高級(jí)的自然語(yǔ)言和視覺(jué)語(yǔ)義理解能力，能準(zhǔn)確呈現(xiàn)細(xì)節(jié)并捕捉情感基調(diào)。

本著“打不過(guò)就加入”的原則，很多藝術(shù)家已經(jīng)加入嘗試了這個(gè)項(xiàng)目。

現(xiàn)在，谷歌展示了與電影制片人唐納德·格洛弗（Donald Glover）及其創(chuàng)意工作室吉爾加（Gilga）的一些合作，以及藝術(shù)家Wyclef Jean，Marc Rebillet和詞曲作者Justin Tranter在音樂(lè)AI沙盒的幫助下發(fā)布的新演示錄音。

從今天開(kāi)始，Veo可以通過(guò)加入候補(bǔ)名單在 VideoFX 的個(gè)人預(yù)覽版中使用，未來(lái)，谷歌計(jì)劃把Veo的一些功能引入 YouTube Shorts 和其他產(chǎn)品。

與之相結(jié)合的是Imagen 3，Google最高質(zhì)量的文本到圖像生成模型，Imagen 3 可以更好地理解自然語(yǔ)言、提示背后的意圖，并結(jié)合較長(zhǎng)提示中的小細(xì)節(jié)。

從今天開(kāi)始，Imagen 3可供 ImageFX 中的個(gè)人預(yù)覽版和加入谷歌候補(bǔ)名單的創(chuàng)作者使用。

與此同時(shí)，Imagen 3宣布即將登陸 Vertex AI——Vertex AI 是 Google Cloud 的完全托管的統(tǒng)一開(kāi)發(fā)平臺(tái)，用于大規(guī)模利用模型，提供 150 多種第一方、開(kāi)放和第三方基礎(chǔ)模型，用于使用企業(yè)級(jí)調(diào)優(yōu)、接地、監(jiān)控和部署功能自定義模型，以及構(gòu)建 AI 代理。

Google相冊(cè)“詢問(wèn)照片”再也不怕照片難翻找

Google相冊(cè)是谷歌首批以AI為中心的產(chǎn)品之一，現(xiàn)在，谷歌正在通過(guò)功能最強(qiáng)大的 AI 模型 Gemini 對(duì) Google 相冊(cè)進(jìn)行重大升級(jí)。

一直以來(lái)，大家使用相冊(cè)有這樣的痛點(diǎn)，我們希望以自然交互的方式找到自己的照片，但是隨著人們照片數(shù)量的累積，找到需要的東西可能會(huì)需要滾動(dòng)瀏覽照片和視頻頁(yè)面，耗時(shí)巨大。

谷歌透露，每天有超過(guò) 60 億張照片上傳到 Google 相冊(cè)，現(xiàn)在，通過(guò)“詢問(wèn)照片”，你可以以一種自然的方式詢問(wèn)你要找的東西，比如：“給我看我去過(guò)的每個(gè)國(guó)家公園的最佳照片。

谷歌還談及對(duì)用戶隱私的保護(hù)，承諾 Google 相冊(cè)中的個(gè)人數(shù)據(jù)絕不會(huì)用于廣告，也不會(huì)在“問(wèn)答”中查看用戶的對(duì)話和數(shù)據(jù)，而且，谷歌不會(huì)使用這些個(gè)人數(shù)據(jù)訓(xùn)練 Google 相冊(cè)以外的任何生成式 AI 產(chǎn)品，包括其他 Gemini 型號(hào)和產(chǎn)品。

重構(gòu)交互體驗(yàn) Android進(jìn)入Gemini 時(shí)代

谷歌表示，隨著 Google AI 成為 Android 操作系統(tǒng)的核心，數(shù)十億使用 Android 的人現(xiàn)在可以以全新的方式與他們的設(shè)備進(jìn)行交互。

比如，從今天開(kāi)始，Circle to Search可以幫助學(xué)生完成家庭作業(yè)，當(dāng)學(xué)生圈出他們的提示時(shí)，他們會(huì)得到分步說(shuō)明，以解決一系列物理和數(shù)學(xué)問(wèn)題、單詞問(wèn)題，而無(wú)需離開(kāi)他們的數(shù)字信息表或教學(xué)大綱。

與此同時(shí)，Circle to Search在稍后的更新中，將能夠幫助解決涉及符號(hào)公式、圖表、圖形等的更復(fù)雜的問(wèn)題。谷歌披露，Circle to Search 已經(jīng)在超過(guò) 1 億臺(tái)設(shè)備上可用。

另外，谷歌在Android 上發(fā)布 Gemini 新型助手，它使用生成式 AI 來(lái)幫助用戶提高創(chuàng)造力和生產(chǎn)力。這種體驗(yàn)已集成到 Android 中，在理解屏幕上的內(nèi)容和用戶正在使用的應(yīng)用程序的上下文方面變得越來(lái)越好。

不僅如此，Android基于AI帶來(lái)一系列更新，Gemini Nano的多模態(tài)功能將登陸 TalkBack，幫助失明或視力低下的人更豐富、更清晰地描述圖像中發(fā)生的事情。

從今年晚些時(shí)候的 Pixel 開(kāi)始，谷歌還推出最新型號(hào) Gemini Nano with Multimodality，這意味著手機(jī)不僅能夠處理文本輸入，還可以在視覺(jué)、聲音和口語(yǔ)等上下文中理解更多信息。

第六代TPU Trillium 迄今為止性能最高的TPU

十多年來(lái)，谷歌一直在開(kāi)發(fā)定制的AI專(zhuān)用硬件、張量處理單元（TPU），以推動(dòng)規(guī)模和效率的前沿發(fā)展。

今天，迄今為止性能最高、能效最優(yōu)的第六代TPU Trillium正式發(fā)布，該硬件支持今天在 Google I/O大會(huì)上宣布的包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等新型號(hào)。所有這些型號(hào)的模型都經(jīng)過(guò)了TPU的訓(xùn)練，并使用TPU提供服務(wù)。

與 TPU v5e 相比，Trillium TPU 的每芯片峰值計(jì)算性能提高了 4.7 倍。與 TPU v5e 相比，Trillium TPU將高帶寬存儲(chǔ)器（HBM）容量和帶寬提高了一倍，并將芯片間互連（ICI）帶寬提高了一倍。

此外，Trillium 還配備了第三代 SparseCore，這是一種專(zhuān)用加速器，用于處理高級(jí)排名和推薦工作負(fù)載中常見(jiàn)的超大型嵌入。與此同時(shí)，rillium 可以在單個(gè)高帶寬、低延遲的 pod 中擴(kuò)展到 256 個(gè) TPU。

作為硬件產(chǎn)品，谷歌還介紹了客戶案例，谷歌表示，Trillium TPU 將為下一波 AI 模型和代理提供動(dòng)力，期待通過(guò)這些先進(jìn)功能幫助我們的客戶。例如，自動(dòng)駕駛汽車(chē)公司 Nuro 致力于通過(guò)機(jī)器人技術(shù)創(chuàng)造更美好的日常生活，方法是使用 Cloud TPU 訓(xùn)練他們的模型。

谷歌宣布，作為十年結(jié)晶，第六代TPU Trillium將于今年晚些時(shí)候上市。

文章來(lái)源：網(wǎng)易科技

谷歌 Gemini AI助手

網(wǎng)易科技

原創(chuàng)欄目