太平洋科技要聞

混元單日調(diào)用tokens達(dá)千億后，騰訊大模型戰(zhàn)略露出全貌

量子位整合編輯：太平洋科技發(fā)布于：2024-07-10 15:45

大模型之爭，到了不只是拼技術(shù)的時刻。

最新的行業(yè)風(fēng)向是：誰能大范圍應(yīng)用落地？誰能笑到最后？誰能真正產(chǎn)生價值？

對大模型行業(yè)玩家的評判標(biāo)準(zhǔn)也不再只看技術(shù)。戰(zhàn)略布局、落地進(jìn)展、未來判斷……成為了更被重視的維度。

無論“楊植麟們”還是大廠高管，公開探討大模型的頻率越來越高，包括一直低調(diào)的騰訊。

前腳，騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生萬字采訪釋出，回應(yīng)“關(guān)于騰訊大模型的一切”；后腳，在萬眾矚目的WAIC上，騰訊云副總裁、騰訊云智能、騰訊優(yōu)圖實(shí)驗(yàn)室負(fù)責(zé)人吳運(yùn)聲帶來大模型產(chǎn)品最新進(jìn)展。

兩波強(qiáng)勢輸出下，騰訊大模型戰(zhàn)略緩緩露出全貌：

圍繞著企業(yè)訓(xùn)練大模型和應(yīng)用大模型的需求，提供AI infra、自主可控的大模型以及貼近場景的智能應(yīng)用。在這一過程中，騰訊不斷提升模型性能的同時，也在不斷降低模型使用的門檻，通過封裝好的PaaS產(chǎn)品來讓企業(yè)構(gòu)建面向具體場景的應(yīng)用，包括智能客服和營銷工具等。

混元單日調(diào)用tokens數(shù)已達(dá)千億級

簡單梳理騰訊云業(yè)務(wù)，其AI布局大致可以分為基礎(chǔ)設(shè)施、模型層、工具平臺層和應(yīng)用層這四大方面。

在底層能力上，騰訊云構(gòu)建了HCC高性能算力集群、AIGC云存儲和星脈高性能網(wǎng)絡(luò)，這是訓(xùn)練大模型的基礎(chǔ)。

基礎(chǔ)之上，去年9月，騰訊混元大模型橫空出世，目前已擴(kuò)展至萬億參數(shù)規(guī)模，由7萬億tokens的預(yù)訓(xùn)練語料訓(xùn)練而來，能力已覆蓋了文本、多模態(tài)理解及生成等。

文本生成上，混元率先在國內(nèi)采用MoE架構(gòu)，最新升級后的模型性能較上一代提升50%，部分中文能力已追平GPT-4！它的超長文能力也已在騰訊元寶中上線，一次性能夠處理長達(dá)1000萬字的文檔，并支持多種格式的文件解析，如PDF、PPTX。它還能基于文檔內(nèi)容生成柱狀圖、折線圖和餅狀圖等。

就在最近，騰訊元寶還上新了AI深度搜索模式，支持從深度和廣度上提供更結(jié)構(gòu)化、更豐富的回答。

圖像生成上，混元推出首個中文原生的DiT架構(gòu)（Diffusion With Transformer）文生圖模型，并直接將訓(xùn)練代碼、推理代碼、模型權(quán)重等完整模型全部開源！它創(chuàng)新性結(jié)合了雙語CLIP和多語言T5編碼器來提升理解能力，這是Stable Diffusion 3所不具備的，并應(yīng)用多模態(tài)大語言模型來改進(jìn)圖像描述。

通過混元DiT 的加速庫，生圖時間還能縮短75%，大幅提升推理效率。發(fā)布一個多月，騰訊混元 DiT 目前在 github 上 star 數(shù)已有 2.6k，是目前最受歡迎的國產(chǎn)開源文生圖模型。

視頻生成方面，支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等能力。另外，在3D生成等領(lǐng)域，騰訊混元已布局文/圖生3D，單圖僅需30秒即可生成3D模型。

△人民日報聯(lián)合騰訊混元創(chuàng)作（畫質(zhì)為壓縮后效果）

值得一提的是，騰訊還在持續(xù)開源大模型成果。

如上提到的全鏈路自研DiT文生圖模型（15B）以及小顯存版本均宣布對外開源。其中小顯存版僅需6GB內(nèi)存即可運(yùn)行，個人電腦上就能運(yùn)行，并與LoRA、ControlNet等插件，都已適配至Diffusers庫；對開發(fā)者非常友好。

由此，騰訊構(gòu)建了扎實(shí)的技術(shù)底座和模型能力，并持續(xù)跟進(jìn)趨勢做快速迭代。以此為基礎(chǔ)，騰訊云進(jìn)一步搭建了上層工具和應(yīng)用。

實(shí)際上，圍繞核心場景，構(gòu)建產(chǎn)業(yè)應(yīng)用，才是騰訊大模型戰(zhàn)略的核心。

湯道生在與騰訊新聞《潛望》的采訪中透露，對于AI，他比較看重怎么讓大家在產(chǎn)業(yè)場景把AI用起來、需要提供什么工具和能力。目前他感覺，大模型很大程度回到關(guān)注RAG（檢索增強(qiáng)生成）模式，降低出現(xiàn)幻覺的概率，同時也比較重視怎么把握“智能體”的方向。

對應(yīng)到騰訊云的實(shí)際業(yè)務(wù)，這些思考已經(jīng)開始逐漸顯現(xiàn)。

簡化開發(fā)流程，低門檻加速大模型場景落地

大家都知道產(chǎn)業(yè)落地是關(guān)鍵，但問題是：怎么做？

吳運(yùn)聲表示，騰訊云認(rèn)為大模型的廣泛應(yīng)用落地，不是某一家或某幾家企業(yè)憑借自身技術(shù)實(shí)現(xiàn)的，更可行的路線是降低技術(shù)開發(fā)門檻，讓產(chǎn)業(yè)中更多企業(yè)能夠參與到AI應(yīng)用落地進(jìn)程中。

因此，騰訊云構(gòu)建了大模型知識引擎、圖像創(chuàng)作引擎、視頻創(chuàng)作引擎三大PaaS工具，將大模型技術(shù)封裝，讓各行各業(yè)的用戶能直接上手使用。

其中，知識引擎就是剛剛湯道生提到的RAG模式。它基于LLM+RAG模式，是一個創(chuàng)新的知識應(yīng)用構(gòu)建平臺，滿足了當(dāng)前產(chǎn)業(yè)應(yīng)用對大模型的迫切需求。

這一平臺的亮點(diǎn)在于，僅需5分鐘，用戶便能通過低代碼或無代碼的方式，快速構(gòu)建知識服務(wù)應(yīng)用，如客服、知識問答等，極大地降低了開發(fā)門檻，讓人人都能玩轉(zhuǎn)大模型應(yīng)用。

知識引擎整合了騰訊的混元大模型以及特定行業(yè)的大模型能力，結(jié)合先進(jìn)的文檔技術(shù)，為用戶提供了企業(yè)知識服務(wù)應(yīng)用模板。此外，它還提供了文檔解析、向量檢索、多輪改寫等原子能力，助力企業(yè)用戶構(gòu)建高效的AI問答系統(tǒng)。

而它的背后，是騰訊一系列自研技術(shù)的支撐！包括自研的TRAG技術(shù)架構(gòu)和首個基于語義判斷的知識切分模型。這些技術(shù)從底層解決了諸多行業(yè)應(yīng)用難題，如確保信息塊的語義完整性，這是業(yè)內(nèi)長期面臨的挑戰(zhàn)。

騰訊云采用了一種創(chuàng)新的“暴力解法”，提出了業(yè)內(nèi)首個基于語義判斷的知識切分模型。這一模型能夠?qū)γ總€文本進(jìn)行語義級別的切分，并在多個段落中進(jìn)行更準(zhǔn)確的拆分，確保每個切片在長度可控的同時，語義完整，避免了信息的缺失和斷章取義。

此外，知識引擎將檢索的最大長度提升至4k字符，遠(yuǎn)超業(yè)內(nèi)平均水平（通常為512字）。通過混合檢索、text2sql表格檢索等策略，進(jìn)一步提高了復(fù)雜知識的檢索精度，能夠處理上萬行的超大表格進(jìn)行精確篩選。

知識引擎的應(yīng)用場景廣泛，包括智能客服、智能營銷、知識管理、數(shù)據(jù)分析、辦公協(xié)同、數(shù)智人等，這些都是業(yè)界公認(rèn)的大模型最先落地的領(lǐng)域。

例如，騰訊企點(diǎn)客服在知識引擎的支持下全面升級，不僅支持大模型多輪對話，還能為人工客服推薦答案，智能生成工單和會話小結(jié)。此外，它還能整合到騰訊企點(diǎn)營銷SCRM中，有效提升客戶轉(zhuǎn)化率。在人才培訓(xùn)領(lǐng)域，知識引擎結(jié)合騰訊樂享知識學(xué)習(xí)平臺，將員工的知識智慧匯聚成企業(yè)知識庫，促進(jìn)了內(nèi)部知識分享和傳播。

最新發(fā)布中，知識引擎還進(jìn)一步升級了多模態(tài)檢索能力和企業(yè)類型知識覆蓋面，進(jìn)一步提升了知識引擎的專業(yè)能力。

圖像創(chuàng)作引擎，則可提供圖像風(fēng)格化、AI寫真訓(xùn)練與生成、商品背景生成、線稿生成等能力。

基于混元文生圖大模型，圖像創(chuàng)作引擎能提供更符合國內(nèi)要求的圖像。它具備更高質(zhì)量的中文理解能力，可生成更優(yōu)質(zhì)的圖像，繪畫能力更符合東方審美。

視頻創(chuàng)作引擎基于支持視頻轉(zhuǎn)譯、視頻風(fēng)格化、圖像跳舞、視頻插幀、藝術(shù)字視頻、運(yùn)動筆刷、畫布拓展等應(yīng)用，主要面向視頻創(chuàng)作者，可以應(yīng)用在短視頻平臺、廣告營銷、游戲等領(lǐng)域。

它最新推出了復(fù)雜舞蹈編排算法，基于3D建模和背部生成技術(shù)，可以實(shí)現(xiàn)僅基于一張圖像，就生成可轉(zhuǎn)身的舞蹈編排。要知道，市面上大多生成技術(shù)，都只能固定視角，更別說轉(zhuǎn)身了。

另外，對于想要自己訓(xùn)練大模型的行業(yè)客戶，騰訊還推出了TI平臺等工具。它面向?qū)I(yè)AI工程師，可提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估到模型服務(wù)的全流程開發(fā)支持。

TI平臺內(nèi)包含豐富的算法組件，支持多種算法框架，滿足多種應(yīng)用場景需求。

最新升級中，TI平臺發(fā)布全新數(shù)據(jù)處理鏈、大模型精調(diào)工具鏈；并且和知識引擎聯(lián)調(diào)，實(shí)現(xiàn)了邊迭代邊評測機(jī)制，企業(yè)能及時了解并優(yōu)化大模型業(yè)務(wù)效果。

如閱文集團(tuán)、瑞金醫(yī)院等，都利用TI平臺訓(xùn)練出了自己的大模型。

據(jù)閱文集團(tuán)總裁黃琰介紹，閱文旗下網(wǎng)文行業(yè)大模型“閱文妙筆”可輔助網(wǎng)文多模態(tài)創(chuàng)作、支持用戶和角色對話、還能進(jìn)行多語種翻譯。

醫(yī)學(xué)領(lǐng)域，瑞金醫(yī)院-上海市數(shù)字醫(yī)學(xué)創(chuàng)新中心首席技術(shù)官黃飛躍介紹，去年發(fā)布的瑞金醫(yī)學(xué)大模型，基于數(shù)億醫(yī)學(xué)數(shù)據(jù)訓(xùn)練而來。已推出體檢報告生成和電子病歷生成系統(tǒng)，并在瑞金院內(nèi)應(yīng)用。以體檢報告生成為例，平均每5秒即可自動生成一份總檢報告，為醫(yī)生節(jié)約50%+的撰寫時間。

總結(jié)來看，騰訊云的大模型產(chǎn)品矩陣，盡可能兼顧到了市面上所有突出需求。比如構(gòu)建專有大模型、零門檻上手、快速開發(fā)等。

這也傳遞了騰訊對技術(shù)趨勢的理解：大模型必須用起來才有價值。技術(shù)的打造只是起點(diǎn)，把技術(shù)落地到產(chǎn)業(yè)場景、創(chuàng)造價值才是目標(biāo)。

而在騰訊自身內(nèi)部，這些價值已經(jīng)初步顯現(xiàn)。

聚焦模型場景落地，騰訊決定打一場持久戰(zhàn)

模型落地，實(shí)用為先。

騰訊混元大模型是鮮少一亮相，就宣布落地應(yīng)用的模型。

去年9月，混元已接入騰訊會議、微信搜一搜、騰訊文檔等，而且已經(jīng)能看到可觀增長。

比如AI代碼助手，在騰訊集團(tuán)內(nèi)部已經(jīng)實(shí)現(xiàn)了50%以上的開發(fā)崗員工覆蓋。騰訊會議AI助手在上線4個月里，日調(diào)用量增長20倍。

目前騰訊內(nèi)部已有600+業(yè)務(wù)和場景接入混元大模型，覆蓋金融科技、營銷、廣告、會議、文檔等典型場景。

同時，騰訊也推出了AI智能體創(chuàng)作與開發(fā)平臺騰訊元器，以豐富混元應(yīng)用生態(tài)。

企業(yè)和開發(fā)者可以基于騰訊元器，使用騰訊官方的插件和知識庫直接創(chuàng)建智能體。開發(fā)完成后，將智能體一鍵分發(fā)到QQ、微信客服、騰訊云等渠道上。

這與湯道生在采訪中的觀點(diǎn)遙相呼應(yīng)，不是只有做大模型的玩家才是做AI。騰訊的機(jī)制下，各自團(tuán)隊都在關(guān)注AI跟自己業(yè)務(wù)有什么關(guān)系，有多點(diǎn)布局。