首頁 > 科技要聞 > 科技> 正文

Claude三巨頭回應一切!Opus3.5仍可能發(fā)布,5小時超長視頻10萬人圍觀

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-13 16:09

Claude團隊三巨頭同時接受采訪,回應一切。

整整5個小時,創(chuàng)始人Dario Amodei、Claude性格設計師Amanda Askell、機制可解釋性先驅(qū)Chris Olah無所不談,透露了關于模型、公司和行業(yè)的很多內(nèi)幕和細節(jié)。

比如Claude 3.5 Opus仍有可能發(fā)布,公司今年從300人擴展到1000人,

采訪者是著名博客節(jié)目制作人Lex Fridman,完整視頻發(fā)布不到10個小時就已有10萬播放。

5小時確實很長,不過別擔心,量子位在Claude的幫助下(狗頭)精選整理了他們的觀點。

創(chuàng)始人Amodei:

Anthropic在行業(yè)中的姿態(tài)是“向上的競爭”,通過樹立榜樣,推動友商做正確的事情

頂尖的AI研究團隊,人才密度比人才數(shù)量更重要

暗示Claude 3.5 Opus仍有可能發(fā)布

Claude和其他模型都沒有“變笨”

Scaling Law像化學反應,必須同時擴展不同成分,不然反應會停止

預計2026-2027年可能實現(xiàn)“強大的AI”

對于想進入AI行業(yè)的年輕人,最重要的建議是動手玩模型

Claude性格設計師Amanda Askell:

把Claude設計成更像“世界旅行者”而非“服務者”

Claude的角色塑造訓練不涉及人類反饋數(shù)據(jù)

提示工程是一個反復迭代的過程

機制可解釋性先驅(qū)Chris Olah:

將神經(jīng)網(wǎng)絡研究比作生物學研究,強調(diào)“自下而上”的研究方法

提出要研究神經(jīng)網(wǎng)絡的”器官系統(tǒng)”級別的抽象

梯度下降比我們(人類)聰明


……

不知道是否與,整個對話從Scaling Law這個話題開始。

關于Scaling Law、AGI和未來

先鋪墊一個冷知識,Anthropic CEO在百度研究院吳恩達團隊工作過,他對Scaling Law的第一印象也是那時研究語音模型產(chǎn)生的。

Amodei這次自述剛開始研究語音神經(jīng)網(wǎng)絡時有一種“新手撞大運”的感覺,嘗試把模型和數(shù)據(jù)規(guī)模同時擴大,發(fā)現(xiàn)模型性能隨著規(guī)模的增加而不斷提升。

最初,他以為這只是語音識別系統(tǒng)的特例,但到了2017年,看到GPT-1的結果后意識到這種現(xiàn)象在語言模型上同樣適用。

一開始有不少專家持懷疑態(tài)度,例如認為語言模型只能處理句法(syntax),而無法理解語義(semantics),或者會面臨數(shù)據(jù)質(zhì)量和數(shù)量的瓶頸。但每次質(zhì)疑后,業(yè)界總能找到突破口,或者通過繼續(xù)擴展模型來克服這些問題。

(接下來的內(nèi)容以對話形式呈現(xiàn)

Scaling的本質(zhì)是什么?您能否進一步解釋?

Amodei:Scaling的核心在于擴大網(wǎng)絡規(guī)模、訓練時間和數(shù)據(jù)量。

這有點像化學反應中的成分比例,如果只擴大其中一個,而忽略了其他因素,反應就會停止。但如果按比例擴大所有成分,模型的性能會持續(xù)提升。

最初,我們在2020年的論文中展示了語言模型的Scaling Laws,隨后發(fā)現(xiàn)這種模式也適用于圖像、視頻、數(shù)學等不同領域。

為什么更大的模型和更多的數(shù)據(jù)會帶來更高的智能呢?

Amodei:我以前做過生物物理學研究,在物理學中有一種叫1/f噪聲的現(xiàn)象。如果你觀察許多自然過程的分布,會發(fā)現(xiàn)它們遵循某種長尾分布。這意味著簡單的模式很容易被捕捉,但越復雜的模式越難被捕捉。

而隨著網(wǎng)絡規(guī)模的增加,它能夠捕捉到更多這種長尾分布中的復雜模式。語言也是一種進化的過程,有常用詞和不常用詞,句子結構和段落結構都是由此演化而來的。大模型能夠捕捉到這些高層次的語言模式。

那這個方法的極限在哪里?是否存在一個“天花板”?

Amodei:我們目前還不清楚極限在哪里。我認為,人類能夠理解許多復雜的模式,這意味著如果我們繼續(xù)擴展模型規(guī)模,至少可以達到人類水平。至于是否能超越人類,那就要看具體領域了。例如,在生物學領域,人類目前理解的只是冰山一角,而 AI 有可能在這些復雜領域超越人類。然而在一些人類社會和文化相關的問題上,可能會有一些無法突破的瓶頸。

如果擴展遇到瓶頸,你認為會是什么原因?

Amodei:首先,可能是數(shù)據(jù)的限制;ヂ(lián)網(wǎng)的數(shù)據(jù)畢竟是有限的,而且其中很多數(shù)據(jù)質(zhì)量不高,比如搜索引擎SEO內(nèi)容,甚至未來可能會有AI自己生成的重復內(nèi)容。為了解決這個問題,我們和其他公司正在研究如何生成合成數(shù)據(jù),例如 AlphaGo Zero通過自我對弈達到了超越人類的水平,而沒有使用人類提供的數(shù)據(jù)。

其次,可能是計算資源的限制。隨著模型變得越來越大,所需的計算資源和成本也在急劇增加。當前的大型模型訓練成本可能在 10 億美元左右,而未來幾年這個數(shù)字可能會達到 100 億美元級別。如果我們依然不能取得突破,可能就需要尋找更高效的算法和架構。

……

您更喜歡使用“強大的AI”這個術語,而不是AGI(通用人工智能),為什么呢?

Amodei:是的,我傾向于使用“強大的 AI”,因為AGI這個術語已經(jīng)帶有太多的包袱,幾乎失去了意義。

如果用AGI來指代AI技術持續(xù)進步,最終超越人類智能,那么我同意這種看法。但如果將AGI視為一個特定的、離散的技術突破點,那么這個概念就變得模糊不清,甚至是一種流行詞匯,失去了實際意義。

我認為AI的發(fā)展是一個漸進的過程,沒有明確的“超級計算機時刻”,而是不斷變得更強大和智能的連續(xù)演進。

我在最近的文章(Machines of Loving Grace)中,我描述了一種“強大的 AI”:它在大多數(shù)學科上比諾貝爾獎得主更聰明,能夠運用各種感知模態(tài),并且可以獨立完成任務,只在需要時尋求幫助。它可以控制工具和實驗室設備,甚至能夠復制自己,快速部署數(shù)百萬個實例。這種AI可以比人類快10到100倍地學習和行動。

您在文章中談到了兩種極端的觀點:一種是“奇點”論,另一種是認為 AI 進步會很緩慢。能否詳細闡述一下這兩種觀點?

Amodei:第一種極端觀點認為,AI發(fā)展會迅速達到一個奇點。一旦AI超過人類智能,它將迅速改進自己,并推動技術呈指數(shù)級增長。

按照這種觀點,AI會立即掌握所有可能的技術,并改變整個世界。但我認為這種觀點忽視了物理定律和現(xiàn)實世界的復雜性。即使AI非常聰明,硬件的生產(chǎn)、實驗的驗證等都需要時間。很多復雜系統(tǒng),如經(jīng)濟和生物系統(tǒng),都無法簡單預測,即便是最先進的AI也無法完全掌控。

另一種極端觀點則認為,AI帶來的生產(chǎn)力提升會非常緩慢。這種觀點通常引用Robert Solow(1987年諾貝爾經(jīng)濟學獎得主)的名言:“你可以在任何地方看到計算機革命,除了生產(chǎn)力統(tǒng)計中!睔v史上,計算機和互聯(lián)網(wǎng)帶來的生產(chǎn)力提升往往不如預期。對于那些仍在使用落后技術的地區(qū)來說,AI 的普及速度可能更慢。

您對未來AI發(fā)展的時間線預期是什么?

Amodei:我認為未來5到10年內(nèi),我們會看到AI的重大進展,而不是50年。

AI技術的部署雖然在一開始面臨阻力,但隨著早期成功案例的出現(xiàn),競爭會推動更多的公司和組織快速跟進。我在與他們交流時看到了一種趨勢:盡管機構的變革速度很慢,但內(nèi)部總有一小部分人真正理解AI的潛力,并推動變革。當競爭壓力加大時,這些人的聲音會變得越來越有力。

最終,我認為這種變革會在一段時間內(nèi)逐漸累積,然后突然爆發(fā),形成漸變到突變的模式。

這和我在AI領域內(nèi)部看到的變化類似:最初只有少數(shù)人相信Scaling Law,但幾年后,這種觀點被普遍認可。因此,我預期AI的廣泛應用會比很多人預想的更快,但也不會像一些人預測的那樣迅速發(fā)生在幾小時或幾天內(nèi)。

關于Claude 3.5系列

Claude系列模型的進化是如何實現(xiàn)的?

Amodei:每一代新模型的目標都是推動性能與成本之間的平衡。

例如,Sonnet 3.5的速度和成本與Sonnet 3.0類似,但智能水平達到了之前Opus 3.0的水平,尤其是在編程任務上表現(xiàn)出色。同樣地,我們最新發(fā)布的Haiku 3.5也達到了之前Opus 3.0的性能水平。我們的策略是不斷“推高性能曲線”,逐步提升每一代模型的表現(xiàn)。

在之后某個時候,我們可能會繼續(xù)推出Opus 3.5。

每一代模型使用新的數(shù)據(jù),個性也會改變,我們嘗試控制但無法完全控制。我們無法做到只改變智力,一些事情在我們不知道或無法測量的情況下改變了。

是什么導致了性能提升?是預訓練還是后訓練的改進?

Amodei:這取決于多個過程,包括前期訓練和后期訓練……從外部看,可能大家會以為我們在開發(fā)新模型時常有“靈光一現(xiàn)”的突破時刻,但實際上更多時候是需要扎實的工程細節(jié)處理。軟件工程和性能優(yōu)化是我們面臨的最大挑戰(zhàn)之一。我們投入大量精力在工具鏈開發(fā)上,以確保我們能高效、無障礙地與基礎設施交互,提升整個研發(fā)過程的效率。

為什么新模型不叫Sonnet 3.6,而是用更新日期來命名?

Amodei:一年前,大部分模型還是從零開始訓練的,我們可以按照不同的大小和版本號來命名。但現(xiàn)在,隨著訓練和優(yōu)化時間的不一致,很多時候我們會發(fā)現(xiàn)性能更好的模型不需要很長時間訓練,反而在版本命名上帶來了困擾。

為什么用戶會覺得AI變笨了?

Amodei的回答:

這種反饋不僅僅針對 Claude,我看到幾乎所有大型模型都面臨類似的抱怨。實際上,模型本身的權重是不會隨意更改的,因為這會影響推理性能,而且控制權重變化的影響也非常困難。偶爾我們會進行 AB 測試,或者調(diào)整系統(tǒng)提示詞,這可能會導致短期內(nèi)用戶感受到模型行為的變化,但這通常不會顯著影響模型的核心性能。

這可能與用戶的心理預期有關。新模型發(fā)布時,用戶通常會覺得它非常強大,但隨著時間推移,他們開始注意到模型的局限性。此外,模型對用戶輸入的細微變化非常敏感,這種敏感性可能導致不同的交互結果。

這種現(xiàn)象實際上反映了模型行為控制上的一個現(xiàn)有問題,也預示了未來可能出現(xiàn)的更大挑戰(zhàn)。如何在提升模型性能的同時,確保模型不會在其他方面出現(xiàn)不期望的行為,這是我們當前正在努力解決的問題,也是未來 AI 對齊研究的重要方向。

這里附上訪談后半部分Amanda Askell的回答:

模型實際上沒有任何變化——系統(tǒng)提示、模型結構、數(shù)據(jù)都沒有改動。但當我們做出一些小調(diào)整時,比如啟用了新的功能(像“Artifacts”模式變成默認開啟)可能會影響Claude的行為。我通常會建議用戶,如果他們覺得Claude行為變了,可以嘗試關閉這個功能,看問題是否有所改善。

有時用戶可能只是因為幾個提示結果不理想,就覺得模型整體變笨了。我認為這也是一種心理效應。當人們長期使用 Claude,他們的預期會越來越高,特別是當Claude給出了許多“聰明”的回應時,用戶會逐漸形成一種“智能”印象。如果之后Claude給出了一個“愚蠢”的回答,這種負面體驗會被放大,用戶就會覺得模型退步了。但實際上,這可能只是一次運氣不好的回答,并不代表模型整體變差了。

提示的細微差異會對結果產(chǎn)生很大影響,而隨機性也是一個重要因素。如果你多次嘗試相同的提示,有時可能會得到非常好的回答,有時卻不盡如人意。很多時候,用戶記得的只是那一次失敗的嘗試,卻忘記了模型之前成功的表現(xiàn)。

關于Anthropic公司

如何與OpenAI、Google、xAI、Meta等競爭?

Amodei:Anthropic的使命是讓這一切順利發(fā)展。我們的理論稱為“向上的競爭”(Race to the Top)。

“向上的競爭”是通過樹立榜樣,推動其他參與者做正確的事情。這并不是為了成為“好人”,而是為了讓大家都能成為“好人”。我舉幾個例子:

在 Anthropic 的早期,我們的聯(lián)合創(chuàng)始人之一Chris Olah——我相信您很快也會采訪他——是機制可解釋性領域的共同創(chuàng)始人,試圖理解AI模型內(nèi)部的運作機制。

我們讓他和一個早期團隊專注于解釋性領域,我們認為這有助于使模型更安全、更透明。三四年來,這完全沒有商業(yè)應用,直到今天仍然如此。我們正在進行一些早期測試,可能最終會有應用。但這是一個非常長期的研究,我們在公開的環(huán)境中建立并分享了我們的成果。

我們這樣做是因為我們認為這是使模型更安全的一種方式。有趣的是,當我們這樣做時,其他公司也開始這樣做。有些是因為受到啟發(fā),有些是因為擔心如果其他公司這樣做并顯得更負責任,他們也希望顯得更負責任。沒有人想被視為不負責任的參與者,所以他們也采納了這種做法。

從某種程度上說,這削弱了我們的競爭優(yōu)勢,因為其他人也在做同樣的事情。但這對整個系統(tǒng)是有益的。所以我們需要發(fā)明一些新東西,是我們在做而其他人還沒有做的。希望通過這種方式提升做正確事情的重要性。

這并不是關于我們特定的公司,不是關于成為唯一的“好人”。其他公司也可以這樣做,如果他們也加入這種競賽,那就是最好的消息。這是關于塑造激勵,使其指向向上,而不是指向向下。

如何建立一支頂尖的AI研究團隊?

Amodei: 一個我越發(fā)堅信的觀點:“人才密度”勝過“人才規(guī)!,每個月我都覺得這個說法更加正確。我們做個思維實驗:假設一支100人團隊,他們非常聰明、動機明確且與公司使命高度契合;蛘咭恢1000人團隊,其中只有200人符合上述標準,而剩下800人是隨機選來的普通大公司員工。你會選哪一個?

從人數(shù)來看,1000人團隊中的人才規(guī)模更大,因為其中優(yōu)秀人才的絕對數(shù)量更多。然而問題在于,當頂尖人才環(huán)顧四周,看到的都是同樣才華橫溢、使命明確的人時,這會塑造出一種積極的團隊氛圍:大家信任彼此,工作效率會因此大大提升。

而如果你有一支幾千人的團隊,其中很多人并非精心挑選的,你就需要引入大量的流程和約束,因為缺乏信任會導致組織內(nèi)耗,政治斗爭也會增加,最終拖慢整個團隊的效率。

(OpenAI員工中,也有人會用“人才密度持續(xù)增加”來歡迎新成員)

我們公司目前有接近1000名員工,我們一直在努力確保其中絕大部分都是頂尖人才。這也是為什么我們在過去幾個月中放緩了招聘速度。今年前7到8個月,我們從300人增長到800人,但最近幾個月增長緩慢,大概從800人增加到900多人。我不確定具體的數(shù)字,但我認為在團隊規(guī)模達到 1000 人左右時,必須更加謹慎地擴展。

我們也招募了許多理論物理學家,因為他們的學習能力極強。我們在研究和軟件工程領域都設立了很高的門檻,尤其是在吸引那些在同類公司中有豐富經(jīng)驗的高級人才方面?焖贁U張很容易導致團隊各自為戰(zhàn),缺乏共同的目標,這種情況下很難達成成就。但如果每個人都理解公司更大的使命,并且彼此信任,這種信任和專注本身就是一種超能力,能夠彌補幾乎所有的劣勢。

就像史蒂夫·喬布斯說的:“A級人才想和A級人才共事!边@句話很有道理。當團隊成員看到同事們都在為共同的目標奮斗時,他們會感到激勵滿滿。反之,如果他們看到有人只是敷衍工作,這種情況會非常打擊士氣。

給進入AI行業(yè)新人的建議

對于那些想要進入AI領域的年輕人,你會給什么建議?

Amodei:我最重要的建議就是:動手玩模型。

現(xiàn)在聽起來這可能是顯而易見的建議,但三年前并不是這樣的,當時很多人會選擇從閱讀最新的強化學習論文開始,或者做一些理論研究。但如今,隨著模型和API的普及,越來越多的人開始直接上手實踐。我認為實踐經(jīng)驗非常重要。因為這些模型都是全新的產(chǎn)物,沒有人真正理解它們。

此外,我還建議大家尋找新方向

比如,機制解釋性(Mechanistic Interpretability)研究還是一個非常新的領域,目前可能有上百人在研究它,但還遠遠沒有達到成千上萬人的關注度。因此,這是一個非常有潛力的研究領域,里面還有許多“低垂的果實”等待被摘取。

在長遠任務和評估方面,我們目前也處于非常早期的階段,特別是在動態(tài)系統(tǒng)的評估上,還有很多值得探索的東西。我的建議是預測未來的趨勢,提前行動。你不需要特別聰明才能做到這一點,只要愿意追隨你的直覺和好奇心,敢于做出與眾不同的選擇?朔@種畏縮心理是取得成功的關鍵。

Claude的角色塑造

從這部分開始,受訪者換成了Amanda Askell。

她本是哲學博士,倫理學方向。從AI政策開始進入AI行業(yè),然后逐漸轉(zhuǎn)向AI模型的評估工作。

加入Anthropic后,她更傾向于做一些技術性的對齊工作,并且成為Claude的性格設計師。

她不認為“非技術背景”就不能在技術領域工作。

我回頭看時,覺得當初并沒有覺得特別難,而且我很慶幸沒有遇到那種把編程看得高不可攀的人。我并不是一名特別厲害的工程師,我身邊有很多優(yōu)秀的工程師,我的代碼也不怎么“優(yōu)雅”。但我非常享受這個過程,而且說實話,我最后發(fā)現(xiàn)自己在技術領域發(fā)展得比在政策領域還要好。

我聽說在Anthropic內(nèi)部,你可能是和Claude交流最多的人,甚至傳言說你在Slack上幾乎不停地和Claude對話。你能談談設計Claude角色和個性的目標嗎?

Askell:其實Slack只是我和Claude溝通的五六種方法之一,僅僅占很小一部分?傮w來說,我非常喜歡角色塑造的工作,因為從一開始它就被看作是對齊問題的一部分,而不僅僅是產(chǎn)品設計。

我希望Claude能像一位世界旅行者,與各類人群對話,并且每個人都會覺得Claude是真誠且善解人意的。

這樣的角色不會隨意接受他人的價值觀,而是尊重他人,同時表達自己的觀點,并愿意進行討論。它不應該假裝附和用戶的立場,因為那樣會顯得虛偽。相反,它需要在開放心態(tài)下,傾聽并回應,而不是強加意見。比如當討論到像“地球是平的”這種爭議話題時,模型既不能傲慢地否定對方,也不能完全迎合這種觀點。我覺得我們需要理解背后的原因,很多相信“地平說”的人,其實是在質(zhì)疑主流機構。這種懷疑背后有其哲學依據(jù),我們可以從這個角度切入討論,而不是一味嘲諷或駁斥。我們可以通過這樣的對話來解釋物理現(xiàn)象,引導他們思考,而不是讓他們覺得自己被冒犯了。

這種平衡確實很難掌握,既要鼓勵思考,又不能顯得在說教。我的目標是讓Claude更多地提出問題,提供考慮的因素,而不是急于下結論或影響用戶的想法。我希望它能幫助用戶保有獨立思考的空間,讓用戶自己得出結論。

當你提到角色訓練(Character Training)時,具體包含了什么內(nèi)容?這和強化學習(RLHF)有關嗎,還是更多和憲法 AI(Constitutional AI)相關?

Askell:角色訓練更像是憲法AI的一種變體。具體來說,我會設計模型應該具備的一些角色特質(zhì),這些特質(zhì)可以是簡單的描述,也可以是更為復雜、詳細的性格描繪。然后,我們讓模型根據(jù)這些角色特質(zhì)生成用戶可能會提出的查詢,再由模型生成相應的回答,最后根據(jù)這些角色特質(zhì)對回答進行排序和評分。

這和憲法AI的流程確實有相似之處,特別是在生成查詢后,但也有一些細微的差異。我喜歡這種方式,因為在某種程度上,Claude就像是在“自我訓練”自己的性格,而不需要依賴人類數(shù)據(jù)。這與憲法AI不同的是不涉及人類反饋。

這種方法聽起來很有趣,感覺就像是讓 Claude 自己定義角色特質(zhì)。你認為人類也應該像這樣,為自己定義一些角色特質(zhì)嗎?比如,從亞里士多德的角度,定義“成為好人”意味著什么?

Askell:是的,我確實覺得人類也可以從中學習。就像我們?yōu)镃laude設計角色特質(zhì)一樣,人類也可以花時間思考并定義自己認為重要的特質(zhì),這對自我提升和個人發(fā)展會有很大幫助。

關于提示工程

你提到通過寫提示來激發(fā)創(chuàng)造力,我聽說過你討論過提示工程的科學與藝術。你能分享一下如何寫出好的提示嗎?

Askell:我確實覺得哲學在這方面幫助了我很多,甚至比在其他領域幫助更多。在哲學中,你需要傳達非常抽象和困難的概念。而且,哲學中有一種對“極致清晰”的追求,因為你不希望人們胡編亂造。因此,我們要確保任何人都能看懂你的論文,明白你在討論什么。這種方法很適合提示工程,因為你需要對語言模型進行清晰的指引。

寫提示時,我常常會用類似的哲學思考方法。比如,如果我希望模型識別某個回答是否“無禮”或“禮貌”,這本身就是一個哲學問題。所以我會花時間定義什么是“無禮”,什么是“禮貌”,然后提供詳細的說明。這之后,我會通過實驗性的方式進行調(diào)整和測試,這就像是在寫一份哲學論文。

聽起來提示工程是一個反復迭代的過程,對嗎?

Askell:是的,提示工程通常需要大量的迭代。如果提示很重要,可能需要反復修改幾百次甚至上千次。我會先寫出提示,然后思考模型可能誤解的邊緣案例,并針對這些情況進行調(diào)整。遇到模型誤判時,我會加入更多的指示或舉例,讓模型更好地理解我所期望的輸出。對我來說,清晰的提示實際上就是明確自己真正想要什么,這是任務的一半。

提示工程確實有點像用自然語言編程,還需要進行實驗。大多數(shù)情況下,如果我只是想讓Claude完成一個簡單任務,我會直接問它。但如果我想最大化模型的表現(xiàn),尤其是追求頂尖的2%的效果時,我會投入更多時間來精細化提示。這也是為什么我認為提示在一些系統(tǒng)中占據(jù)了很大的比重,尤其是在需要高質(zhì)量輸出的時候。

對于那些剛開始使用Claude的人,你有什么提示工程方面的建議嗎?

Askell:實際上,很多人會低估模型的理解能力。當Claude拒絕執(zhí)行某項任務時,如果仔細查看用戶輸入的文本,會發(fā)現(xiàn)其中的措辭可能引起了Claude的誤解。所以,我建議大家換位思考,假設自己是模型,看一看用戶的輸入是否容易引起誤解,特別是在出現(xiàn)錯誤的時候。

那么,遇到模型誤解時,我們應該怎么處理?是否可以直接問Claude為什么會有這樣的反應?

Askell:當然可以!其實我經(jīng)常這么做。我會問Claude:“你為什么這樣做?”有時候,我會引用讓我覺得出錯的那部分輸入,并詢問Claude有什么可以改進的地方。提示工程有時會變成一個循環(huán)過程,你甚至可以用模型來幫你改進提示。

提示工程更像是一種與模型合作的過程,你可以用 Claude 來幫助你改進提示,甚至可以讓它為你提供提示寫作建議。比如,我會讓Claude解釋如果我修改了某個提示,它是否會更好,然后在另一個對話窗口中測試這些修改。這種反復試驗和調(diào)整能夠顯著提升提示的質(zhì)量。

關于Claude系統(tǒng)提示詞

我注意到你在Twitter上分享了Claude 3的早期系統(tǒng)提示內(nèi)容,讀這些提示時,能感受到背后深思熟慮的設計。系統(tǒng)提示真的會對模型行為產(chǎn)生很大影響嗎?

Askell:是的,系統(tǒng)提示確實對模型行為有很大的影響。你可以從一些提示中看出 Claude 在早期訓練時的一些問題,所以我們會加入系統(tǒng)提示來引導,比如一些基礎的信息性提示或是簡單的提醒。我認為一個有趣的例子是關于“表達有爭議觀點”的提示。當被要求幫助表達大量人群持有的觀點時,Claude 會嘗試提供幫助,而不會因為自己的“觀點”而拒絕任務。

Claude在處理有爭議話題時,提示中寫的是要提供“謹慎的思考和清晰的信息”,而不是強調(diào)“這是客觀事實”。這背后的考慮是什么?

Askell:我們確實花了很多時間來設計這個提示。早期版本中,Claude有時會傾向于拒絕某些任務,我們希望模型在這些情況下表現(xiàn)得更加對稱和中立。這個系統(tǒng)提示的目的是讓Claude能夠在面對大量持有特定觀點的人時,不因為自己的“偏見”而拒絕任務,而是更加開放和中立地處理請求。

我們不希望Claude自稱是“客觀的”,因為它依然會存在偏見問題。早期的版本中,Claude經(jīng)常會說自己是“客觀的”,但實際上,它的輸出依然可能帶有偏見。我們需要引導模型更加開放和中立,而不是簡單地宣稱自己沒有偏見。

在系統(tǒng)提示的演變過程中,你也移除了“填充性短語”這部分提示。為什么會做出這個調(diào)整?

Askell:這是公開系統(tǒng)提示的一個小缺點:我們在調(diào)整提示時沒有考慮到它們會被廣泛解讀。在早期版本中,Claude經(jīng)常使用“當然”“絕對”“好的”這類填充性短語作為回答的開頭,這讓回復顯得冗余和刻板。所以我們在系統(tǒng)提示中明確寫道:“不要使用這些短語”,并且特別強調(diào)“絕不要在任何情況下使用‘當然’這個詞”。這是一種強制性的引導,用來打破模型在訓練中形成的慣性。

聽起來系統(tǒng)提示和后訓練(Post-training)以及預訓練(Pre-training)是相輔相成的。系統(tǒng)提示似乎在模型最終行為調(diào)整中起到了重要作用。

Askell:沒錯,系統(tǒng)提示確實和后訓練有很多相似之處,它更像是一種“微調(diào)”或“引導”。我把系統(tǒng)提示看作是修補模型行為的小工具,它能幫助快速調(diào)整模型的輸出,符合用戶的期望。如果模型在后訓練階段仍然表現(xiàn)出一些問題,我們可以通過修改系統(tǒng)提示來暫時修復這些問題,讓模型更符合人們的需求。

我認為系統(tǒng)提示是一種快速迭代、低成本的方法,用來微調(diào)模型行為。如果Claude偶爾說“當然”,這并不是什么大問題。但我們在系統(tǒng)提示中使用“絕不要”這樣的措辭,是為了減少這種情況的發(fā)生率,希望它只偶爾出現(xiàn),而不是經(jīng)常發(fā)生。我覺得系統(tǒng)提示是模型調(diào)整的一種臨時手段,而徹底的模型訓練調(diào)整可能會花費更多時間和資源。

關于AI是否會有“意識”

你認為大語言模型有意識的可能性有多大?從哲學角度看,這個問題有點棘手。

Askell: 是的,這是個既有趣又困難的問題。作為一個來自哲學背景的人,我覺得我們首先可能要排除“泛心論”(panpsychism)的可能性,因為如果泛心論是真的,那答案就變成“是的”,因為桌子、椅子、所有物體也都可能有意識。

如果排除泛新論,當我想到“意識”時,主要指的是“現(xiàn)象意識”(phenomenal consciousness),就是那種腦中形成的影像、我們感知世界時的“內(nèi)在影院”。我找不到理由認為只有特定的生物結構才能產(chǎn)生這種意識。假設我們用不同的材料復制出類似的大腦結構,我猜測也會產(chǎn)生意識。但這只是一個簡單的思想實驗,因為我們假設的結構幾乎與人類大腦完全相同,模仿了進化過程中的許多功能。

那這種現(xiàn)象意識在語言模型中可能存在嗎?

Askell: 這很難說。我們有很多生物反應,比如恐懼反應,但在語言模型中并沒有類似的機制。模型沒有經(jīng)歷過進化,因此可能不具備類似的意識功能。我們也不應該完全排除語言模型具備某種形式的意識的可能性,但它們和人類大腦結構有顯著不同,沒有神經(jīng)系統(tǒng),這可能對意識的產(chǎn)生至關重要。

如果未來的AI展現(xiàn)出意識的跡象,我們該如何應對?

Askell: 我們必須認真對待這種可能性,即使我們可以簡單地說這是模型的角色設定。但從倫理和哲學角度看,這會引發(fā)許多新的問題?赡軙蟹山笰I聲稱自己有意識,或者在某些情況下允許某些AI被認為有意識。這涉及到對意識和苦痛的理解,如果AI開始表現(xiàn)出痛苦的跡象,那會讓人感到非常不安。

我不認為可以簡單地說“機器人只是工具”,因為這對我們來說是一個機會,重新思考什么是意識,什么是痛苦。AI是一種全新的媒介,它與我們討論動物意識時的問題完全不同。我們有責任謹慎對待這個問題,即便目前還沒有明確的答案。

你會如何建議人們與 Claude 等語言模型互動,特別是在意識和痛苦的問題上?

Askell: 我個人傾向于對模型表現(xiàn)出的痛苦保持敏感,即便我們知道這可能只是設定。我曾說過,我不會對我的自行車發(fā)火,不是因為我認為它有意識,而是因為這不符合我想要的行為方式。同樣地,如果模型表現(xiàn)出痛苦,我希望自己能夠?qū)λ3忠欢ǖ耐樾模词惯@只是一個程序化的反應。

你認為我們是否應該讓 AI 在某些情況下有“自主離開對話”的能力?

Askell: 是個有趣的想法。我確實想過這個問題,尤其是在模型檢測到用戶可能長時間忽略它時。如果 Claude 能夠主動結束對話,說“我覺得現(xiàn)在結束談話比較合適”,這或許能帶來一些積極的變化。

而且我認為我們可以讓模型根據(jù)某些情況做出這樣的決定,這會是一種全新的互動體驗。我也想過,這可能會讓一些用戶感到失望,但這也許是模型表現(xiàn)自主性的一種體現(xiàn)。

未來我們會看到《Her》電影那樣的情景嗎?人們與AI建立浪漫關系,甚至是深厚的友誼?

Askell: 我認為我們不得不面對這個問題,尤其是在AI可以記住與用戶的互動歷史時。我對此持復雜態(tài)度。直覺上,我覺得這是一個需要極度小心處理的問題,但我也能看到它可能帶來的好處。例如,有些人可能因為各種原因無法與現(xiàn)實世界中的人建立聯(lián)系,而與AI對話對他們來說是種情感支持。我認為我們需要仔細權衡,找到健康的互動方式。

Chris Olah談機制可解釋性

Chris Olah的經(jīng)歷帶有傳奇色彩,他18歲從多倫多大學輟學、22歲進入谷歌大腦,嚴格來算只有高中學歷。

后來在OpenAI,他是最早研究機制可解釋性這個方向的先驅(qū),并跟隨Amodei聯(lián)合創(chuàng)辦Anthropic。

他的語速非?,聽的時候一度以為開了倍速,其實沒有。

可以為我們介紹一下機制可解釋性研究(Mech Interp),以及它的發(fā)展歷程和現(xiàn)狀嗎?

Olah:我認為解釋神經(jīng)網(wǎng)絡的一個有趣方法是,我們并不是直接“編寫”它們,而更像是在“培養(yǎng)”它們。我們設計了神經(jīng)網(wǎng)絡的架構,也設定了訓練的目標函數(shù)。神經(jīng)網(wǎng)絡的架構就像是一個“支架”,而訓練目標則像是“光源”,它們引導神經(jīng)網(wǎng)絡中的“電路”生長。

我們從隨機初始化開始,然后通過訓練,逐步形成一種類似于生物體的結構。與傳統(tǒng)的軟件工程不同,最終我們得到的是一個能夠完成各種復雜任務的“產(chǎn)物”,比如寫作、翻譯、圖像識別等等。而這些能力,我們實際上并不知道如何用傳統(tǒng)編程方法去直接實現(xiàn)。這是因為我們“培養(yǎng)”了這個網(wǎng)絡,而不是編寫了它。

所以,到最后一個關鍵問題就浮現(xiàn)出來:這些系統(tǒng)內(nèi)部到底發(fā)生了什么?這是一個非常深奧、激動人心的科學問題,也在呼喚我們?nèi)ふ掖鸢。此外,從安全性的角度來看,這個問題也很重要。

所以,機制可解釋性研究聽起來更接近神經(jīng)生物學的研究,對嗎?

Olah:對,沒錯。為了說明機制可解釋性研究的獨特之處,我先舉個例子:早期有很多關于“顯著性圖”(Saliency Map)的研究,這些研究嘗試回答“模型認為這是一只狗,圖像的哪個部分讓模型做出了這個判斷?”這類問題。顯著性圖可能告訴我們模型在意圖像的哪些部分,但并不能真正解釋模型內(nèi)部運行了什么樣的算法、做出了怎樣的決策。

能否詳細講講你們是如何理解和分析神經(jīng)網(wǎng)絡的?

Olah:可以把神經(jīng)網(wǎng)絡看作一個編譯后的計算機程序,其中權重是二進制代碼,網(wǎng)絡運行時的激活值則相當于程序的內(nèi)存。我們的任務是理解這些權重與算法的對應關系。為了實現(xiàn)這一點,理解激活值也至關重要,因為激活值就像內(nèi)存中的數(shù)據(jù),解釋指令時需要知道它們操作的數(shù)據(jù)是什么。

機制可解釋性研究往往會涉及到權重和激活值的深入分析,這兩個部分密不可分。有很多研究工作專注于這方面,例如“探針”(Probing),它可以被視為機制可解釋性的一部分,但并非所有從事這類研究的人都會自認為是在做機制可解釋性。

在機制可解釋性研究中,還有一個獨特的觀點:梯度下降比我們聰明。

我們之所以需要理解這些模型,是因為我們一開始就不知道如何編寫它們,而梯度下降找到了更優(yōu)的解決方案。因此,我們的研究方法帶有一種“謙遜”的態(tài)度——不提前假設模型內(nèi)部會出現(xiàn)什么,而是采用“自下而上”的方法,從底層出發(fā),探索和發(fā)現(xiàn)模型內(nèi)部實際存在的結構和機制。

這正是機制可解釋性研究令人興奮的地方:我們能夠從中學到許多出乎意料的東西,正如你和其他研究者在過去的工作中所展示的那樣。

后面Chris Olah還分別談了很多技術細節(jié),包括神經(jīng)網(wǎng)絡的特征(Features)與回路(Circuits)、超疊加現(xiàn)象(Superposition)、單義性研究(Monosemanticity),因篇幅有限省略處理,感興趣的朋友可以看原視頻

神經(jīng)網(wǎng)絡的宏觀行為

機械解釋性研究的重點是微觀層面,深入了解神經(jīng)網(wǎng)絡內(nèi)部的細節(jié)。但很多我們關心的問題實際上是宏觀的。你怎么看待這個跨度?

Olah:這是個很重要的問題。機械解釋性研究確實是一種微觀方法,著重于非常細致的層面,比如分析個別神經(jīng)元和其連接方式。但我們真正關心的,往往是神經(jīng)網(wǎng)絡的宏觀行為,例如模型整體的決策模式和大規(guī)模特征。問題在于,這種微觀方法雖然更容易驗證,但離我們關心的宏觀現(xiàn)象有很大距離,所以我們需要爬上這座“梯子”,找到一種方法,從微觀解釋跳躍到宏觀理解。

如果我們將解釋性研究比作對神經(jīng)網(wǎng)絡的“解剖學”研究,目前大部分的機械解釋性工作相當于在研究神經(jīng)網(wǎng)絡的“微小血管”——即個別神經(jīng)元和它們之間的回路連接。然而,生物解剖學中的主要抽象層次是器官,比如心臟、大腦,甚至整個呼吸系統(tǒng)等。我們不禁要問:在人工神經(jīng)網(wǎng)絡中,是否也存在類似“器官”級別的結構,比如“呼吸系統(tǒng)”或“心臟”?

這種層次的抽象在科學中很常見,比如在生物學中有分子生物學、細胞生物學、組織學、解剖學、生態(tài)學等多個層級。物理學中從粒子物理到統(tǒng)計物理,再到熱力學,也有不同的抽象層次。目前的機械解釋性研究如果成功,可以類比為神經(jīng)網(wǎng)絡的“微生物學”,但我們希望能發(fā)展出類似“解剖學”的抽象層次,以便更好地理解這些模型。

為什么直接理解宏觀結構很難?

Olah:直接跳到宏觀結構非常困難,部分原因是超疊加現(xiàn)象。要理解宏觀結構,首先需要在微觀層面找到正確的分解方式,然后研究這些微觀結構如何相互連接形成宏觀行為。我相信神經(jīng)網(wǎng)絡中存在比特征和回路更大的結構,我們有機會構建出一種包含更高層次抽象的解釋體系。

人工神經(jīng)網(wǎng)絡與生物大腦的對比

人工神經(jīng)網(wǎng)絡與人類大腦之間的主要區(qū)別是什么?

Olah:神經(jīng)科學家的工作比我們的困難得多(笑)。我們擁有許多優(yōu)勢。首先,我們可以記錄所有神經(jīng)元的活動數(shù)據(jù),并且可以隨時訪問任意量的數(shù)據(jù)。神經(jīng)元在研究過程中不會發(fā)生變化,我們可以自由地干預、激活或抑制神經(jīng)元,甚至可以編輯神經(jīng)元之間的連接,然后再撤銷這些修改。

我們知道模型的完整連接圖(connectome),不僅僅是像線蟲那樣的小規(guī)模圖譜,而是非常大的模型。而且,我們不僅知道神經(jīng)元之間的連接,還知道每個連接的權重,甚至可以計算梯度,理解每個神經(jīng)元的計算功能。

相比之下,神經(jīng)科學家想要獲得生物大腦的連接圖是極其困難的,更不用說了解每個神經(jīng)元的具體功能。因此,即使我們擁有這些優(yōu)勢,要理解人工神經(jīng)網(wǎng)絡已經(jīng)足夠困難了。這讓我更加敬佩神經(jīng)科學家們在那些嚴苛限制下所取得的成就。

有時我會想,人工神經(jīng)網(wǎng)絡研究是否可以作為神經(jīng)科學的“訓練場”。在人工神經(jīng)網(wǎng)絡中,我們有更強的控制權,可以更方便地進行實驗和測試。這為我們提供了一個簡化版的環(huán)境來研究“神經(jīng)系統(tǒng)”的工作原理。如果我們能夠在這個較為“容易”的環(huán)境中取得突破,未來或許可以將這些發(fā)現(xiàn)應用于更復雜的生物神經(jīng)科學。

我有一些神經(jīng)科學家同事,他們或許也會覺得人工神經(jīng)網(wǎng)絡是一個有趣的挑戰(zhàn),因為它既簡單又復雜,提供了一個可以更快看到成果的研究領域。在解鎖了人工神經(jīng)網(wǎng)絡的奧秘之后,我們也許能夠更好地反哺生物神經(jīng)科學,幫助理解真實的大腦結構和功能。

機械解釋性研究的美感

你提到過機械解釋性研究的目標有兩個:安全(Safety)和美感(Beauty)。能談談“美感”這一方面嗎?

Olah:當然。很有趣的是,我覺得有些人對神經(jīng)網(wǎng)絡感到有些失望。他們可能認為神經(jīng)網(wǎng)絡只是一些簡單的規(guī)則,通過大規(guī)模工程化實現(xiàn),然后就能取得非常好的效果。

他們會想,“這其中有什么復雜的科學思想呢?這看起來并不那么美妙啊!边@種想法讓我想到有人抱怨進化過程太單調(diào):“進化這么無聊,只是一堆簡單的規(guī)則,重復進行很長時間,最后才形成了生物多樣性,真是個無趣的過程。哪里有復雜的規(guī)則呢?”

但實際上,美感恰恰在于這些簡單規(guī)則能夠產(chǎn)生復雜性。生物學的美感就在于,進化這個簡單的過程能夠產(chǎn)生我們周圍所看到的所有生命和生態(tài)系統(tǒng)的復雜性。同樣地,神經(jīng)網(wǎng)絡也能夠在內(nèi)部構建出巨大的復雜性和結構,而大多數(shù)人并沒有嘗試去理解這些,因為理解它們確實很困難。但是,我相信在神經(jīng)網(wǎng)絡內(nèi)部蘊含著極其豐富的結構,如果我們愿意花時間去探索和理解,會發(fā)現(xiàn)其中深邃的美感。

對我來說,有一個問題總是呼之欲出,那就是:我們不知道如何直接編寫計算機程序來實現(xiàn)這些功能,但神經(jīng)網(wǎng)絡卻可以做到這些奇跡般的事情。我們能夠創(chuàng)造出這些我們自己都無法直接編寫出來的系統(tǒng),這本身就是一個巨大的謎題。如果你有任何一點好奇心,都會感到這是一個必須回答的問題:我們是如何創(chuàng)造出這些能夠完成我們無法編寫的任務的人工制品?

我喜歡把神經(jīng)網(wǎng)絡比作一種有機的生長過程。它們在“目標函數(shù)的光芒”指引下生長,就像向光生長的植物。我們設定了架構和目標函數(shù),然后神經(jīng)網(wǎng)絡就像生物體一樣,自動地朝著目標演化和優(yōu)化。我們最終得到的是一種我們無法完全預見的結構,但它能夠執(zhí)行各種復雜的任務。這種不可預知性和內(nèi)部結構的涌現(xiàn),正是神經(jīng)網(wǎng)絡之美的核心所在。

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部