我們距離能做「慢思考」的 AI,還有多遠
去年在 Sam Altman 被臨時開除前后,有 OpenAI 的研究人員向董事會發出聯名信,指出代號為 Q 的神秘項目可能會威脅全人類。OpenAI 在后續給員工的內部信承認了 Q*,并將這個項目描述為「超越人類的自主系統」。
雖仍未見過 Q*,但江湖中,它的傳言一直都在。
谷歌 DeepMind 資深工程師盧一峰曾從專業的角度向極客公園作出猜想,Q*可能類似「慢思考」的能力——需要模型意識到它對什么問題沒把握,沒把握以后應該怎么辦。這時,模型可能需要像人類一樣,上網、翻書、做實驗、想一些莫名其妙的想法、跟別人討論……。
今年在各個大模型廠商的 AI 助手類 App 里提問題,能夠感受到比去年更靠譜的回答,不少廠商也表示正在發力讓模型多一些思考,進一步提升推理能力。目前進展如何?
對于上述問題,The Information 記者 Stephanie Palazzolo 在《How OpenAI's Smaller Rivals Are Developing Their Own AI That 『Reasons』》一文中,探討了現有創業公司提升模型推理能力的模式,包括中國公司的 Q*。經極客公園整理,如下:
OpenAI 的小型競爭對手開發自己的「推理」AI
剔除泡沫,這波 AI 到底有多大用,是今年被放在聚光燈下反復審視的話題。
大模型的原理是根據概率預測,生成一個一個詞元,但憑訓練時被喂的語料鸚鵡學舌,遇到沒有見過的提問就幻覺般編造,顯然不是大家的期待。進一步提升模型的推理能力,成為關鍵。
在這方面,我們仍未見到 OpenAI 和谷歌的進展,但一些創業公司和個人表示,他們已經想出了一些「便宜的」方法(cheap hacks)來實現 AI 在某些形式的推理能力。
這些捷徑包括將一個復雜的問題分解成更簡單的步驟,并另外向模型提出幾十個問題來幫助它分析這些步驟。
舉個例子,當被要求起草一篇關于新產品的博客文章時,AI 應用會自動觸發額外的查詢(query),比如要求大模型評估它(準備生成)的答案以及需要改進的地方。當然,在用戶界面,看不到模型在后臺做的這些動作。
這類似于蘇格拉底(Socratic)教學生批判性地思考他們的信仰或論點的方法。后者采取一種問答式的教學方法,在與學生交流時,蘇格拉底不會直接給出答案,而是通過不斷提問,引導學生自己去發現問題、揭示其觀點中的矛盾和不足之處,并逐步修正,得出正確的結論。
有了這個環節,AI 應用可以要求大模型重寫上述的博客文章,寫的時候把它剛剛給自己的反饋考慮在內。這個過程通常被稱為反思(reflection),一位 AI 應用的創業者表示,這通常會帶來更好的結果。
除了反思的方式,開發者還可以效仿谷歌,嘗試一種叫做抽樣的技術。在抽樣過程中,開發人員通過問同樣的問題幾十次甚至 100 次,然后選擇最佳答案,以此來提高大模型產生創造性和隨機答案的能力。
例如,一個編程助手 App 可能會就同一個問題,讓大模型給出 100 種不同答案,然后這個 App 再去運行所有這些代碼片段。最終編程助手 App 會選擇產生正確答案的代碼,并自動選擇最簡潔的代碼。
Meta 在其最近的 Llama 3 論文中也強調了一些類似的技術。
但這種解決方法——調用一個大型語言模型 100 次,或者要求它輸出這么多文本和代碼,是一種極其緩慢且成本高昂的方式。這可能就是為什么一些開發者批評了由 Cognition(一家使用這些技術的初創公司)制作的編程助手,因為它的性能緩慢。
開發者也看到了這個問題,他們正在嘗試解決。方法是選取對特定問題表現出良好推理能力的模型示例,并將它們「喂」回模型的訓練數據集中來解決這個問題。就像一位創業者說的,這種方式類似于在小學學習乘法表。最初,學生可能需要手動計算每一個乘法問題。但隨著時間的推移,他們記住了這些乘法表,答案幾乎成為學生直覺的一部分。
要開發這種 AI,開發者需要對大模型進行控制。但你很難從 OpenAI 或 Anthropic 的閉源模型中得到掌控感,所以他們更有可能使用像 Llama 3 這樣的開放權重模型(開放權重是開源界的術語,意思是開放程度高的代碼)來完成這項任務。
上面兩種方法可能就是 OpenAI 在推理取得突破背后,所使用的技術。當然,OpenAI 現在還尚未發布 Q*,后者又被稱為「草莓」(Strawberry)項目。
中國的 Q*
中國的開發者和研究人員也逐漸掌握了這些技術。
中國 Skywork AI(天工 AI)和南洋理工大學 (Nanyang Technological University) 研究人員在今年 6 月發表了一篇關于這個問題的論文。在這篇文章中,他們也將這項技術命名為 Q*,以紀念他們從未見過的 OpenAI 的版本。
中國的 Q*技術可以讓大模型解決具有多個步驟的問題,比如復雜的邏輯謎題。
方法是通過在答案的每一步中「搜索」大模型應該嘗試的最佳的下一步,而不是跟隨步驟得出結論(該方法也被稱為蒙特卡洛樹搜索,早先被用于谷歌 AlphaGo)。這是通過一個特殊的方程式實現的,這個方程式被稱為 Q 值模型,幫助大模型估計每個可能的下一步的未來回報——或者說最終答案正確的可能性。
研究人員表示,他們計劃在今年秋天公開發布這項技術。
一家智能體創業公司 Minion AI 的 CEO 亞歷克斯·格雷夫利,同時也是 GitHub Copilot 的前首席架構師表示,他們還在嘗試教大語言模型在意識到出錯時回退到前一步。他稱,當大模型產生了一個錯誤答案,或者被要求反思其中間步驟時(類似于上面博客帖子中的例子),這種意識就可能發生,意識到已經犯了一個錯誤。
業界還有更多的嘗試,包括斯坦福大學和 Notbad AI 在 3 月發表的「Quiet-STaR」論文。就像人類在說話或寫作前會先停下來思考自己的想法一樣,這篇論文解釋了如何教會大語言模型生成關于它們在復雜推理問題中,所采取的內部「思考」步驟,以幫助它們做出更好的決策。
OpenAI 的 Q*/Strawberry 技術可能已經領先一步,但其他所有人似乎都在競相追趕。