大模型的中場戰事:CoE or MoE ?

摘要

大模型產業有自己的流水線

殘暴的歡愉,終將以殘暴結束。

 

當盛宴開啟之時,沒人想到,大模型的淘汰賽,會來的如此之快。

火藥味首先表現在創投市場。PitchBook 最新報告披露,相比 2023 年一季度,全球 2024 年一季度大模型融資額,從 216.9 億美元增長到了 258.7 億美元,但涉及的交易數量,卻從 1909 筆下滑至 1545 筆——產業格局正迅速向強者收攏。

大廠的價格戰,則徹底關上了后來者進入的大門。5 月 6 日,幻方量化率先打響降價「大戰」第一槍,隨后將字節、百度、阿里、京東、騰訊、智譜,全部拖下水,輕量級模型每千 tokens,價格內卷「從分到厘」。不到一個月時間里,后來者的感慨就從跟不上,變成了跟不起。

秋風掃落葉式的前后夾擊,使得短短兩年不到,技術尚未走到盡頭,產業側就完成了從萌芽到江山初定的格局演練。

然而,勝利者同時也被拖入了另一場更漫長的消耗戰中。三朵陰云始終判斷在大模型行業的頭頂揮之不去:

以目前的技術迭代速度,GPU 還夠嗎?究竟是模型參數的膨脹速度更快,還是賬上現金的消耗更快?十項全能、沒有幻覺的通用大模型,真存在嗎?

當問題變得無解,過度的追求模型的技術領先,也就成為了一種詛咒。

當淘汰賽暫時畫上休止符,行業開始決定換一種活法。

 

01 一當暴力不再有奇跡,大模型正陷入技術的詛咒

絕對的大參數,或許并不是大模型落地的唯一解法。

這句話,正逐漸成為大模型產業的共識。·

其中,參數做大路上的第一個隘口,正是這場盛宴中最大的獲勝者——英偉達。

最近,一份出自 Meta 研究報告顯示:其最新的 Llama 3 405B 參數模型在 16384 個 Nvidia H100 GPU 組成的集群上訓練時,54 天內經歷了 419 次意外,訓練期間平均每三個小時就發生一次故障。與此同時,每次的單個 GPU 故障,都會中斷整個訓練過程,導致訓練重新啟動。

簡單翻譯來說,當前的大模型參數量,已經接近硬件所能支撐的極限。即便有無窮無盡的 GPU,也不再能解決大模型訓練中的算力模型。如果朝著擴大參數的路上繼續狂奔,那么訓練的過程,將變成西西弗斯推石頭式的無限重來。

硬件增大了大模型擴張的難度,細分場景中,智能程度不再與參數量成正比,則從實用角度為這場暴力的歡愉畫上了一個大大的問號。

大模型的場景正不斷變得復雜化和專業化、碎片化,想要一個模型既能回答通識問題,又能解決專業領域問題,幾乎異想天開。

一個國內大模型廠商最愛使用的技術比較維度是:與 GPT4 比詩詞賞析和弱智吧段子,幾乎無一例外,無論模型大小,開源模型套殼與否,國產大模型全數吊打「世界第一」。甚至,在最基礎的魯迅與周樹人的關系這樣的文學常識題上,最優秀的大模型,也比不過一個最傳統的搜索引擎。

回歸到實際應用中,商業化的不可能三角,徹底為參數信徒們兜頭澆來一盆涼水。

在實際應用中,除了模型的智能程度,產品經理們還需考慮速度與成本兩大因素。通常 來說,在問答中 1 秒內的響應速度,99% 的準確率,以及能打平成本的商業模式,會是一個大模型生存的必要條件。

但使用大參數路線推高智能,往往也就意味著智能程度越高,產品的應答速度越慢,成本越高,反之亦然。

如果一味由著參數無限制擴張,AI 也將無可避免的變成一場資本的戰爭,但擴張的代價,卻遠遠超過歷史上的任何一場同等階段的商業比拼……對已經踩下油門的玩家來說,只有把籌碼加到對手跟不起的水平,才能讓自己輸得不會太慘。

于是,面對隱約可及的天花板,行業的課題開始轉向:如果萬能模型不存在,暴力無奇跡,行業要去往哪里?

 

02 大模型的 T 型車時刻:CoE or MoE?

當一個大模型同時完成通用+專業的可行性被堵死,多模型聯合分工成為了行業第二階段的主旋律。

 

1913 年, 福特公司創造性的將屠宰線思路引入汽車產業,開發出了世界上第一條流水線。汽車生產,自此從老師傅手工組裝,邁入工業化進程,一輛汽車的生產時間壓縮近 60 倍,售價降低也足足一倍有余。汽車制造,自此邁入一個新的時代。

同樣的 T 型車時刻,也發生在大模型產業。

以最典型的場景翻譯來說,一個好的翻譯,應達到信達雅三層境界。但在大模型的世界里,傳統翻譯大模型只能做到信,達與雅,則依靠寫作大模型才能完成。

但關于何如進行多模型分工,行業則分成了旗幟鮮明的合縱派與連橫派。

合縱派的技術思路是 MoE。

所謂 MoE(Mixture-of-Experts),翻譯成中文就是混合專家模型,將多個細分領域的專家模型組合成一個超級模型。早在 2022 年,Google 就提出了 MoE 大模型 Switch Transformer,使得其憑借 1571B 的參數量,也能 在預訓練任務上顯示出比 T5-XXL(11B)模型更高的樣本效率(更準確,且計算成本沒有顯著提升)。

不僅如此,美國知名駭客 George Hotz 與 PyTorch 的創建者 Soumith Chintala 也先后表示,GPT4 也是由 8 個 220B 參數量的 MoE 模型組成的 1760B 參數大模型,算不嚴格意義的「一個」萬億模型。

然而,這種 8 合一的思路,也導致了 MoE 的設計與每次升級迭代都需要花費巨大的資源。類似日常爬山,爬一座 8848m 高的珠穆朗瑪峰的難度,遠不是爬 8 次海拔 1108 米的雁蕩山耗費體力的加和。因此,有能力參與的,往往都是 8 項全能其具備絕對領先優勢的 AI 技術龍頭。

于是,隨著 MoE 逐漸成為寡頭的游戲,一種新的技術思路走上臺前——連橫派的 CoE。

CoE(Collaboration-of-Experts),即專家協同模型。通俗來說,一個入口同時接入多家模型,而入口會在模型分析之前,增加一個意圖識別環節,然后才進行任務派解,決定任務是由哪款模型起作用,或者哪幾款模型打配合。相對于 MoE,CoE 最大的優勢是,各個專家模型之間可以彼此協同工作,但不存在綁定關系。

相比 MoE,CoE 的每個專家模型之間有更多的協同,更精準的分工,并且更靈活、更專業細分。這一思路,相比 MoE,具有更高的效率,和更低的API接口和 Token 使用成本。

那么,MoE 與 CoE 哪種路線會更占上風?

 

03 另一種解題思路:什么決定了用戶的智能體驗?

當周鴻祎一襲紅衣轉型 AI 教父時,360 內部,關于如何 CoE 與 MoE 路線的論證,也在最近一年多時間里反復上演。

如果走 MoE,360 多年技術的積累,足以支撐打完這場仗。

而走 CoE,就意味著與更多的大模型廠家同分一杯羹。

「三個臭皮匠,頂一個諸葛亮」給了 360 集團副總裁梁志輝啟發,要將寶壓在 CoE 上:

一家企業,哪怕做到 Open AI 式「8 項全能」,依然不免存在短板。但如果將最優秀的大模型企業能力,通過 CoE 能力,則意味著優勢互補與真正十八項全能的實現。

測評結果顯示,基于 360 CoE AI 能力的 AI 助手 Beta 版,在引入 360 智腦在內的 16 家國內最強大模型集各家所長后,已在 11 個單項能力測試指標上超越 GPT-4o。

與此同時,即使將底層大模型能力「外包」,360 依然能在 CoE 的浪潮中,找到自己的獨家定位。

從產品層面看,360 CoE 產品 AI 助手可以被分成兩個部分:其中,語料積累與算法技術,主要依靠的是 360 智腦在內的 16 家國產大模型的接入,類似分工不同的特種兵;而360 則充當指揮官的角色,通過意圖識別模型,來實現對于用戶意圖更加精準的理解;通過任務分解和調度模型,實現了對于眾多專家模型網絡(100+LLM)、千億規模知識中樞和 200+第三方工具的智能調度,進而實現比 MoE 更高的靈活性和效率。

其背后的邏輯在于,當下階段,決定用戶側所能感知到的模型智能程度的幾大要素排序中,需求理解>語料積累>算法技術。

其中,語料大于算法的邏輯,主要體現在細分場景。一個不太恰當的比喻是,一個初高中搜題軟件在解決數學和物理問題上,都能秒殺 GPT-4o。

關于如何理解需求理解的重要性,梁志輝用 360 最新發布的 CoE AI 工具 AI 助手舉了個例子,比如,關于「比如起床第一件事是做什么」的問題,大部分用戶期待的或許是一個養生型的答案,而一個熱愛弱智吧問答的用戶,期待的答案卻是睜眼。

在這種實際場景下,不同于客觀的評分與打榜,用戶對模型智能程度的感知,是主觀的。

而做好用戶的主觀意圖判斷,則需要對用戶歷史行為的積累。如果玩家是像 360 這樣有搜索引擎、瀏覽器數據積累的玩家,則意味著對用戶問題的拆解可以做到更加精準,更進一步,通過歷史數據,就能判定用戶的檢索意圖,一步給出最合適的答案。

確認了 CoE 與 360 的定位后,一個新的問題又隨即出現在眼前,基于以上功能設計,360 基于 CoE 架構的AI 助手,究竟是作為自家瀏覽器、搜索引擎、辦公產品中的附加功能,還是作為一個獨立應用存在。

最終路線定在兩相結合,前者提供更多場景,后者創造更多可能。

8 月 1 日,ISC.AI2024 第十二屆互聯網安全大會·人工智能峰會開幕上,360 創始人周鴻祎正式發布「AI 助手」。在保留獨立的網址入口基礎上,AI 助手也將其全面內置到 360 國民級入口產品,用戶不需要安裝插件,即可獲取 AI 體驗,與此同時,用戶使用 AI 助手功能時,還可以對模型一鍵切換,16 家國內主流大模型,「哪家最強用哪家」。

AI 助手的使用示范

選擇將AI助手內置到成熟應用的最直接原因是用戶體驗。

基礎的技術突破,是掄起錘子對一個釘子猛敲;而落地與商業,則是無數個名叫用戶體驗、場景連續、技術領先、產品生態的齒輪相嵌合,組成的龐大系統性工程。AI 的使用需求,往往伴隨場景產生,比如網頁的翻譯,文章的擴寫。如果將這些功能放在不同頁面、插件甚至 APP 之間來回跳轉,則意味著使用流程的斷點與門檻。

發布會上,周鴻祎對此做出了進一步解釋:

「大模型不是產品,而是能力,能力固然很重要,但能力一定要跟場景相結合,才能真正的產生價值?!埂复竽P拖窠裉祀娖鲿r代的電動機,這東西可大可小、可強可弱、可快可慢,就看怎么用。比如把電動機拿到工廠傳送帶,就變成流水線,如果加上四個輪子、底盤、外殼,就能得到一輛汽車。發動機在過程中發揮著重要的作用,但是用戶并不需要直接發動機,用戶需要發動機提供的能力和很多部件相結合?!?/p>

用戶體驗之外,AI助手綁定瀏覽器的另一個優勢則在于成本。

用戶側成本而言,傳統的模式中,用戶獲得更精準的回答,往往只能選擇使用更大參數也更貴的大模型這一條路。而通過 AI 助手,基于 CoE 架構的意圖識別、任務路由模型,問題可以被精準分發匹配到最合適的模型回答,成本也隨之降低。

而在產業生態角度,AI 助手被集成到安全衛士、瀏覽器中,則意味著對大模型幾乎零成本的流量導入。一般來說,大模型的成本,主要由訓練時的研發與硬件采購支出,以及推理時的網絡、算力消耗決定,與傳統的互聯網模式類似,前期的研發成本,會隨著后期用戶規模的擴大,而在單用戶訪問成本上被攤得越薄。

360 旗下產品獲得了更多AI能力的加持,用戶獲得了更精準更順滑的使用體驗,大模型廠商獲得了免費的流量與繼續坐在牌桌上的資格。AI 助手從頁面交互上看,或許只是一個新增功能的改變,但于大模型而言,卻是一場一魚三吃,產品、技術、用戶三贏的新商業模式的開端。

這也解釋了,為何不久前以阿里釘釘的號召力,爭取到的是「七個葫蘆娃」的入駐;而這次 360 發布「AI 助手」,卻首發就是 16 家,幾乎是把國內主流大模型廠商「一網打盡」?;蛟S只有一家一家寫下來,才能感受到這個陣營以及這種號召力的強大:

大廠:百度、字節跳動、騰訊、阿里巴巴、華為;

五小虎:智譜 AI、月之暗面、MiniMax、百川智能、零一萬物;

垂類頭部:商湯科技、科大訊飛、好未來、幻方量化、面壁智能。

 

04 尾聲

從大模型改變世界,到原子彈變茶葉蛋;從模型為王到合縱連橫,從 MoE 到 CoE……短短兩年時間,大模型就走完了從初代產品一鳴驚人,到產業淘汰賽,再到商業化的三步走。

而大模型產業的進化速度,也正如其漫無邊際膨脹的參數,快速將對手挑落馬下,同時快速將自己送到了每一個新興賽道的終極之問面前:

要生存,還是要偉大。

歷史已經替參賽者做出回答——如果生存不能保證,偉大只會成為對手成功路上的墊腳石。

最新文章

極客公園

用極客視角,追蹤你不可錯過的科技圈.

極客之選

新鮮、有趣的硬件產品,第一時間為你呈現。

張鵬科技商業觀察

聊科技,談商業。

国产精品揄拍一区二区,欧美aⅴ精品一区二区三区,久久九九99这里有精品10,999精品在线