“參與過Kimi K2的親自答接生,自己的在知乎上孩子怎么看都順眼”。7月11日晚,多位國內大模型獨角獸月之暗面正式發布并開源了其最新一代MoE架構基礎模型Kimi K2,研發億參總參數量達到1萬億(1T),工程故事這一消息迅速引發了AI領域的師萬數廣泛關注,Kimi內部則將K2研發群戲稱為“接生群”。開源多位參與“接生”的幕后Kimi研發人員隨后在知乎展開“親自答”,從多個角度深入講述了其背后研發歷程。親自答
作為月之暗面 Infra側推理方面研發人員,在知乎上知乎答主劉少偉談及了K2模型結構的多位設計宗旨。他稱K2模型是研發億參在DeepSeek V3結構的框架之下,如何選擇合適的工程故事參數,使得模型在訓練、師萬數推理成本與v3相當的開源前提下,獲得明顯更低的loss。“綜合以上四個相比v3的改動,我們能夠得到一個在相同EP數量下,雖然總參數增大到1.5倍,但除去通信部分,理論的prefill和decode耗時都更小的推理方案”。
月之暗面研究員、知乎答主Flood Sung則表示,Kimi K2最值得關注的信息,除了MuonClip帶來的漂亮得起飛的loss曲線,還有就是Agent能力。他透露,為了實現更好的通用Agent能力,構建了一個大規模的agent合成數據pipeline:簡單的說是一個完全自動化的agent數據生產工廠,通過全流程的模擬來過濾出好的Agent軌跡數據。Flood Sung稱,“這個生產線非常符合老子的思想:‘一生二,二生三,三生萬物’。”
另一位月之暗面研發人員、知乎答主Justin Wong談到Kimi K2為何會選擇開源時稱,開源意味著能夠借助社區力量完善技術生態,“在我們開源不到24小時就看到有社區做出K2的MLX實現、4bit量化等等,這些憑我們這點人力真的做不出來”。月之暗面研究員、知乎答主Dylan則表示,K2實際上就是一個剛出生的baby,雖然略顯“靈性”,但和很多已久的frontier model(前沿模型)相比,還是有很多、很明顯的缺點,“作為post-train(后訓練)相關的同學,還是略感慚愧,希望后面的版本迭代里面能夠持續釋放K2 base model的潛力”。
開發者在AI成果發布的同時,越來越多選擇來知乎發布背后的詳盡思考。6月,月之暗面也曾發布一款Agent產品,Kimi-researcher兩位主要研發人員也在知乎親自答,解讀產品背后的技術思考和亮點。更早之前,月之暗面開源MoBA框架研發人員鹿恩哲、蘇劍林分別在知乎上講述了研發思路,引發了業界對“稀疏注意力”框架的討論。
2025年以來,伴隨AI技術新浪潮的蔓延,知乎引領了一系列全網重要的AI趨勢發布。3月,DeepSeek在知乎開設官方賬號,并獨家發布《DeepSeek-V3/R1 推理系統概覽》技術文章;智元機器人聯合創始人彭志輝(稚暉君)在知乎以視頻形式發布了人形機器人靈犀X2;10年“老答主”王興興在知乎與網友大量互動,分享宇樹機器人最新研發動態……
在頂流創業者們的一次次分享中,知乎見證了中國創新科技勢力的一次次突破,也凸顯了知乎作為AI領域核心交流陣地的獨特價值——以其濃厚的技術討論氛圍,搭建起開發者與行業、創新成果與大眾認知之間的橋梁,讓前沿技術不再是晦澀難懂的孤島,持續推動著AI行業在“思維鏈開源”交流下向前發展躍遷。
雷峰網雷峰網(公眾號:雷峰網)雷峰網