DeepSeek 又在幫大家省錢了!梁文鋒帶隊祭出 Engram:讓 AI 像查字典一樣記知識!
TLDR
- DeepSeek 梁文鋒新作 Engram 震撼發佈!告別盲目堆算力,通過“條件記憶”讓模型學會“查字典”,實現 $O(1)$ 級精準檢索。不僅大幅提升推理能力,更讓 27B 模型跑出跨級表現,大模型架構革命已來!
在大模型(LLM)的世界裏,我們似乎習慣了用“暴力”解決問題:想要模型更聰明,就堆參數;想要處理更復雜,就加計算量。
但你有沒有想過,讓 Transformer 像人類一樣通過“計算”去死記硬背事實,其實是對算力極大的浪費?DeepSeek 聯手北大發布的最新論文 Engram,為我們指明瞭進化的新方向:條件記憶(Conditional Memory)。
拒絕“智商”浪費:當計算遇到記憶 🧠
目前的 Transformer 模型在處理知識時非常低效。為了記住一個事實,它必須動用昂貴的矩陣乘法(FLOPs)。這就像是你為了記住一個電話號碼,非要推導一遍微積分公式一樣。
“既然 MoE 實現了計算的稀疏化,為什麼我們不能實現記憶的稀疏化?”
這就是 Engram 的核心初衷。它為大模型開闢了除 MoE(條件計算)之外的第二個稀疏維度。通過引入一個類似“外掛硬盤”的 查找模組,讓模型能夠以極低的代價精準檢索知識。
黑科技拆解:N-gram 的現代化重生 ⚡
Engram 並不是簡單的資料庫,它巧妙地結合了經典 NLP 的智慧與現代深度學習的架構:
- 分詞器壓縮(Tokenizer Compression): 通過哈希技術將長文本壓縮,降低存儲開銷。
- 上下文感知門控: 檢索出來的知識不是死板的,而是會根據當前的語境進行動態調整,完美解決哈希衝突問題。
- 異步預取: 在系統層面,Engram 支持從主機內存異步讀取數據。在 100B 規模的模型上,額外的性能損耗竟然不到 3%!
U 型曲線:尋找算力與記憶的“黃金比例” ⚖️
這篇論文最令人興奮的發現之一是 “稀疏分配定律”。研究人員發現,計算(MoE)和記憶(Engram)之間存在一個完美的 U 型平衡點。
實驗結果顯示: 在相同的參數規模和計算量下,搭載了 Engram 的 27B 模型在 MMLU 知識測試上提升了 3.4 分,在 BBH 通用推理任務上更是暴漲 5.0 分!
更神奇的是,這種“外掛記憶”還釋放了注意力機制的壓力。由於局部依賴被 Engram 承包了,Transformer 的 Attention 可以全身心投入到全局邏輯的處理中,從而顯著增強了模型在長文本任務中的表現。
觀點總結:大模型的“架構革命”剛剛開始 🚀
DeepSeek 的這項研究再次證明了:盲目堆算力不是唯一的出路,算法結構的精細化設計才是。 Engram 的出現,意味着未來我們可能不再需要千億級的稠密參數,只需要一個聰明的“大腦”配合一個海量的“記憶庫”,就能達到同樣的智慧水平。
當 AI 學會了“查字典”而不是“背字典”,它的進化速度將超乎我們的想象。在這個算力即權力的時代,DeepSeek 這一記“四兩撥千斤”,打得確實漂亮。
參考資料:
幫助我們改善文檔
X-CMD 的文檔內容來自命令的幫助文檔、多個數據源以及文檔庫生成。文檔中如果有錯誤或不明確的地方,歡迎通過這些方式進行告知~
完成验证加入微信群