DeepSeek 又在幫大家省錢了！梁文鋒帶隊祭出 Engram：讓 AI 像查字典一樣記知識!

2026-01-13•阅读3分钟

TLDR

DeepSeek 梁文鋒新作 Engram 震撼發佈！告別盲目堆算力，通過“條件記憶”讓模型學會“查字典”，實現 $O(1)$ 級精準檢索。不僅大幅提升推理能力，更讓 27B 模型跑出跨級表現，大模型架構革命已來！

在大模型（LLM）的世界裏，我們似乎習慣了用“暴力”解決問題：想要模型更聰明，就堆參數；想要處理更復雜，就加計算量。

但你有沒有想過，讓 Transformer 像人類一樣通過“計算”去死記硬背事實，其實是對算力極大的浪費？DeepSeek 聯手北大發布的最新論文 Engram，為我們指明瞭進化的新方向：條件記憶（Conditional Memory）。

deepseek1

目前的 Transformer 模型在處理知識時非常低效。為了記住一個事實，它必須動用昂貴的矩陣乘法（FLOPs）。這就像是你為了記住一個電話號碼，非要推導一遍微積分公式一樣。

“既然 MoE 實現了計算的稀疏化，為什麼我們不能實現記憶的稀疏化？”

這就是 Engram 的核心初衷。它為大模型開闢了除 MoE（條件計算）之外的第二個稀疏維度。通過引入一個類似“外掛硬盤”的查找模組，讓模型能夠以極低的代價精準檢索知識。

Engram 並不是簡單的資料庫，它巧妙地結合了經典 NLP 的智慧與現代深度學習的架構：

deepseek2

這篇論文最令人興奮的發現之一是 “稀疏分配定律”。研究人員發現，計算（MoE）和記憶（Engram）之間存在一個完美的 U 型平衡點。

實驗結果顯示： 在相同的參數規模和計算量下，搭載了 Engram 的 27B 模型在 MMLU 知識測試上提升了 3.4 分，在 BBH 通用推理任務上更是暴漲 5.0 分！

更神奇的是，這種“外掛記憶”還釋放了注意力機制的壓力。由於局部依賴被 Engram 承包了，Transformer 的 Attention 可以全身心投入到全局邏輯的處理中，從而顯著增強了模型在長文本任務中的表現。

deepseek3

DeepSeek 的這項研究再次證明了：盲目堆算力不是唯一的出路，算法結構的精細化設計才是。 Engram 的出現，意味着未來我們可能不再需要千億級的稠密參數，只需要一個聰明的“大腦”配合一個海量的“記憶庫”，就能達到同樣的智慧水平。

當 AI 學會了“查字典”而不是“背字典”，它的進化速度將超乎我們的想象。在這個算力即權力的時代，DeepSeek 這一記“四兩撥千斤”，打得確實漂亮。

參考資料：