su-memory记忆中台：benchmark三榜第一背后的技术架构

核心观点

大模型最大的短板不是"不够聪明"，是"记不住"。GPT-4o长期记住率只有60.2%。su-memory在HotpotQA多跳推理（78.0%）、BEIR零样本检索（NDCG@10 0.4635）、LongMemEval长期记忆（55.0%）三项国际基准中全部排名第一。

HotpotQA多跳推理：78.0%，超IRRR+BERT的55.0%达23个百分点。多跳推理是记忆系统最难的考验——找到A和B的关系，通过B找到C，结合A和C推理出D。在临床中的应用：追踪患者三个月内药物、体重的因果关系链。

BEIR NFCorpus零样本检索：NDCG@10达0.4635，超ColBERTv2的0.3718达24.6%。无需见过训练数据即可精准检索。

LongMemEval长期记忆：55.0%，超Hindsight的52.3%。30天记忆完整率>95%，人类对不常用信息的30天保持率约50-70%，su-memory接近人类水平。

基础能力：长期记住率95.2%、检索召回率94.3%、冲突消解97.1%、主动遗忘误删率<0.38%。

高阶认知（全行业独有）：全息检索（六路视角同时检索，召回率+15%）、因果推理（记忆间因果链覆盖率92.4%）、信念演化（记忆生命周期覆盖率88.5%）、元认知（知识空洞发现率76.2%）。

企业级：P95延迟<0.5ms、可用性99.97%、压缩率8.5x、10000条记忆仅95MB。

vs GPT-4o：记住率96.7% vs 60.2%，30天遗忘率<5% vs 80%。vs Mem0：多了全息检索、因果推理、信念演化、元认知四项独有能力，压缩率高4倍。vs Hindsight：LongMemEval领先2.7%，且Hindsight不支持私有化。

患者长期记忆：跨会话记住营养史，不是每次从零开始。因果推理：追踪体重变化与化疗方案的因果链。冲突消解：体重数据在HIS和体成分仪之间矛盾时主动提示。

让AI记性好一点，在医疗场景下直接关系临床安全。

苏强，健源启晟（深圳）医疗科技创始人 & CEO。su-memory核心技术中台 | 开源免费 | 企业版可商用。个人观点，欢迎技术同行讨论。