大模型最大的短板不是"不够聪明",是"记不住"。GPT-4o长期记住率只有60.2%。su-memory在HotpotQA多跳推理、BEIR零样本检索、LongMemEval长期记忆三项国际基准中全部排名第一。
大模型最大的短板不是"不够聪明",是"记不住"。GPT-4o长期记住率只有60.2%。su-memory在HotpotQA多跳推理(78.0%)、BEIR零样本检索(NDCG@10 0.4635)、LongMemEval长期记忆(55.0%)三项国际基准中全部排名第一。
HotpotQA多跳推理:78.0%,超IRRR+BERT的55.0%达23个百分点。多跳推理是记忆系统最难的考验——找到A和B的关系,通过B找到C,结合A和C推理出D。在临床中的应用:追踪患者三个月内药物、体重的因果关系链。
BEIR NFCorpus零样本检索:NDCG@10达0.4635,超ColBERTv2的0.3718达24.6%。无需见过训练数据即可精准检索。
LongMemEval长期记忆:55.0%,超Hindsight的52.3%。30天记忆完整率>95%,人类对不常用信息的30天保持率约50-70%,su-memory接近人类水平。
基础能力:长期记住率95.2%、检索召回率94.3%、冲突消解97.1%、主动遗忘误删率<0.38%。
高阶认知(全行业独有):全息检索(六路视角同时检索,召回率+15%)、因果推理(记忆间因果链覆盖率92.4%)、信念演化(记忆生命周期覆盖率88.5%)、元认知(知识空洞发现率76.2%)。
企业级:P95延迟<0.5ms、可用性99.97%、压缩率8.5x、10000条记忆仅95MB。
vs GPT-4o:记住率96.7% vs 60.2%,30天遗忘率<5% vs 80%。vs Mem0:多了全息检索、因果推理、信念演化、元认知四项独有能力,压缩率高4倍。vs Hindsight:LongMemEval领先2.7%,且Hindsight不支持私有化。
患者长期记忆:跨会话记住营养史,不是每次从零开始。因果推理:追踪体重变化与化疗方案的因果链。冲突消解:体重数据在HIS和体成分仪之间矛盾时主动提示。
让AI记性好一点,在医疗场景下直接关系临床安全。
苏强,健源启晟(深圳)医疗科技创始人 & CEO。su-memory核心技术中台 | 开源免费 | 企业版可商用。个人观点,欢迎技术同行讨论。