加载失败
Google 发布了关于 Titans 的论文(Titans: Learning to Memorize at Test Time,arXiv)并在后续博客中介绍了 HOPE/Nested Learning 这一将自修改模块与 Continuum Memory System 结合的思路。讨论建立在对 Transformer(基于 attention 的短上下文与静态权重局限)的共识之上,评论者关注点集中在理论创新、能否扩展为大规模生产模型、以及发表与开源(代码/权重)之间的差别。社区已出现非官方实现和关于谁会率先应用该架构的产业性争论,同时对长期记忆带来的提示注入、记忆中毒与隐私/对齐风险表达强烈关切。讨论还涉及产品策略:公开研究能促进行业发展,但能否把新架构整合进现有产品并带来商业价值才是最终考验。
Google 已公开 Titans 的论文并附上 arXiv 链接,但评论里大量声音指出没有公开官方模型代码或权重,公众不能直接下载可复现的 Titan 模型。社区已有非官方实现(例如 lucidrains/titans‑pytorch),但与 Meta 的 LLaMA、Qwen 等直接发布权重的做法相比,可用性明显不足。部分评论提醒 Google 的发表往往经过内部审查或来自 student researcher 计划,论文公开不代表该架构已用于生产或能被简单复现。也有观点强调开放研究本身对生态的重要性,不能只把功劳或责任单纯归给 Google。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
Titans 的核心思想是 nested learning / self‑modifying 机制:模型在推理时进行学习,而训练阶段教会模型如何在推理时学习,从而有选择地把“重要或出乎意料”的信息写入长期记忆。HOPE(Nested Learning 博客中提出的架构)把 self‑modifying Titans 与 Continuum Memory System(CMS)组合,试图在不同时间尺度上同时具备复杂的局部学习规则和高容量的持久存储。这与单纯扩大 context window 或改进 attention 的做法不同:不是把笔记写到 scratchpad,而是让权重层或专门模块随输入智能改变,从而增强表达能力与跨远距关系的捕捉。评论者对该范式表示兴奋,但也反复指出要在大规模基础模型上证明其优越性、对齐工程成本与训练资源需求才是能否落地的关键。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9] [来源10]
持久化长期记忆带来新的攻击面:评论普遍担心 prompt injection 或有意投放的垃圾/异常信息会被模型判定为“惊讶”并长期保存,从而持续影响后续输出和行为。反驳者指出论文机制会在训练时学会对无关或有害输入分配低 surprise embedding,从而抑制记忆化,但这依赖于训练数据与模型是否真能学到该抑制规则,仍需实证验证。实用对策包括仅在用户确认、快照/撤销、或运行用户本地实例时才持久化记忆,以及对持久记忆实施访问控制和清理策略。关于是否赋予模型“情绪/欲望”以驱动记忆的讨论也存在明显分歧:有人认为情感驱动能改善注意力分配,另一些人将其视为严重的对齐与安全风险。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8] [来源9]
评论把学术发表与能否商业化严格区分,认为真正的胜负取决于谁能把新架构整合进现有产品线并利用自有基础设施规模化,例如 Google 的 Search/YouTube/GCP 或 Amazon 的零售与 AWS。多位评论者指出,单纯在基准上领先并不必然带来长期盈利,产品设计、具体应用场景与用户信任往往比模型本身更关键。业界策略分化明显:部分公司(Meta、ByteDance)更积极公布研究成果和模型,另一些公司更保守,公开论文可能只是学术或 PR 信号而非生产部署。能否将 Titans/HOPE 扩展为大规模训练、带来稳定改进并整合到实际产品中,仍是观察重点。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
评论中存在对“长期记忆”含义的分歧:许多人把它等同于超长的 context window 或会话历史(例如像 Cursor 那样积累 prompt 历史),而 Titans/HOPE 讨论的是模型在推理期间能以学习规则更新内部状态或专门模块,这超出单纯 attention 的范畴。这种区分很重要,因为前者可以通过重启会话清空,后者若被设计为持久化则带来隐私、审计与安全的新问题。因此评论呼吁在讨论长期记忆时明确是在谈“更长的上下文/会话记忆”还是“权重/模块层面的持久记忆”,因为两者的工程、产品与风险考量截然不同。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
Titans: Titans(Google 提出的架构,论文《Titans: Learning to Memorize at Test Time》)指一类在推理时具备内部学习能力的模型设计,能选择性地将“意外/重要”信息写入长期记忆模块。
HOPE / Nested Learning: HOPE(或称 Nested Learning,Google 博客/后续论文提出的设计)是把 self‑modifying Titans 与 Continuum Memory System 组合的一种高阶架构,目标是在不同时间尺度上同时获得复杂局部学习规则与大容量持久存储。
Continuum Memory System (CMS): Continuum Memory System(CMS,连续记忆系统)是一种将记忆拆分为不同更新频率块的设计,用较简单的学习规则配合更高容量保存更持久的信息。
LoRA: LoRA(Low‑Rank Adaptation)是一种通过低秩矩阵对预训练模型进行参数高效微调的方法,常用于快速个性化或在线微调,但与论文中描述的 full MLP 自修改机制并非等价。
RLHF: RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是用人类评分或比较作为奖励信号来优化生成模型输出的训练方法,评论中被提及作为获取对齐/训练数据的一种渠道。
SSM (State Space Model): SSM(State Space Model,状态空间模型)是一类用于长序列建模的架构,在近期研究中被视为替代或补充 Transformer attention 的技术方向,评论中以“Mamba SSMs”等术语被提及。