🧬 Cradle蛋白lead optimization：序列模型能否替代物理建模

134 18 小时前 magnusross.github.io

🧬Cradle蛋白lead optimization：序列模型能否替代物理建模

数据都不够，模型就能扫遍蛋白宇宙吗？

🎯 讨论背景

Cradle 是一家做蛋白质工程 AI 的公司，这篇讨论围绕其 Cradle-1 paper 和一篇讲解蛋白 lead optimization 的文章展开。lead optimization 指的是在已有候选蛋白基础上继续改造，让它更适合作为药物或工业分子。评论里的争论集中在：这类方法到底是主要靠 amino acid 序列就能学到规律，还是必须显式引入 3D 结构、空间推理和物理化学建模。参与者还把话题放到更广的治疗性蛋白领域，比如 monoclonal antibodies、insulin、CRISPR（基因编辑系统）和 CAR（嵌合抗原受体）相关疗法，并指出 immunogenicity 往往是 de novo 蛋白设计最难绕过的现实问题。

📌 讨论焦点

作者与Cradle实践认可

这篇文章对应的 Cradle-1 paper 作者现身说明，确认自己就是底层论文作者，并且已经离开 Cradle 去创业，但仍然会把 Cradle 用在新的 lead optimization 工作里。评论里还提到他在 PEGS Boston 这类蛋白/抗体行业会议上交流 AI+antibodies，说明这不是纯学术话题，而是已经进入真实研发流程。整体语气非常支持，重点在于这套方法确实有实际落地价值。

[来源1]

纯序列模型的能力上限与物理约束

有评论直接质疑：如果主要只在 amino acid 序列上做优化，而不显式加入 3D chemistry、空间推理或 molecular orbitals 之类的物理信息，模型能力上限会不会很低。反对者强调蛋白的 phase space 太大，数据量又远远不够，靠训练一个线性代数模型很难真正覆盖。还有人认为结构/空间模型在大蛋白上本身就慢且误差会累积，因此团队可能选择了另一条路，但这并没有消除“是否只是碰巧有效”的担忧。

[来源1] [来源2]

局部优化与按任务微调更现实

另一派观点认为，不需要一个能通吃所有蛋白问题的 foundation model，关键是针对单个任务做微调。这里的核心区别在于：lead optimization 通常是在已有测量数据的起点附近做局部搜索，而不是从零生成完全陌生的蛋白。评论还提到，团队起初对 thermostability 持乐观预期，因为它和进化有明显相关性；但真正让人意外的是，binding 和 aggregation 这些更复杂的性质也表现出可学习的规律。

[来源1] [来源2]

治疗性蛋白范围与真实难点

评论把讨论从 mAbs 和天然蛋白扩展到更广的治疗性蛋白谱系，包括 insulin、hirudin、cerezyme 之类的现成案例，以及和基因治疗、细胞治疗相关的 CRISPR 系统和 chimeric antigen receptors。有人指出，这些类别的 lead optimization 路径和文章里展示的并不完全一样，因此不能简单类比。另一个被强调的现实难题是 immunogenicity：对 de novo 设计的蛋白来说，免疫系统识别并排斥它们往往是很难绕开的障碍。

[来源1] [来源2] [来源3]

📚 术语解释

lead optimization: 在已有先导分子基础上继续改造，提升活性、稳定性、选择性或可开发性。

immunogenicity: 蛋白被免疫系统识别为外来物并引发免疫反应的风险，是治疗性蛋白的重要障碍。

mAb: monoclonal antibody，单克隆抗体，是最常见的治疗性蛋白类别之一。

phase space: 这里指蛋白可能构象、序列和性质组合形成的巨大搜索空间。

原文链接 Hacker News 讨论

Science AI lead optimization protein engineering proteins Cradle foundation model

News Hacker｜极客洞察