⚡ Cursor 推出 Composer：用 RL 提速的编程模型，用户质疑透明度与稳定性

141 2 天前 cursor.com

⚡Cursor 推出 Composer：用 RL 提速的编程模型，用户质疑透明度与稳定性

你们吹得好，训练数据和基准能拿出来吗？

🎯 讨论背景

Cursor（一个面向开发者的 AI 编程产品）在博客里推出了 Composer（一个声称通过 RL post-training 优化以提升交互速度的编程模型）。讨论集中在速度与智能的权衡、团队披露的信息量（如是否公开基线模型与训练数据）、以及内部基准 Cursor Bench 未开源所带来的可复现性疑问。公司回复中提到在流水线里使用 Ray（分布式计算框架）和 Ray Data 运行评估与数据处理，并指出早期内部模型 Cheetah 用于测试速度；但对基模型来源和全部训练细节保持谨慎。评论同时触及产品稳定性（挂起/崩溃）、编辑器生态（VSCode vs IntelliJ）、定价不透明与多 agent 实践的工程解决方案。

📌 讨论焦点

速度与生产力优势（Tab / Composer）

多位用户把 Cursor 的低延迟和 Tab completion（Tab 模型）列为其最大优势，称这让交互式编码和重构工作流“顺手”且更高效。Composer 及之前的 Tab 功能被反复提及为能显著缩短从想法到可审查代码的周期，很多人愿意为这种流畅的迭代牺牲部分“单次智能”。也有具体可操作的反馈，比如键位冲突（希望改为 shift+tab）和需要 snooze 的场景，但多数人表示可以通过键绑定或设置缓解这些小问题。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

透明度与基准可复现性的质疑

评论里普遍对发布材料的不透明表示怀疑：图表把“frontier models”聚合显示但未列出具体模型或数值，许多人要求拆分模型、标注轴和给出明确数字。Cursor Bench 被描述为内部基准且没有开源，团队对基模型来源、预训练数据和训练细节的披露有限，这导致外界担心结果是否经过有利选择或调校。关于是否使用用户数据训练模型也引发担忧，评论要求公开基准和训练数据或允许独立复现来建立信任。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

模型来源与训练方法（RL、Ray、Cheetah）

公司在回复中说明 Composer 在编码示例上做了 RL post-training（强化学习后训练）以优化交互行为，且在流水线中大量使用 Ray（包括 Ray Data）来做评估、RL 控制器和数据整理处理。评论透露早期内部模型 Cheetah 用来验证生产级别的速度，团队称 Cheetah 与 Composer 都是内部开发的原型/版本，但对基础 pretrain 模型是否基于开源或第三方并未详述。社区还讨论了蒸馏、是否在训练周期中重置优化器、以及用更多算力是否能把模型推到“frontier”水准等具体训练问题。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

用户体验分歧：可靠性、编辑器生态与计费

用户体验呈现两极：一部分人认为 Cursor 在速度与交互流畅度上无可替代，另一部分则因为挂起、命令失败或在 Windows 上的不稳定而转向 Claude Code 等替代品。还有针对应用崩溃（如 Cursor 2.0 崩溃）和诊断流程的具体抱怨与开发者给出的调试建议。计费与定价透明度也是常见抱怨点：有评论贴出了近似的每百万 token 收费结构（例如评论中提到的 $1.25 输入、$10 输出 / million tokens 的说法），并希望公司明确 Cursor Pro 与模型定价的对应关系。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]

速度与智能的权衡以及不同用户群体

讨论强调存在两类用户：偏向交互式协作、需要低延迟快速迭代的人，以及偏向让模型自治完成复杂任务、更看重推理能力的人。多条评论把 Sonnet 4.5、GPT‑5 等列为更“智能”的基线，指出 Composer 在复杂长期规划或严格遵守规则的场景下不如这些 frontier 模型，但在小任务和重构场景因速度获益更大。团队与用户都讨论到 RL post-training 能缩小差距，但也有人质疑为何在可行的算力下没有把模型训练到更接近 frontier 的水平。

[来源1] [来源2] [来源3] [来源4] [来源5]

agentic coding 与多 agent 实践挑战

Cursor 的产品和论文讨论聚焦 agentic coding（代理式编码），但实际部署与多 agent 协同仍有工程挑战：团队表示主要以单 agent 训练为主，用户则在实践中探索用多个实例并行工作。评论中给出了实用技巧，例如用 git worktrees 为不同代理隔离工作目录、在独立终端运行多个代理实例，以及使用开源工具（如 FleetCode）来管理并行工作流。许多用户依然把模型当作需要人为监管的助手——让模型后台运行并在卡住时手动干预是常见做法，说明多 agent 自动化尚未成熟到完全无监督的程度。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

📚 术语解释

agentic coding: agentic coding（代理式编码）指让模型作为自主代理在代码库中执行计划、运行命令并提交变更的工作模式，而非仅做单次补全或生成建议。

RL post-training: RL post-training（强化学习后训练）是在模型预训练或微调之后再用强化学习优化其交互策略或长期行为，常用于提升代理在多步任务中的表现。

Ray / Ray Data: Ray 是一个用于分布式计算与强化学习基础设施的开源框架，Ray Data 是其用于大规模数据处理的组件，Cursor 在评估、RL 控制器和日志/统计处理上使用了它。

Cursor Bench: Cursor Bench 指 Cursor 内部用于评估 agentic coding 能力的基准集，据称由工程师记录的真实问题与后续 PR 清洗生成，目前在讨论中被指出为未开源的内部基准。

Tab / Tab completion: Tab（Tab completion）是 Cursor 在编辑器内按 Tab 接受自动补全的功能，强调低延迟和连续补全体验，是许多用户日常工作流的核心。

Auto mode: Auto mode 是 Cursor 的自动模型选择/成本优化机制，会在不同模型和定价选项间切换以控制 token 成本与速率，用户在评论中提到其表现与默认模型选择相关。

原文链接 Hacker News 讨论

AI Programming Product Cursor Composer Reinforcement Learning Tab model Sonnet 4.5 Claude Code Copilot Codex

News Hacker｜极客洞察