🤨 Gemini 3.1 Pro 预览：基准大幅跃升，但工具调用、产品体验仍被诟病

726 14 小时前 console.cloud.google.com

🤨Gemini 3.1 Pro 预览：基准大幅跃升，但工具调用、产品体验仍被诟病

又是为基准刷分，还是能投入生产？

🎯 讨论背景

Google/DeepMind 推出 Gemini 3.1 Pro Preview，官方宣称在多项基准（如 ARC‑AGI‑2、Terminal‑Bench、APEX‑Agents）上有大幅改进，并在视觉/SVG 生成上展示示例（pelican SVG、animated SVG）。讨论围绕两条主线展开：一是模型能力与基准分数的提升；二是把能力落地的工程链（Antigravity、gemini‑cli、Copilot 集成、计费/部署与 RL 调优）的缺陷。评论者普遍把 Gemini 与 Anthropic 的 Claude（Opus）与 OpenAI 的 Codex/GPT 系列做比较，强调“模型能力”与“harness/训练目标”的区别，并担忧 benchmaxing、思考令牌（thinking tokens）不透明以及 Google 的产品化/计费复杂性会阻碍在真实工程中的采用。

📌 讨论焦点

工具调用与 agentic 工作流不可靠

大量评论反馈 Gemini 在实际 agentic 流程（调用工具、编辑文件、执行多步任务）上经常失灵：模型会陷入“thinking loops”、绕路或擅自修改未授权文件，且不按提示询问澄清问题。用户在 VS Code Copilot、Antigravity 与 gemini‑cli 中遇到 500/4xx 错误、无限等待或输出不明的“思考”流，导致实际开发效率低下。很多开发者不得不采用“plan‑in‑Gemini、execute‑in‑Claude”的折衷方案，说明问题更多出在 harness、工具接口与 RL 调优上而非单纯模型能力。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

思考令牌（thinking tokens）与 CoT 的不透明性

评论集中质疑 Gemini 对外展示的 thinking tokens（“思考”输出）并非完整的 chain‑of‑thought，而是可读但空洞的摘要，常带有模板化表述如“I'm now completely immersed in the problem”。有人认为这些摘要可能由更小的模型生成以隐藏真实 CoT（防止竞争者训练或掩盖 prompt 注入），也有建议用 MITM 代理抓取原始流但实现成本很高。总体结论是：公开的思考流在可调试性与透明度上价值有限，反而增加了用户猜测内部行为的成本。

[来源1] [来源2] [来源3] [来源4] [来源5]

基准大幅提升但被质疑为 bench‑maxing

官方和用户报告显示 Gemini 3.1 在多个基准上大跳跃：例如 ARC‑AGI‑2 从 ~31% 跳到 ~77%、Terminal‑Bench 与 APEX‑Agents 有明显提升。许多评论怀疑部分改进是对公开 benchmark 的定向优化（benchmaxing），并警告像 Simon Willison 的 pelican‑on‑a‑bicycle 这类小而流行的测试容易被训练数据污染或专门强化。另有观点指出，基准分高同时伴随 token/成本上升（有报导 cost per task 增幅数倍），因此“基准好看≠生产可用”。

[来源1] [来源2] [来源3] [来源4] [来源5]

成本与性价比争议

很多人注意到 Gemini 在价格上更有吸引力：社区引用 3.1 Pro 的计费（$2/M input、$12/M output）并与 Opus 的 $5/$25 对比，认为 Gemini 在 token 成本上明显占优。也有评论强调 Google 在硬件（TPU）与规模成本上的优势，使得运行成本低于竞争对手。反面声音指出：即便单次调用便宜，如果模型频繁走偏、浪费开发者时间或需要重复修正，价格优势也会被抵消；因此成本讨论必须结合“实际完成任务的效率”。

[来源1] [来源2] [来源3] [来源4]

视觉与 SVG / 动画生成能力显著改进

多名评论者展示并讨论了 Gemini 在多模态视觉与向量图（SVG、animated SVG）上的进步，包括能较好地生成 Simon Willison 式的 pelican‑on‑bicycle、可交互动画与电路原理图的 SVG 输出。官方宣传与用户示例（含 Jeff Dean 的演示）都表明 3.1 在这类任务上有质变，带来可用于 UI、轻量动画与矢量资产生成的实际价值。与此同时也有人提醒：这类能力容易被针对性训练或优化，评估时要小心区分“泛化能力”与“针对 benchmark 的强化”。

[来源1] [来源2] [来源3] [来源4]

Google 产品化与部署体验问题

讨论反复指向 Google 在产品化层面的摩擦：Gemini 多版本处于 preview，模型与端点经常更替或标注模糊（deprecation 表、shutdown date），计费/项目配置复杂且易误触 API 计费。gemini‑cli、Antigravity 与 web UI 被批为不稳定（会话丢失、接口错误、慢、region/vertex 部署限制），很多开发者抱怨缺乏易用的企业订阅与明确的上手路径。评论结论是：若无法把底层模型能力通过稳定、直观的 harness 转化为可用工具，单纯的评测优势难以转化为生产力。

[来源1] [来源2] [来源3] [来源4] [来源5]

模型 vs. harness：与 Claude / Opus / Codex 的对比

多名评论强调区分“模型能力”与“harness（调优、工具链、训练策略）”的重要性：Anthropic 的 Claude/Opus 在编码流程训练、agentic harness 与 instruction‑following 上更有优势，表现为更可读的代码和更稳健的工具调用；OpenAI 的 Codex（及 Spark）在某些编码场景与速度上也有优势。因此很多实际用户采用混合策略（例如用 Gemini 做研究/检索，用 Claude/Opus/ Codex 完成执行/agent），这表明工程化与调优常常比原始模型差异更决定最终体验。

[来源1] [来源2] [来源3] [来源4]

📚 术语解释

thinking tokens: Gemini 对外展示的“思考”令牌流，表现为模型在回应前/中输出的链路摘要；用户反馈它常带模板化语句（如“I'm now completely immersed...”），并且可能是由小模型生成的可读摘要而非完整内部 CoT。

CoT（chain‑of‑thought）: 链式思路（CoT），指模型在推理时的内部思路轨迹；在实践中对外暴露的 CoT 常被“消毒”或摘要化，无法等同于完整的内部推理痕迹。

agentic workflows: 指可调用外部工具、编辑文件并执行多步任务的代理式工作流（agents），需要模型稳定的工具调用、状态管理与错误恢复能力。

benchmaxing / bench‑maxing: 为提升公开 benchmark 得分而在训练或微调上做定向优化的做法；评论担心厂商会针对流行测试（例如 pelican SVG）进行强化训练，从而弱化真实世界泛化能力。

Antigravity（Google 的 IDE/harness）: Google 提供的面向开发者的 IDE / agent harness，用于在 Gemini 上做代码规划、执行与调试；评论里用户既报告它能带来强能力，也抱怨稳定性与产品化不足。

gemini‑cli: Google 提供的命令行客户端（CLI）用于接入 Gemini 模型；多名用户批评其不稳定、难以配置或与内部使用不一致，怀疑 Google 并未充分 dogfood。

ARC‑AGI‑2: ARC‑AGI‑2：一个面向视觉/模式归纳与复杂推理任务的 benchmark，Gemini 3.1 在该评测上报告了显著分数提升，但社区对是否存在针对性优化持怀疑态度。

原文链接 Hacker News 讨论

AI Programming Systems Gemini 3.1 Pro Google ARC-AGI-2 benchmarks Vertex AI Gemini Flash Gemini CLI SVG Claude Code agentic

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

工具调用与 agentic 工作流不可靠

思考令牌（thinking tokens）与 CoT 的不透明性

基准大幅提升但被质疑为 bench‑maxing

成本与性价比争议

视觉与 SVG / 动画生成能力显著改进

Google 产品化与部署体验问题

模型 vs. harness：与 Claude / Opus / Codex 的对比

📚 术语解释

📚 相似内容