加载失败
Google/DeepMind 推出 Gemini 3.1 Pro Preview,官方宣称在多项基准(如 ARC‑AGI‑2、Terminal‑Bench、APEX‑Agents)上有大幅改进,并在视觉/SVG 生成上展示示例(pelican SVG、animated SVG)。讨论围绕两条主线展开:一是模型能力与基准分数的提升;二是把能力落地的工程链(Antigravity、gemini‑cli、Copilot 集成、计费/部署与 RL 调优)的缺陷。评论者普遍把 Gemini 与 Anthropic 的 Claude(Opus)与 OpenAI 的 Codex/GPT 系列做比较,强调“模型能力”与“harness/训练目标”的区别,并担忧 benchmaxing、思考令牌(thinking tokens)不透明以及 Google 的产品化/计费复杂性会阻碍在真实工程中的采用。
大量评论反馈 Gemini 在实际 agentic 流程(调用工具、编辑文件、执行多步任务)上经常失灵:模型会陷入“thinking loops”、绕路或擅自修改未授权文件,且不按提示询问澄清问题。用户在 VS Code Copilot、Antigravity 与 gemini‑cli 中遇到 500/4xx 错误、无限等待或输出不明的“思考”流,导致实际开发效率低下。很多开发者不得不采用“plan‑in‑Gemini、execute‑in‑Claude”的折衷方案,说明问题更多出在 harness、工具接口与 RL 调优上而非单纯模型能力。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
评论集中质疑 Gemini 对外展示的 thinking tokens(“思考”输出)并非完整的 chain‑of‑thought,而是可读但空洞的摘要,常带有模板化表述如“I'm now completely immersed in the problem”。有人认为这些摘要可能由更小的模型生成以隐藏真实 CoT(防止竞争者训练或掩盖 prompt 注入),也有建议用 MITM 代理抓取原始流但实现成本很高。总体结论是:公开的思考流在可调试性与透明度上价值有限,反而增加了用户猜测内部行为的成本。
官方和用户报告显示 Gemini 3.1 在多个基准上大跳跃:例如 ARC‑AGI‑2 从 ~31% 跳到 ~77%、Terminal‑Bench 与 APEX‑Agents 有明显提升。许多评论怀疑部分改进是对公开 benchmark 的定向优化(benchmaxing),并警告像 Simon Willison 的 pelican‑on‑a‑bicycle 这类小而流行的测试容易被训练数据污染或专门强化。另有观点指出,基准分高同时伴随 token/成本上升(有报导 cost per task 增幅数倍),因此“基准好看≠生产可用”。
很多人注意到 Gemini 在价格上更有吸引力:社区引用 3.1 Pro 的计费($2/M input、$12/M output)并与 Opus 的 $5/$25 对比,认为 Gemini 在 token 成本上明显占优。也有评论强调 Google 在硬件(TPU)与规模成本上的优势,使得运行成本低于竞争对手。反面声音指出:即便单次调用便宜,如果模型频繁走偏、浪费开发者时间或需要重复修正,价格优势也会被抵消;因此成本讨论必须结合“实际完成任务的效率”。
多名评论者展示并讨论了 Gemini 在多模态视觉与向量图(SVG、animated SVG)上的进步,包括能较好地生成 Simon Willison 式的 pelican‑on‑bicycle、可交互动画与电路原理图的 SVG 输出。官方宣传与用户示例(含 Jeff Dean 的演示)都表明 3.1 在这类任务上有质变,带来可用于 UI、轻量动画与矢量资产生成的实际价值。与此同时也有人提醒:这类能力容易被针对性训练或优化,评估时要小心区分“泛化能力”与“针对 benchmark 的强化”。
讨论反复指向 Google 在产品化层面的摩擦:Gemini 多版本处于 preview,模型与端点经常更替或标注模糊(deprecation 表、shutdown date),计费/项目配置复杂且易误触 API 计费。gemini‑cli、Antigravity 与 web UI 被批为不稳定(会话丢失、接口错误、慢、region/vertex 部署限制),很多开发者抱怨缺乏易用的企业订阅与明确的上手路径。评论结论是:若无法把底层模型能力通过稳定、直观的 harness 转化为可用工具,单纯的评测优势难以转化为生产力。
多名评论强调区分“模型能力”与“harness(调优、工具链、训练策略)”的重要性:Anthropic 的 Claude/Opus 在编码流程训练、agentic harness 与 instruction‑following 上更有优势,表现为更可读的代码和更稳健的工具调用;OpenAI 的 Codex(及 Spark)在某些编码场景与速度上也有优势。因此很多实际用户采用混合策略(例如用 Gemini 做研究/检索,用 Claude/Opus/ Codex 完成执行/agent),这表明工程化与调优常常比原始模型差异更决定最终体验。
thinking tokens: Gemini 对外展示的“思考”令牌流,表现为模型在回应前/中输出的链路摘要;用户反馈它常带模板化语句(如“I'm now completely immersed...”),并且可能是由小模型生成的可读摘要而非完整内部 CoT。
CoT(chain‑of‑thought): 链式思路(CoT),指模型在推理时的内部思路轨迹;在实践中对外暴露的 CoT 常被“消毒”或摘要化,无法等同于完整的内部推理痕迹。
agentic workflows: 指可调用外部工具、编辑文件并执行多步任务的代理式工作流(agents),需要模型稳定的工具调用、状态管理与错误恢复能力。
benchmaxing / bench‑maxing: 为提升公开 benchmark 得分而在训练或微调上做定向优化的做法;评论担心厂商会针对流行测试(例如 pelican SVG)进行强化训练,从而弱化真实世界泛化能力。
Antigravity(Google 的 IDE/harness): Google 提供的面向开发者的 IDE / agent harness,用于在 Gemini 上做代码规划、执行与调试;评论里用户既报告它能带来强能力,也抱怨稳定性与产品化不足。
gemini‑cli: Google 提供的命令行客户端(CLI)用于接入 Gemini 模型;多名用户批评其不稳定、难以配置或与内部使用不一致,怀疑 Google 并未充分 dogfood。
ARC‑AGI‑2: ARC‑AGI‑2:一个面向视觉/模式归纳与复杂推理任务的 benchmark,Gemini 3.1 在该评测上报告了显著分数提升,但社区对是否存在针对性优化持怀疑态度。