加载失败
该讨论源于一项将若干主流 AI 代理直接用于自动化通过 Google reCAPTCHA v2 的测试,重点在于评估通用模型的开箱即用能力而非专门破解研究。评论围绕模型在静态视觉识别与像素级边界(cross-tile)识别、网页交互时序(agent-action loop)、以及 reCAPTCHA 所采用的行为指纹和浏览器信号展开。有人指出现实中还存在低成本人工代解与浏览器插件(如 Buster)等绕过手段,因此安全态势不仅取决于模型能否识别图像,还受经济与交互设计影响。讨论同时质疑样本规模与可解释性,呼吁更广泛的数据、更多失败示例和更细致的基准设计。
多位评论者指出 Google 的 Gemini 系列在这轮测试里表现领先且成本较低,观察者称它是“最不令人抓狂”的模型之一。有人建议额外测试 gemini-flash-latest 变体,因为该变体通常比 2.5 pro 更快且在图像理解任务中表现更好。讨论还延伸到训练数据来源与未来版本(例如 Gemini 3)可能带来的变化,以及 Google 是否能通过后续训练(post-train)修补弱点。总体看法是 Gemini 已能解出大量 reCAPTCHA v2 场景,但仍有改进空间且后续版本可能改变竞争格局。
评论普遍指出 reCAPTCHA 不仅依赖视觉识别,还结合浏览器指纹、解题速度和历史行为等行为信号来判断用户是否为人类。若系统怀疑为机器人,它可能故意让几次正确答案“失败”,严重时会把用户置于无限循环的 tarpitted 状态。有人发现换用 Google Chrome 或刻意放慢解题速度能显著提高通过率,说明浏览器和交互节奏会影响判定。界面歧义(例如交通灯是否选灯柱或灯体)与非视觉判定因素导致即便视觉判断正确仍被拒的现象频繁出现。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]
评论里指出模型在判断“图像中是否存在某物体”上通常做得不错,但在跨格子边界识别(cross-tile)和像素级分割上表现较差。文章示例表明模型能识别某格含有目标,却难以判断跨格子目标的准确边界,这可能与其以图-文本配对训练而非像素级分割训练有关。另一个关键瓶颈是 agent-action loop:需要在网页上连续点击、重载或等待动态元素的场景对时序和延迟极其敏感,导致通过率下降。还有评论提到推理调用会占满 context window,影响决策稳定性与执行效率。
多条评论提醒,除了模型能力之外,现实世界的安全风险还来自低成本的人工或半自动 captcha solving services。早在 2009 年就有人用神经网络解 CAPTCHA,现在则存在价格低廉的众包或专门劳动力市场,使得用人工代解在经济上仍可行(有人提到“每千次几美分”级别)。因此即便模型短期内提升,攻击者也可依赖人工代解来规避防护,单纯提升模型并不能彻底解决滥用问题。评论建议在评估风险时同时考虑这些经济与劳动力层面的因素。
不少普通用户分享了实战经验来降低被判为机器人的概率:例如先点一个明显错误的格子再取消提交以示“人为”行为、刻意放慢解题速度以符合系统预期的人类节奏,或直接换用 Google Chrome 来改善判定信号。评论中还提到 Buster 这类浏览器扩展作为自动化或半自动化的解题工具,能在一定程度上减轻手动负担。这些技巧既反映了对 reCAPTCHA 行为判定的经验理解,也说明实际用户能用简单手段绕过或缓解某些判定误差。
有人质疑仅用三款模型来称作“benchmark”是否充足,认为样本量太小且缺乏典型失败示例使结论难以推广。评论里有人明确表示这次测试是检验通用模型开箱即用能力的初步尝试,并建议补充更多模型、更多版本(比如 gemini-flash-latest)以及详细的失败案例来提升可解释性。评论还要求公开更多失败路径的截图或日志(例如跨格子错误、重载情形),以便复现与改进评测方法。总体观点是需要更广泛、更透明的基准设计才能得出稳健结论。
reCAPTCHA v2: reCAPTCHA v2(Google 的图像/交互式人机验证系统),常通过图片选择、复选框与行为信号组合判断是否为人类以防止自动化滥用。
Gemini / gemini-flash-latest: Gemini(Google 的多模态大型模型系列),gemini-flash-latest 是该家族中偏快、对交互/图像任务优化的变体,评论中被提议作为更强的测试对象。
captcha solving services: captcha solving services(验证码代解服务):用低价众包或专门人员批量替客户解题的服务,是现实中绕过验证码防护的重要经济路径。