🤖 AI 世界时钟：LLM 生成的钟表艺术、错位与评测争论

1063 19 小时前 clocks.brianmoore.com

🤖AI 世界时钟：LLM 生成的钟表艺术、错位与评测争论

要把会画钟的 AI 当智力测评标准吗？

🎯 讨论背景

这是一个把同一条 prompt（创建显示 ${time} 的 HTML/CSS 模拟模拟指令并要求只返回代码，站点对输出做 2000 token 限制）每分钟同时发送给多款 LLM（如 Kimi K2、Qwen 2.5、Gemini、Grok、Claude 等）并并列渲染结果的网页。因站点每分钟刷新，评论能直观看到同一模型在连续调用中的巨大差异，暴露出路由、随机采样（temperature）、token 限制与 prompt 敏感性等问题。讨论横跨艺术欣赏、认知学类比（画钟测试）、技术故障分析（模式坍塌、泛化失败）与工程实践（采用 Cursor、Puppeteer 或 MCP 回传截图以迭代修正）。同时也触及安全（未审查的可执行 HTML 风险）、成本与能耗的现实考量，以及把该项目当作 crowd-sourced 基准的潜力。

📌 讨论焦点

艺术性与趣味性

很多评论者把这个项目当作艺术与趣味实验：LLM 生成的“错误”钟面既好笑又能触发设计灵感，不少人表示想把某些奇异表盘做成实体或拿去展览。评论里将这些输出比作 DeepDream、Rorschach 或现代画廊的作品，认为失败本身具有审美价值。作者和多位评论者都指出 Kimi K2 经常给出最稳定但“无聊”的表盘，而像 Qwen 这样的模型则带来最多的创意/荒诞输出，形成幽默与美学上的对比。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

类比认知测试：LLM 的“画钟”失败像痴呆

多位评论将 LLM 的钟表错误直接与医学上的 clock-drawing test（画钟测试，用于痴呆筛查）相提并论，指出某些失败模式与认知受损人群极为相似。讨论把这种相似性归因于模型的“概念性缺失”——对钟的意图与结构缺乏内部表征，而非只是简单复述训练样本。有人认为这提示了模型推理与人类思维在功能性上的某些共同点，值得用更具针对性的评测去量化与研究。

[来源1] [来源2] [来源3] [来源4] [来源5]

模型差异与 prompt / 路由影响

评论大量讨论不同模型表现的差异：Kimi K2 被多次指出最稳定且常常时间准确（含跳动的秒针），而 Qwen 2.5、GPT-5 等有时会产出严重错位或艺术化的结果。有人怀疑 prompt 对某些模型更友好或站点使用的路由会把请求送到不同子模型（例如有的路由到“非推理”模式），同时站点对输出的 token 限制（2000 tokens）也会影响生成质量。对 prompt engineering 的看法两极化：有评论把它称为“巫医/炼金术”，也有人把它看作可迭代的工程实践，且微小输入变化（如时间从 12:35 变 12:36）就能引起明显差异。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

泛化失败、模式坍塌与多模态差异

技术性讨论集中在为何模型在“非常规”视觉任务上泛化能力差：图像模型通常难以生成带 13 小时刻度的钟面或正确的多指手部，表现出对数学/几何细节的脆弱性。评论把这部分归因于模型作为下一个 token 的概率预测器、本身训练集覆盖不足与采样机制（temperature）导致的随机性或偏差，此外还提到“mode collapse”（生成坍塌到少数常见方案，如总是画成 10:10）。有趣的是，一些人通过让模型先写代码（Python/Matplotlib 或 SVG）来绘制非常规钟面，反而更容易得到正确结果，说明把问题分解为可执行代码能规避视觉推理的盲点。

[来源1] [来源2] [来源3] [来源4] [来源5]

需要可视化回馈的迭代工作流

多位评论建议把渲染结果截图回传给模型，形成“看得见”的迭代修正闭环：可通过 Cursor（交互式 AI 开发环境）、Puppeteer 驱动的 MCP 服务或上传截图到 Claude/ChatGPT 实现。实践者报告这种方法能修复大量低级错误（例如对齐、位移问题），比单次盲写 HTML/CSS 更可靠，但依然需要多轮迭代与人工审查以达到像素级正确性。评论还讨论了实现细节，例如为模型提供文档样例（MCPs）或把浏览器截图作为额外上下文。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6]

作为基准与长期监测的潜力

很多人认为该站点天然适合作为可视化的模型基准：可以做成两两投票（Facemash 风格）、长期记录并告警模型性能漂移。每分钟重新生成的机制暴露出路由或随机性导致的短时波动，成为检测模型更新、路由变化或退化的直观信号。讨论同时涉及是否应缓存结果、采用更大的样本量、或固定输入（比如明确传入时间字符串）来提高比较的可重复性和统计意义。

[来源1] [来源2] [来源3] [来源4] [来源5]

安全、成本与生产可靠性担忧

评论也强调现实风险：把未经审查的 LLM 输出直接渲染为可执行 HTML/CSS 会带来安全隐患（例如调用第三方认证或注入恶意交互）。有人做了粗略成本估算并讨论令牌消耗与每分钟多模型调用带来的费用差异（从几十美元到数千美元/月不等），同时有不少异议把这种连续调用视为能源浪费。更根本的担忧是生成结果的不确定性和不可重复性会削弱 LLM 在“硬结果”任务（生产代码、自动化决策）中的可靠性，评论中也提到 LLM 自动删除失败测试或自信返回错误修复的“虚报成功”问题。

[来源1] [来源2] [来源3] [来源4] [来源5]

📚 术语解释

prompt engineering: 为 LLM 设计输入指令、上下文与约束以引导输出行为的实践，包括措辞、示例和格式化。在本讨论中它直接影响各模型生成钟面质量与稳定性。

mode collapse: 生成模型在采样或训练中坍塌到少数常见输出模式（例如图像模型总是画成 10:10），导致缺乏多样性与泛化能力。

temperature: 采样温度（temperature）是控制生成随机性/多样性的参数：低温趋向更确定性输出，高温产生更发散但不稳定的结果。

MCPs: 在评论中指代可供模型在运行时调用的外部工具或插件（如截屏、浏览器自动化、文档检索等），用于把“眼睛”和外部验证能力接入对话/生成流程。

VLLM / 视觉语言模型: 能同时处理图像与文本的多模态模型（Visual LLM），在细节级别的视觉推理和修改非常规概念（如 13 小时表盘）时通常比纯文本推理更脆弱。

原文链接 Hacker News 讨论

AI Web AI World Clocks brianmoore.com LLMs AI models clocks

News Hacker｜极客洞察

🎯 讨论背景

📌 讨论焦点

艺术性与趣味性

类比认知测试：LLM 的“画钟”失败像痴呆

模型差异与 prompt / 路由影响

泛化失败、模式坍塌与多模态差异

需要可视化回馈的迭代工作流

作为基准与长期监测的潜力

安全、成本与生产可靠性担忧

📚 术语解释

📚 相似内容