News Hacker|极客洞察

🤔戈尔曼悖论:AI能快速生成代码却未催生大量可用应用
会写代码的 AI,为什么没炸出一堆可用产品?

🎯 讨论背景

标题指出所谓“Gorman Paradox”:尽管生成式 AI 可以写代码,但并未催生大量可用应用;文章并引用 mikelovesrobots.substack 的数据质疑 AI 对软件生产率的提升。评论基于一个基本前提展开:写代码只是软件交付的一部分,集成、测试、处理 edge cases、库/框架更迭与运维才是现实瓶颈。讨论里提到的具体概念包括 Gemini-CLI(一个用于调用大型语言模型的命令行工具)、GCODE(G-code,用于控制数控机床/3D 打印机的指令集)、webpack 升级与第三方 API(如 Xero 的会计 API)兼容性问题等。个别案例显示模型能在垂直任务上端到端完成工具,但大多数产出仍偏向试验性或被视为“shovelware”(大量低质量快速产出的软件),因此难以支撑普遍的生产力跃升。

📌 讨论焦点

AI生成应用存在但多为低质或试验性质

多名评论者表示确实经常能碰到 AI 生成的网站和应用,但质量普遍很差,外观或功能像“烂产品”。有人认为很多只是试验品或处于修 Bug 阶段,开发者在测试模型生成的结果并不断修补。还有评论把这些产出描述为信息污染的一部分,包括伪造视频、谎言和诈骗,说明虽然产出数量可见,但并非高价值或可持续的产品。

[来源1] [来源2] [来源3]

代码生成提速但整体生产力未提升,交付环节成瓶颈

有评论引用 mikelovesrobots.substack 的数据,认为虽然 code gen 加快了写代码的速度,但并未显著提高整体软件产出率,因为写代码只是交付的一小部分。评论给出具体例子说明集成与边缘情况的复杂性:比如 Barclays 的 CSV 在第 47 行出现随机空行、HSBC 格式变更、移动端与桌面导出差异、OAuth token 在凌晨失效、数据库迁移以及第三方 API(如 Xero)在不同时间返回不一致的 JSON 等,都需要大量人工调试。快速生成代码反而可能拖慢 code review 与 QA,因为审查和修复模型生成的错误耗时;许多声音认为 AI 能把“80%”做快,但最后 20% 的稳定性与兼容性反而更难办。也有评论指出 AI 在写特定功能代码时能加速开发,但这仍不足以改变交付完整、健壮产品的总体节奏。

[来源1] [来源2] [来源3] [来源4] [来源5]

模型缺乏理解力,容易自信地误导开发者

部分评论强调生成模型并不具备真正理解能力,会自信地给出错误或不适用的建议,因此需要开发者强大的判断力来纠偏。评论举例库与框架的 churn(更迭)带来的问题:在 webpack4 升级到 webpack5 的过程中,模型反复给出只适用于旧版的做法,导致浪费时间。结论是对于非标准或创新性任务,单靠模型难以取代工程经验;即便在可复刻的已有解决方案上成功,也可能无法理解内部实现并长期维护。

[来源1] [来源2]

个别成功案例:AI能端到端完成特定工具

也有评论提供反例性个案:使用 Gemini-CLI 调用模型独立生成并展示了一个 Linux GCODE 查看器,输入仅为测试 gcode 文件,模型能直接查看渲染结果。该事例说明在输入明确、任务边界清晰的垂直领域,生成式模型可以实现端到端的工具开发。评论普遍把这类例子视为例外,认为它们展示了可能性但难以泛化为普遍的、可持续的产品化路径。

[来源1]

对投资者与宏观经济影响的担忧

有人把讨论上升到资本与宏观层面,担心若投资者普遍接受 AI 未能提高实际产出的结论,可能触发对 AI 相关企业估值的重估或资金撤离。评论提出结合大型科技公司的高杠杆或不良贷款,这种估值调整有潜力传导到更广泛的科技板块并对经济造成冲击。总体观点是技术生产力的现实表现会影响资本流向,从而带来系统性风险,而这也是需要关注的额外后果。

[来源1]

📚 术语解释

code generation (code gen): 利用大型语言模型或专门工具自动生成源代码的过程,常简称为 code gen;它能加速初步编码工作,但并不能自动解决集成、测试、边缘情况处理、代码审查与运维等工程环节的复杂性。