加载失败
本讨论围绕标题提出的观点:大型语言模型(LLM)常产出“貌似正确但未必正确”的代码与论证。评论以法律起草、城市规划抗议和代码审查为例,指出模型基于大规模语料的统计性质会导致 hallucination、默认风格偏好(如 enterprisey OOP)与大量模板化输出,从而给司法、行政与工程带来审查和维护负担。参与者讨论用 LLM 复核 LLM 输出、提示工程、将任务拆分以及采用 agents(将模型与工具和多回合策略结合的体系)等缓解手段,但一致认为人工最终复核仍不可或缺。
评论指出 LLM 在起草法律论证或行政意见时常生成“表面合理”但可能无效、立论不严或误导性的文本。法官與审批机关往往缺乏足够时间、精力或意愿逐条核查引用与论证,使得这种“貌似合理”的文本在程序上占优并产生 Brandolini's Law 描述的驳斥不对称。现实案例包括 NIMBY 利用 ChatGPT 批量生成抗议意见淹没规划人员,且无法负担专业代理的当事人更易受损。评论者担忧此类可行性信息会侵蚀司法与行政决策质量并增加后续核查成本。
多条评论认为 LLM 输出本质上是对训练语料的概率平均,因此在未被明确约束时会倾向于互联网中常见的编码范式。具体表现为偏向 enterprisey 的 OOP 风格、引入大量“trendy dependencies”与模板化实现,而非为特定场景提供最简洁或最合适的方案。这种默认偏好会给追求轻量、性能或最小依赖的项目带来额外复杂度与维护负担。
讨论把关键差异归结为人类具备执行功能(goal-directed executive function)和对系统的整体 world model,能够有目的地拆解问题,而 LLM 常被形容为运行在近似“梦逻辑”或局部概率优化的模式。实务上表现为产量与节奏的不同:模型短时间能生成大量代码(评论举例出现 3800 行的 shell script PR),大量自动生成的提交会压垮人工审核并增加技术债务。虽然也有观点指出模型具备某种 world model 或可通过注意力层与 agents 改进,但多数评论仍强调分块提交、人工复核与监督的重要性以控制质量与风险。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]
许多工程师认为在工程实践中“貌似正确”的输出往往已足够:用 LLM 快速产出可运行的原型,运行测试并通过反馈迭代(hillclimb)逐步改进,速度上的收益使不完美输出具有实用价值。评论举例用 Claude 或 ChatGPT 快速获得可测实现,然后通过调试与重复提问修正问题;在 UX 领域也有类似“先验证 plausible 体验再细化”的做法。因此不少人把问题看作速度与准确性的权衡:接受一定错误率以换取生产力,但前提是有测试与审查机制。
评论提出若干缓解途径:人工最终复核仍被认为不可或缺,同时有人用 LLM 去审查其他 LLM 的输出以标注 unsupported 的断言以减少人工工作量。提示工程(将任务拆为明确小目标)和采用 agents(将模型与工具、记忆和多回合策略结合的体系)被视为改善多回合推理与长期目标管理的方向,但这些方法尚不完全成熟。社区也反复提醒用户不要默认模型客观正确,必须通过来源核验、测试与人工把关来降低 hallucination 风险。
LLM: LLM(Large Language Model, 大型语言模型):基于大规模文本语料训练的生成模型,通过预测下一个 token 来生成文本或代码,其输出反映训练数据的概率分布,因此更偏向“最有可能”的序列而非严格逻辑证明。
hallucination: hallucination(幻觉/错误生成):模型生成的看似合理但与事实不符、无来源或不可证实的信息,常见于事实性断言或具体代码细节。
Brandolini's Law / Bullshit Asymmetry Principle: Brandolini's Law(Bullshit Asymmetry Principle / 牛屎不等式):产生错误或误导性信息通常比驳斥它更容易且成本更低,常用于说明 LLM 生成大量貌似合理输出导致的审查负担不对称。
Gell-Mann Amnesia effect: Gell‑Mann Amnesia effect:观察到人们在自己熟悉的领域发现信息来源出错后,却在其他不熟悉领域继续信任同一信息源的现象,用来说明用户可能对 LLM 错误产生选择性盲信。
agent: agent(AI agent):把基础模型与外部工具、记忆、插件或多回合控制策略结合的系统,用以管理更长链路的任务、保持状态并执行多步规划,旨在改善单次生成的局限性。