加载失败
原文警告互联网上的新工具与组织化机制让论文造假能够“规模化、耐久化并增长”,评论者补充说问题既有技术因素(如LLM、论文工厂、私有数据与代码不可得)也有制度性原因。多数讨论围绕主流期刊(如 Nature、Cell)偏好新奇而拒绝复制、现代同行评审从开放讨论演变为封闭终审、以及以论文数/引用数为目标的评价体系(Goodhart's law)。具体案例如有人发现疑似 LLM 生成的“跨学科”伪论文、以及 Leiden 排名中可疑的异常产出;解决建议集中在设立复制经费、强制开放原始数据/代码、以及对公款研究引入更严格的问责。评论同时在“科学是否会/能自我修正”和“如何在避免官僚化下实施可行改革”之间存在显著分歧。
大量评论把责任部分归在主流期刊与现代同行评审制度上,指出高影响力期刊偏好新颖结果、拒绝复制与阴性研究,从而扭曲科研动机。有人追溯现代“预发表同行评审”兴起到 Pergamon Press(1951 年由 Robert Maxwell 创办的商业出版社),并批评同行评审从开放讨论变成封闭的终审机制,导致编辑和匿名审稿人拥有过大裁量权和潜在利益冲突。评论中举例编辑直接 desk-reject、期刊以“重要性/新奇”为筛选标准,使得科研更注重发表数量与“可售卖”的故事而非可重复性。多位评论者还指出,这种制度化选择为有心人和商业化造假提供了可乘之机。
评论普遍以 Goodhart's law 为镜鉴:当论文数、引用数、h-index 被直接作为评估目标时,这些指标被策略化并失去信号价值,学界出现切片发表、引用操纵和引用圈。典型证据包括谷歌学术告警发现的“ N. Tvlg”疑似由 LLM 生成且跨学科堆砌互相引用的伪论文实例,以及即便被大量驳斥但仍因高引用在评估中获益的案例。Brandolini's law(驳斥废话所需精力远大于产生废话)也多次被提及,说明发现与纠正虚假信息的成本远高于制造它的成本。多名评论认为,这套以指标为导向的评价与拨款体系已形成一个可被市场化利用的“供应链”。
许多评论把问题的实质看作复制研究的稀缺:主流期刊不愿刊登重复或阴性结果,复制工作难以获经费且对晋升贡献小,导致自我修正回路被削弱。针对性方案包括设立专门的复制期刊或资金池、随机资助多组独立复制以做抽检,以及将复制与阴性结果纳入职称考核。评论引用了经济学已有的 Journal of Comments and Replications 作为范例,同时指出顶刊担心刊登复制会损害其“新奇/影响力”声誉,因而需要外部经费与制度激励来弥补。多个回复强调,只要有资金流向并把复制当作可计量的产出,就会有人去做复制工作,即便不由顶刊直接承载。
评论指出可复现性问题在不同学科以不同形式出现:机器学习受代码可得性、随机初始化、数据泄露与实验规模影响,常出现难以重复但非必然造假的结果;生命科学存在图片处理、实验可变性和人为“修饰”数据的风险;大科学(如高能物理、引力波)则通过协作与多处独立观测实现更可靠的交叉验证。具体例子包括 ML 领域因未发布可复现代码与只取单次“好结果”导致的 SOTA 假象,以及生物学里图片造假和实验室间不可迁移的操作变量。评论还提到,不同领域的文化(如物理的逐步验证 vs CS 的速度文化)会放大小样本或不可重复性的后果。
多条评论警告商业化论文工厂(paper mills)与 LLM 自动生成伪论文正把造假规模化:有读者辨识出同一作者名下跨学科、多篇互相堆引用但内容与图表互不匹配的伪论文样例。另有评论怀疑高校或院系通过操纵发表和引用来提升在 Leiden 等大学排名中的位置,从而把学术排名变成可被利用的经济目标。有人担忧这种组织化、自动化的造假若获得资金或国家支持,将使传统的同行/信誉审查难以奏效。总体观点是:技术降低了造假门槛,指标驱动放大了需求,二者形成正反馈。
关于是否以及如何治理,评论分歧明显:一部分人主张法律和制度改革——比如要求公款研究公开原始数据/代码、对造假者追偿并把复制计入晋升;也有人提倡企业与研究更紧密对接,让市场损失成为约束。另一类声音认为科学在长期会自我修正,但修正有延迟且代价高(比喻为“eventual consistency”),这段延迟会造成临床、政策等领域的实质伤害。反对者提醒,任何新规则都会带来官僚化与新的利益扭曲,真正可行的改革必须同时改变资金分配、评价制度与问责机制。
Goodhart's law: 当一个量化指标被直接用作目标时,它会失去作为衡量信号的效用并被策略性操纵;评论中用于解释论文数、引用数等被滥用的现象。
Brandolini's law: “反驳废话所需工作量远大于制造废话”,说明辨别与纠正伪科学或伪论文的成本通常远高于制造它们的成本。
paper mill(论文工厂): 商业或组织化的代写/造假服务,批量生产伪造论文、伪造数据与引用,以谋取发表名额或提高作者指标。
replication crisis(可重复性危机): 指若干学科(例如心理学、生物医学及部分计算领域)出现大量重要研究无法被独立重复验证的现象,暴露方法、报告与激励上的系统性问题。
h-index: 衡量学者论文产出与引用影响的指标,常被用于职称与拨款评估,但易被引用操纵和数量化激励扭曲。