加载失败
ICLR(国际学习表征会议)是机器学习领域的重要会议,近期有团队在投稿样本中发现大量无法检索或疑似虚构的引用——他们在约300篇抽样中发现至少50处问题,并据此估计在约20,000份投稿中可能有数百例。讨论基于两个前提:一是现代生成式LLM会以高置信生成并可能虚构事实(hallucination/confabulation);二是现行同行评审和学术激励体系(投稿量大、发表为绩效)无法逐条自动或人工核验每个引用。评论围绕责任归属(作者 vs 工具 vs 期刊)、技术检测(BibTeX校验、RAG、tool-calling)与制度性对策(披露政策、惩戒、法律过失)展开,兼顾技术可行性与社会/法律后果。
大量评论认为无论是否用了LLM,伪造或编造引用属于学术欺诈,署名作者必须对提交内容负责而不能以工具为借口。评论指出引用是论证与证据链的基础,连基础的引用核查都不做等同于职业失职,主张对严重违规者实施强硬惩罚(如解雇、终身禁发或公开通报)。这一立场强调即便AI作为辅助存在,人类作者仍应验证每一条引用并承担后果,以维护学术信任。
另一批评论把焦点放在LLM本身与厂商责任上,认为模型会自信地“幻觉”不存在的引文,且厂商或平台通过宣传弱化了用户对结果核验的意识。有人用“随机出错的计算器”或“被过度承诺的工具”作比喻,指出竞争与绩效压力会把AI变成降低造假成本的加速器。该阵营主张除了追责作者,也要问责工具提供方并审视市场与监管激励。
许多评论强调同行评审在实践中并非逐项核验引用或复现实验的“校对员”,审稿通常侧重方法论、合理性与新颖性而非逐条检索参考文献。审稿人工作量大且多为无偿志愿(有评论提到ICLR要求在两周内审5篇),因此通常假设署名者的诚信并作高层次把关。有人把更细粒度的核查职责放在编辑或出版流程上,认为需要制度性工具或流程来分担这一负担。
多位评论建议通过自动化手段做初筛——如用BibTeX/bibliography linter、投稿时上传被引PDF、或对引用做数据库匹配以标记无法检索的条目。有人强调这类静态匹配可以拦下大量明显伪造或元数据错误,并提出用RAG或开放引用知识库做更高质量核查。与此同时也有警告:把检验任务交给LLM或检测器并非万无一失(存在幻觉和误报),像GPTZero类工具也曾被指不可靠或产生假阳性,且市场上可能出现“检测蛇油”。
[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7] [来源8]
评论普遍把问题与学术评价体系联系起来:以发表数量、会议接受率或引用指标为导向会驱动投机行为并滋生paper mills。有人指出样本与总体规模问题——公告提到在300篇样本中发现50处问题,并估计在约20,000份投稿里可能有数百例——这与长期存在的可重复性危机相互叠加。讨论认为仅靠技术治理难以根除问题,除非改变评价与奖励机制以降低对“产量”的盲目追求。
从技术角度有大量讨论认为幻觉并非简单的界面漏洞,而是概率型语言模型按训练分布生成‘貌似合理但并非真实’输出的固有行为。有人用“evil genie”或随机替换的比喻来描述这种不确定性,指出即便把验证交给另一个LLM也会出现假阳性/假阴性和对抗性问题。部分评论承认通过严格的tool-calling、外部检索或开放引用知识库能显著降低风险,但同时强调这些方法不能从根本上消除幻觉或对抗操纵的可能性。
评论中对用词也有激烈分歧:有人主张称之为“fabricated/lie”(强调道德与法律责任),有人仍沿用“hallucination/confabulation”来描述模型特有的错误模式。法律与政策讨论提到“过失/negligence”可能成为现实的追责路径,并建议期刊对未披露大规模LLM使用的投稿采取更严厉的处理。ICLR等会议已经开始制定披露政策,但评论普遍呼吁更明确的跨机构报告与惩戒机制以遏制学术腐蚀。
有评论警告一个更危险的连锁反馈:AI生成的论文被AI检测、再被AI阅读与索引,最终成为后续模型训练的数据源,从而形成自证的虚假知识闭环。此类循环会侵蚀公众和学界对出版物的信任,使可靠证据更稀缺且更昂贵。评论认为这是一场既有技术又有社会层面的危机,需要同时在工具、流程与监管上采取综合应对。
LLM 幻觉 (hallucination): 大型语言模型生成看似合理但事实不存在或不准确的信息,例如编造不存在的论文标题、作者或段落;源于模型按概率预测下一个token产生高置信度错误输出的性质。
Confabulation: 借用心理学术语描述模型在信息缺失时“编造”连贯细节的行为,强调叙述性虚构而非单纯的元数据错误。
Fabricated citation / Fabrication: 指引用完全不存在或被虚构以支撑论点的行为,通常被视为学术欺诈而非单纯的格式或拼写错误。
BibTeX: LaTeX及学术写作中常用的文献条目与引用导出格式,评论建议用BibTeX做静态校验或作为投稿时的机器可验证输入。
RAG (Retrieval-Augmented Generation): 检索增强生成:把外部检索或知识库与生成模型结合以减少幻觉、使生成内容能被实时检索到的技术方案。
Paper mill: 以规模化生产低质量或欺诈性论文牟利的机构或作法,担忧在AI助力下此类产出门槛进一步降低。
GPTZero / AI detectors: 声称能检测AI生成文本的第三方工具或服务,评论指其误报/漏报问题严重,且市场上存在以检测之名的劣质产品。