引文幻觉大幅下降的AI模型诞生准确率与人类专家相近

科技日报| 2026-02-05 09:41:59

科技日报记者张梦然

《自然》4日报道了一个开源语言模型“OpenScholar”，其在准确进行文献综述方面可超越商用大语言模型。比如，在该研究开展的实验中，GPT4o会在78%至90%的情况下出现引文幻觉，而“OpenScholar”的引文准确率却与人类专家相仿。虽然仍需进一步优化，但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而，文献发表数量的增长使研究人员很难掌握全部资讯。商用大语言模型可以提供协助，但却很容易出错，如归因能力有限和引文幻觉。

为了生成准确、全面、透明的科学文献综述，美国华盛顿大学团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强语言模型。其他系统也用过这个框架，但研究团队将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合，从而优化了其输出。

研究团队还创建了名为“ScholarQABench”的基准工具来评估文献综述的自动化。测试显示，“OpenScholar”的准确率比GPT4o和PaperQA2（一个文献综述工具）这类现有系统分别高出6.1%和5.5%。此外，“OpenScholar”生成的答案，在50%到70%的情况下比专家注释器的答案更有用。

团队总结道，以上结果和引文幻觉大幅下降证明了“OpenScholar”有望支持和推动进一步研究工作。但他们指出，该系统仍有局限性并强调基于语言模型的系统无法使科学文献综述完全自动化。他们向学界同时开放“ScholarQABench”和“OpenScholar”，以鼓励进一步研究和优化。

总编辑圈点

科研人员每天寻找有用的论文，相当于在信息的“海洋”里捞“珍珠”。但现在海水暴涨，真正有用之物和以假乱真之物一起浮上了水面。以前大家用的是通用的“万能捞网”，比如GPT。但它的网眼太大，捞上来的有可能是“塑料珠子”，也就是假的或错误的引文，需花大量时间去挑，还可能会被误导。而这个“OpenScholar”，是一个专门为这片科学海洋设计的网。它不追求万能，而追求可靠，而且所有科学家都能一起改进这个工具，让它更准确。这有望把科研人员从繁琐、易错的文献苦海中部分解放出来，让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。