引文幻觉大幅下降的AI模型诞生 准确率与人类专家相近
科技日报| 2026-02-05 09:41:59

科技日报记者 张梦然

《自然》4日报道了一个开源语言模型“OpenScholar”,其在准确进行文献综述方面可超越商用大语言模型。比如,在该研究开展的实验中,GPT4o会在78%至90%的情况下出现引文幻觉,而“OpenScholar”的引文准确率却与人类专家相仿。虽然仍需进一步优化,但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而,文献发表数量的增长使研究人员很难掌握全部资讯。商用大语言模型可以提供协助,但却很容易出错,如归因能力有限和引文幻觉。

为了生成准确、全面、透明的科学文献综述,美国华盛顿大学团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强语言模型。其他系统也用过这个框架,但研究团队将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合,从而优化了其输出。

研究团队还创建了名为“ScholarQABench”的基准工具来评估文献综述的自动化。测试显示,“OpenScholar”的准确率比GPT4o和PaperQA2(一个文献综述工具)这类现有系统分别高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用。

团队总结道,以上结果和引文幻觉大幅下降证明了“OpenScholar”有望支持和推动进一步研究工作。但他们指出,该系统仍有局限性并强调基于语言模型的系统无法使科学文献综述完全自动化。他们向学界同时开放“ScholarQABench”和“OpenScholar”,以鼓励进一步研究和优化。

总编辑圈点

科研人员每天寻找有用的论文,相当于在信息的“海洋”里捞“珍珠”。但现在海水暴涨,真正有用之物和以假乱真之物一起浮上了水面。以前大家用的是通用的“万能捞网”,比如GPT。但它的网眼太大,捞上来的有可能是“塑料珠子”,也就是假的或错误的引文,需花大量时间去挑,还可能会被误导。而这个“OpenScholar”,是一个专门为这片科学海洋设计的网。它不追求万能,而追求可靠,而且所有科学家都能一起改进这个工具,让它更准确。这有望把科研人员从繁琐、易错的文献苦海中部分解放出来,让他们能把宝贵精力用在真正的思考和发现上。这正是科学工具走向可信化的重要一步。

精彩推荐
张健工商资本下乡不能偏离 改善社会资本进入的基础环境
05-19
复制一批特斯拉项目 让“特斯拉速度”成为“上海速度”常态
05-18
猪肉价格真的降了 下半年逐步达到正常的水准是有可能的
05-11
大众公布在华销量 推进产品攻势 提供多样化、年轻化的选择
04-20
高江涛掌权斯威汽车 推出“预售抢购模式”及“两级火箭渠道模式”
04-20
美国消费数据创历史最糟纪录 未来股市可能会大幅下跌
04-17
热点推荐
五六天后:科学减脂 专业营养师团队为您的健康“保驾护航”
06-08
谜茵焕肤精华:开启非入侵式医美级护肤体验
06-08
草本与咖啡的结合——品晟咖啡强势登场
06-08
艾德证券港股打新京东|大有机会博10%的收益,来不来?
06-08
福鼎白牡丹对女人的具体好处有哪些?
06-08
TMALL@HOME 天猫家居生活展亮相上海K11,用脑洞致敬生活!
06-08