目前,大语言模型逐渐成为文学、法律、医学、自然科学研究等领域中不可或缺的工具。然而,在应用过程中,大语言模型常会出现 “幻觉”现象——可能生成看似合理但实际并不准确或不真实的信息。比如,在新闻领域,大语言模型可能会编造出完全不存在的新闻事件;在法律领域,它可能引用虚构的法律条文和案例;在医学领域,它可能会提供错误的诊疗建议,甚至危及患者生命安全。鉴于此,用户在使用这些大语言模型输出的答案时不要盲目相信,而应对每次输出的答案进行仔细核实和验证。
英国牛津大学研究团队近日在国际学术期刊《自然》上发表论文,尝试解决大语言模型输出中的这种“幻觉”现象,从而提高输出的可信性。通过评估大语言模型在特定提示词下生成内容时的不确定性,可计算出该模型的困惑程度。作为一种警示,它提醒用户或模型自身采取额外的循证措施,以确保更准确地输出答案。
为了更准确衡量模型的困惑程度,该论文引入了“语义熵”概念来计算输出的不确定性。所谓语义熵,实际上是信息熵的一种,用于衡量一个物理系统中所包含的信息量。
为了简单理解“熵”所表示的意思,我们可以想象一个人在岔路口时作出判断的情形:如果这个人向左走或向右走的概率相同,那么这是“熵”的最大情况,代表信息不确定性的极大值,说明这个人对前方的路完全没有把握;而如果这个人总是选择向左走,从不选择向右走,则这是“熵”的最小情况,代表信息不确定性的极小值,说明这个人对前方的路完全有把握。
然而,当涉及语言时,情况会变得更加复杂。相同的意思可以通过不同的表达方式来传达。例如, “埃菲尔铁塔的位置在哪里”,答案可以是“巴黎”“在巴黎”或“在法国首都”。为了解决这种语言本身导致的不确定性,研究人员将意义相同的回答进行聚类,从而形成一个统一的输出答案,进而计算出聚类后模型输出答案的“熵”。如果模型输出的句子都是表达相同语义的句子,那么语义熵值就会较低,这意味着模型对于自己的输出答案非常确定;反之, 语义熵则会很高,表明模型对自己输出的答案感到不确定。
利用语义熵概念,研究人员对包括GPT-4和LLaMA2在内的多个大语言模型进行深入研究。结果显示,语义熵在所有模型和数据集上的表现都非常出色,是目前用于评估模型困惑程度的最佳方法,能有效识别出大语言模型是否在“胡言乱语”。另外,通过对大语言模型进行反复提问,我们可以有效地定量计算出它对问题答案的不确定程度,并通过拒绝回答不确定的问题来提高输出答案的整体准确度。
语义熵的优势显而易见,它不需要对大语言模型进行改动或重新训练,也不需要额外的成本就可立即应用于目前所有的大语言模型。此外,在设计大语言模型时,我们可以将语义熵作为参考指标,在遇到可能不确定的答案时可以选择拒绝回答或尝试进行联网搜索,从而提高答案的可靠性。语义熵甚至可以用于人类也不知道答案的未知问题,定量判断大语言模型输出答案的确定性。
值得注意的是,利用语义熵来判断大语言模型输出的困惑程度,并不等同于对输出正确与否的判断。换句话说,大语言模型输出答案具有很低的语义熵,只意味着它在其已有的训练数据基础上确信自己答案是正确的。这表明大语言模型有极高概率生成单一语义的句子,但这些句子是否实际正确仍无法完全保证。
尽管如此,这项研究无疑是在实现完全机器自主语言生成的道路上迈出了重要一步,为大语言模型理解其自信度提供了新的视角,给未来发展带来了无限可能。
(作者王琳琳系中国科普作家协会会员、吉林省科学技术工作者服务中心助理研究员,刘传波系吉林省科普创作协会会员、中国科学院长春应用化学研究所博士)