清华发布KoLA评测:GPT-4不敌知识创造挑战

版权申诉
0 下载量 9 浏览量 更新于2024-08-04 收藏 1.59MB PDF 举报
清华大学最近发布了一项名为KoLA的评测集,专门针对大语言模型(LLMs)在世界知识理解和应用方面的表现进行深入评估。KoLA评测集借鉴了Bloom的认知体系,将评估分为四个认知层级:知识记忆(KM)、知识理解(KU)、知识应用(KA)和知识创造(KC),旨在衡量模型在深度理解及创造知识的能力,而非仅仅依赖于广度。 在知识记忆部分,评测通过高频率(1-1,即使用常见实体)和低频率实体(1-2,挑战模型对罕见知识的理解)的预测任务来检验模型的基础事实存储能力。此外,还有ETM任务,它测试模型能否从新数据中推断出未曾直接出现的信息,这在一定程度上考察了模型的泛化和常识理解。 知识理解(KU)部分则关注模型对复杂概念和事件的解析,要求模型不仅能够准确识别,还需能解释背后的逻辑关系。这与常见的自然语言理解(NLU)任务有所区别,更侧重于深层次的知识整合。 知识应用(KA)测试的是模型能否将学到的知识应用于实际场景,比如推理、问题解答等,考察其在解决实际问题时的知识迁移能力。 最后,知识创造(KC)是最具挑战性的层级,它要求模型不仅能生成新的、连贯的文本,还能基于给定的事实或情境创造出新颖的见解或知识,这是衡量一个模型创新能力的关键指标。 在最新公布的评测结果中,GPT-4尽管展示了强大的实力,但在知识创造环节并未取得头名,仅位列第三。这表明尽管当前的LLMs在某些任务上表现出色,但在深层次理解和创造性思维方面仍有待提升。KoLA评测集的发布为研究者和开发者提供了一个全面评估模型世界知识处理能力的新工具,有助于推动LLM技术的进一步发展。可以通过论文《KoLA: Carefully Benchmarking World Knowledge of Large Language Models》获取更多详细信息,并访问<https://arxiv.org/pdf/2306.09296.pdf>获取原始研究报告,以及<https://kola.xlore.cn>查阅实时的评测榜单。
2023-05-30 上传