清华发布KoLA评测：GPT-4不敌知识创造挑战

版权申诉

9 浏览量更新于2024-08-04 收藏 1.59MB PDF 举报

清华大学最近发布了一项名为KoLA的评测集，专门针对大语言模型（LLMs）在世界知识理解和应用方面的表现进行深入评估。KoLA评测集借鉴了Bloom的认知体系，将评估分为四个认知层级：知识记忆（KM）、知识理解（KU）、知识应用（KA）和知识创造（KC），旨在衡量模型在深度理解及创造知识的能力，而非仅仅依赖于广度。在知识记忆部分，评测通过高频率（1-1，即使用常见实体）和低频率实体（1-2，挑战模型对罕见知识的理解）的预测任务来检验模型的基础事实存储能力。此外，还有ETM任务，它测试模型能否从新数据中推断出未曾直接出现的信息，这在一定程度上考察了模型的泛化和常识理解。知识理解（KU）部分则关注模型对复杂概念和事件的解析，要求模型不仅能够准确识别，还需能解释背后的逻辑关系。这与常见的自然语言理解（NLU）任务有所区别，更侧重于深层次的知识整合。知识应用（KA）测试的是模型能否将学到的知识应用于实际场景，比如推理、问题解答等，考察其在解决实际问题时的知识迁移能力。最后，知识创造（KC）是最具挑战性的层级，它要求模型不仅能生成新的、连贯的文本，还能基于给定的事实或情境创造出新颖的见解或知识，这是衡量一个模型创新能力的关键指标。在最新公布的评测结果中，GPT-4尽管展示了强大的实力，但在知识创造环节并未取得头名，仅位列第三。这表明尽管当前的LLMs在某些任务上表现出色，但在深层次理解和创造性思维方面仍有待提升。KoLA评测集的发布为研究者和开发者提供了一个全面评估模型世界知识处理能力的新工具，有助于推动LLM技术的进一步发展。可以通过论文《KoLA: Carefully Benchmarking World Knowledge of Large Language Models》获取更多详细信息，并访问<https://arxiv.org/pdf/2306.09296.pdf>获取原始研究报告，以及<https://kola.xlore.cn>查阅实时的评测榜单。

2023/6/30 17:38

清华发布 KoLA 评测集，分4个认知层级评测LLM，GPT-4竟不是第一？

https://mp.weixin.qq.com/s/xVj1blhRtpO-Y1HgQ8Wl-A

1/7

清华发布 KoLA 评测集，分4个认知层级评测LLM，GPT-4竟不是第

一？

夕小瑶科技说  原创

作者  | Python

预训练语言模型（ PLM ）刷 GLUE ， SuperGLUE ，甚是常见；那 ChatGPT 等大语言模型

（LLM）刷什么榜呢？现在常用的榜单，例如MMLU评测了57个学科知识，Big-Bench评测204

个推理任务。而这次，清华大学提出KoLA评测基准，从掌握和利用世界知识的角度，衡量大

语言模型的表现。

KoLA基于19个关注实体、概念和事件的任务。参考了Bloom认知体系，KoLA从知识的记忆、

理解、应用和创造4个层级，从深度而非广度去衡量大语言模型处理世界知识的能力。实验结

果表明，GPT-4虽然很强，但依然未能霸榜，在知识创造层次的测试中仅排第三名。那究竟是

怎么一回事儿呢？让我们来看看吧。

论文题目 :

KoLA: Carefully BenchmarkingWorld Knowledge of Large Language Models

论文链接 :

https://arxiv .org/pdf/2306.09296.pdf

评测榜单 :

https://kola.xlore.cn

KoLA评测

Python 2023-06-20 12:05 发表于北京

原创

夕小瑶科技说

下载后可阅读完整内容，剩余6页未读，立即下载

地理探险家

粉丝: 1253
资源: 5601

清华发布KoLA评测：GPT-4不敌知识创造挑战

apache-log4j-2.16.0-bin.rar

Porovnání cen-crx插件

kola.apk

kola-开源

kola-starter:使用 Kola 创建应用程序的样板

销售人员常用电话用语-商贸英语.pdf

Kola_2.6.2_自动任务脚本.apk.1

kola:Kola是一个应用程序框架，允许您通过使用专用的Kontext将它们包装在App中来包含您的应用程序和子应用程序

kola-signals:在 Typescript 中实现的简单信号 - 为 U 静态类型！

506925155971756Kola助手_v3.5.0_tencent_sign.apk

最新资源