数据质量与AI性能：当SOTA在错误数据上时

版权申诉

60 浏览量更新于2024-08-04 收藏 1.24MB PDF 举报

"文章讨论了在错误的数据上优化模型，特别是达到最先进的技术水平（State-of-the-Art, SOTA）的实际意义。作者通过分享一个关系抽取任务的案例，指出当模型在某一数据集上的表现无法提升时，可能是数据本身存在问题。文章强调了数据质量对AI模型的重要性，并引用了图灵奖得主Judea Pearl教授的观点，即没有明确的数据质量标准，提升数据质量是困难的。作者提到在某些公开评测任务中，如细粒度实体识别任务CLUENER，可能存在数据问题，导致模型表现超过人类，这引发了对数据质量的质疑。在关系抽取数据集的例子中，作者发现高达42%和37%的训练和验证数据存在错误，这些错误包括关系标注错误、关系不全和不应存在的关系被标记为答案，这使得模型在不同结构下表现不稳定。" 知识点详解: 1. 数据质量的重要性: 在AI和深度学习领域，高质量的数据是训练高效模型的关键。即使有最先进的算法，如果数据质量低下，模型的性能也将受到限制。文章通过案例表明，单纯依赖模型优化而不关注数据质量可能会导致无效的优化。 2. State-of-the-Art (SOTA) 的局限性: 达到SOTA水平并不一定意味着模型的泛化能力和实际应用价值高。在错误或低质量的数据集上取得的SOTA结果可能不具有实际意义，因为模型可能只是学会了数据集中的噪声和异常情况。 3. 数据集的可靠性: 公开的评测任务数据集可能存在质量问题，这可能导致模型的评估结果不可靠。例如，CLUENER任务的baseline模型在某些类别上的表现超越人类，这提示我们需要对数据集的标注准确性进行深入检查。 4. 数据错误的类型: 数据错误主要包括关系错误、关系不全和不应存在的关系被错误地标记。这些错误会直接影响模型学习到的模式，导致模型的预测能力下降。 5. 预训练语言模型与数据冲突: 对于预训练模型，它们在学习过程中积累了大量知识，当遇到错误的标签时，模型可能会陷入困惑，导致性能不稳定。 6. 数据清洗和验证: 为了确保模型的有效性，数据预处理阶段需要对数据进行严格的清洗和验证，修正或删除错误的数据，提高数据集的质量。 7. 数据驱动的AI竞赛新范式: 吴恩达发起的以数据为中心的AI竞赛强调了数据集构建的重要性，倡导在固定模型的情况下通过优化数据来提升AI性能，反映了业界对数据质量的重视。 8. 数据质量的标准和评估: Judea Pearl教授的观点提出，我们需要明确的数据质量标准来指导数据改进工作。这涉及到如何定义和衡量数据的质量，以及如何设计有效的方法来提升数据质量。通过上述知识点，我们可以理解在AI研究和实践中，关注数据质量与模型优化同样重要，错误的数据可能导致误导性的SOTA结果，而提升数据质量是推动AI进步的关键环节。

在

错

误

的

数据

上，

刷到

⼜

有

什么

意

义

？

⽂

| Severus

编

⼩

轶

⼩

编

注

：

前

段

时

间

，

⼩屋

介

绍

了

吴

恩

达

⽼

师

近

期

发

起

的

以

数据

为中

⼼

的

竞

赛

（

参

⻅

《

吴

恩

达

发

起

新

型

竞

赛

范

式

！

模

型固

定

，

只

调

数据

？！

》

）

。

吴

恩

达

⽼

师

认

为

：

⼯

业

界

已

经

具

备

较

为

成

熟

的

算

法

和

代

码

体

系

，

现

在

更

加

缺

少

的

是

⼀

套

成

熟

的

构

建

⼯

业

化

数据

集

的

⽅

法

论

。

然

⽽

，

正

如

图

灵

奖

得

主

Judea Pearl

教授

所

质

疑

的

那

样

：

“

在

不

知

道

什么

是

质

量

更

好

的

数据

的

基

础

上

提

升

数据

质

量

是

不

太

现

实

的

”

。

对

于

这

个

问题

，

本

⽂

作

者

由

关

系

抽

取

任

务

说

起

，

探

讨

了

⼀

些

可

能

的

答

案

——

我

们

究竟

需

要

怎

样

的

数据

？

前

段

时

间

，

我

的

项

⽬

正

在

准

备

开

源

发

布

，

补

充

项

⽬

在

⼀

些任

务

上

的

表

现

，

以作为

开

源

之

后可

以

宣

传

的

点

。

我

们

项

⽬的

⼀

⼤

特点

是

⼗

分

擅

⻓

应

对

挖掘

任

务

，

因

⽽

我

们

⾃

然

也

就

想

蹭

波

热

度

，

在

某

关

系

抽

取

评

测

任

务

上

试

了

⼀下

效

果

。

在

此

之

前

，

我

们

的

项

⽬

在

⼀

些

其

他

挖掘

任

务

上

的

表

现

⼀

直

是

可

以

的

，

但

是

在

那

个

关

系

抽

取

数据

上，

我

们

就

翻

⻋

了

，

⽆

论

是

我

们

的

baseline

还

是

增

强

模

型

，

都

⽆

法

打

出

来

差

异

化

的

分

数

。

其

实

简

单

来

讲

，

就

是

：

单

纯

使

⽤

标

注

⽅

法

，

怎

么

样

都

⽆

法

提

升

了

。

数据

之

殇

实

际

上，

对

于

⼏

乎

所

有

的

公

开

评

测

任

务

，

我

都

会

本

能

地

怀

疑

它

的

数据

是

什么

样

⼦

的

，

尤

其

在

我

看

到

了

榜

单

之

后

。

例

如

细粒

度

实

体

识

别

任

务

CLUENER

。

它

的

baseline

评

测

在

某

些

类

别

上，

连

BiLSTM+CRF

的

结

果

都

已

经

超

过

了⼈

类

（

甚

⾄

可

以

说

是

远

超

）

。

当

我

看

到

了

这

个

榜

单

，

⾃

然

就

rus

2021-06-30

12:05

原

创

夕

⼩

瑶

的

卖

萌

屋

下载后可阅读完整内容，剩余6页未读，立即下载

地理探险家

粉丝: 1253
资源: 5589

数据质量与AI性能：当SOTA在错误数据上时

在错误的数据上，刷到 SOTA 又有什么意义？ .pdf

在错误的数据上，刷到 SOTA 又有什么意义？ .rar

在错误的数据上，刷到 SOTA 又有什么意义？.rar

惊呆！不用一张图片，却训出个图像识别SOTA？.pdf

谷歌、斯坦福联合发文：我们为什么一定要用大模型？.pdf

名声大噪的YOLO迎来YOLOv8，迅速包揽目标检测、实例分割新SOTA-图像-推理-.pdf

惊呆！不用一张图片，却训出个图像识别SOTA？.rar

论文投稿新规则，不用跑出SOTA，还能“内定”发论文？！.pdf

打破BERT天花板：11种花式炼丹术刷爆NLP分类SOTA！.pdf

谢撩，人在斯坦福打SoTA.pdf

最新资源