人机协同：数据准备的未来突破与挑战

125 浏览量更新于2024-07-15 收藏 1.39MB PDF 举报

随着大数据时代的到来，数据准备在数据分析过程中扮演着至关重要的角色，但其复杂性和耗时性成为了企业及研究人员面临的重大挑战。"人在回路的数据准备技术研究进展"这一专题深入探讨了这两个核心问题——高昂的人力成本和冗长的时间周期。首先，文章关注于交互式数据准备技术，这是一种以用户为中心的方法，它通过实时互动预测用户的需求和意图，通过精准的算法预测和自动化流程，显著降低了数据准备的繁琐工作量，提高了效率。交互式数据准备技术强调用户体验，用户不再是被动的数据接收者，而是参与到数据准备的决策过程中，这样既节省了人工干预的时间，又确保了数据处理的针对性和准确性。这种技术依赖于先进的机器学习模型和自然语言处理技术，能够理解用户的查询和需求，提供个性化的数据预处理解决方案。其次，文章讨论了基于众包的数据准备技术。这种策略利用互联网上的庞大用户群体作为分布式计算资源，通过众包平台将数据清洗、转换等任务分解到个体用户，从而极大地扩展了数据处理能力。然而，如何确保众包数据的质量以及合理控制成本，如选择合适的任务分配策略、实施有效的质量监控机制，是这一领域亟待解决的关键问题。为了实现高质量的众包数据准备，研究者们正在探索一系列方法，包括建立有效的激励机制、采用智能合约进行任务管理，以及通过人工智能技术自动评估和优化任务完成质量。同时，如何保护用户隐私和数据安全，以及如何处理数据主权和合规性问题，也是未来研究的重要方向。 "人在回路的数据准备技术研究进展"旨在通过结合交互式用户体验和众包计算力量，打破传统数据准备的瓶颈，推动数据分析的效率和质量提升。然而，技术进步的同时，也带来了新的伦理、法律和社会问题，这为未来的理论研究和实践应用提出了新的课题。在未来，期待看到更多创新的解决方案，使得数据准备变得更加智能、高效且透明。

BIG DATA RESEARCH 大数据

的难点一方面在于需要准确地预测适用于

用户数据集与分析任务的数据准备步骤以

及最优的参数，另一方面在于需要提升算

法执行的效率，以保证交互的实时性。本

文的第3节将从交互机制、操作预测与流

程推荐这3个方面梳理交互式数据准备的

研究进展。

其次，众包工人的参与给数据准备带

来了新的机会——能够通过人机协作的方

式解决传统单纯依靠机器难以解决的问

题，提升数据准备的效果。因此，众包技术

被广泛应用于数据准备过程中，如数据抽

取、数据清洗、集成与标注。其基本思想

是向互联网上的众包平台发布众包问题，

吸引大量的互联网用户（称为众包工人）

作答，以相对低廉的单价，将人的认知与

处理能力引入数据准备的过程中。然而，

由于数据集的规模越来越大，保证众包结

果的质量、成本与时延变得越来越有挑战

性。第4节将梳理众包数据准备的研究进

展，包括众包数据准备的核心任务与众包

优化。

不难看出，虽然都引入了人的参与，

交互式数据准备与众包数据准备在谁来做

（w h o）、为何做（w h y）和做什么（w h a t）

这3个基本问题上存在本质不同。具体地，

交互式数据准备面向的是需要进行数据准

备的终端用户（如上文提到的领域用户），

目的是通过尽可能少的交互预测用户的意

图，主要的工作是设计有效的交互机制和

预测算法。与此相对，众包数据准备面向

的是互联网上海量的众包工人，目的是借

助他们的识别能力提升数据准备的效果，

主要的工作是设计众包任务和进行质量控

制。需要指出的是，很多相关工作也研究

了众包的交互界面和交互机制

[6-9]

，但其目

的是提升众包完成的质量、降低众包成本

或时延，与本文的交互式数据准备是不同

的概念。

此外，现有的文献也采用了类似的方

式对人在回路的数据准备进行了分类。例如

D a t a T a m e r 系统将参与人分为管理员与领

域专家

[10]

，前者通过与系统的交互形成数据

准备工作流，后者起到了类似众包的作用，

完成一些挑战性强的任务，如实体识别。采

用类似分类方式的还包括参考文献 [ 1 1 - 1 4 ]

2019046-4

图 2 人在回路数据准备的研究概览

剩余15页未读，继续阅读

weixin_38685538

粉丝: 5
资源: 1023

人机协同：数据准备的未来突破与挑战

程序员面试刷题的书哪个好-xai-iml-sota:与可解释人工智能、可解释机器学习、交互式机器学习、人在回路和视觉分析相关的有趣资源

人在回路机器学习Human-in-the-Loop_Machine_Learning.pdf

人在回路的数据准备技术研究进展.docx

华为od报文回路java

华为2021od 报文回路

XGBoost用于控制回路异常诊断的思想与步骤

XGBoost算法如何用于控制回路异常诊断

什么是大数据操作回路？大数据操作回路的核心要素是什么？

java 笔试报文回路

matlab就回路矩阵

最新资源