众包数据分析：贝叶斯、极大似然与最大熵法的对比实证研究

69 浏览量更新于2024-07-16 收藏 1.59MB PDF 举报

本篇论文深入探讨了众包中的信息提取问题，具体聚焦于英国广播公司（BBC）电视节目中观众对不倒翁内硬币数量的估计实验。该实验结果显示，观众的估计值遵循对数正态分布(log-normal distribution) \( \Lambda(m, s^2) \)。这是一个典型的适合通过众包解决的图像分析和对象计数问题的实例。研究的主要目标是利用贝叶斯方法和最大似然(ML)技术来估计分布参数 \( m \) 和 \( s \)，并且对比这两种方法的性能。论文首先解决了贝叶斯分析中的先验问题，通过杰弗里斯规则（Jeffreys' rule）确定合适的概率分布假设。有趣的是，尽管贝叶斯分析和ML分析在确定位置参数 \( m \) 的表达式上达成一致，但在尺度参数 \( s \) 的处理上有所不同，然而在大量数据的情况下，两者趋于一致。在实际应用中，当参与者并未被要求提供硬币数的具体分布，而是简单地提供了估计值时，论文关注了一个关键问题：样本平均值作为人群信息的有效度量。实验结果显示，样本平均值与基于 \( \Lambda(m, s^2) \) 计算的理论平均硬币数存在显著差异，这引发了关于样本平均值可靠性的问题。为了解决这一问题，作者引入了最大熵原理（Maximum Entropy Principle, PME）。PME允许找到在给定先验信息下最可能的分布，确保分布与提供的信息完全一致。论文展示了当PME与特定的样本均值和样本方差不匹配时，样本均值作为统计信息的可靠性就受到了质疑。这篇论文不仅提供了一种用统计学方法处理众包数据的有效框架，还深入探讨了如何在不确定性和有限信息的情况下，合理评估群体估计的准确性和可靠性。这对于理解和优化大规模在线协作任务中的信息提取具有重要的理论价值和实践指导意义。

weixin_38657376

粉丝: 4
资源: 928

众包数据分析：贝叶斯、极大似然与最大熵法的对比实证研究

求最大熵的一个实验报告

众包模式在大规模遥感影像信息提取领域的探索

论文研究 - 作为众包的标签：Twitter上阿拉伯标签的案例研究

论文研究-基于众包虚拟社区的诚信保障和信誉评价机制研究.pdf

centro-de-apertura-de-datos:众包开放公共数据

Tree-of-Savior-Chinese-Translation-Voting:MMORPG Tree of Savior - 中文翻译众包系统

JMD2015-When-Crowdsourcing-Fails:复制2015年ASME机械设计期刊论文的代码存储库-众包失败时

论文研究 - 众包创新虚拟社区用户角色识别研究

women-in-software-eng:软件工程统计中的众包女性资源库

Crowdsource-Testing-Federal-Crowdsourcing-and-Citizen-Science-Toolkit_8-2015:来自82015 Federal Crowdsourcing和Citizen Science Toolkit众包兼容性测试周期的工件

最新资源