人机协作的隐私保护众包实体解析方法

需积分: 9 0 下载量 23 浏览量 更新于2024-08-11 收藏 1.34MB PDF 举报
"这篇文章是燕彩蓉、张洋舜和徐光伟在2014年发表于《计算机科学与探索》期刊上的论文,标题为‘支持隐私保护的众包实体解析’。研究主要探讨了如何结合机器算法和众包方式来提高实体解析的效率和准确性,同时关注在这一过程中如何保护参与者的隐私。通过MapReduce框架减少人工标注的工作量,以及引入基于角色的访问控制和信息隐藏策略,他们在实际应用中验证了这种方法在患者主索引构建中的效果,实现了高效、高精度的实体解析,并有效保护了隐私。" 本文主要涉及以下几个知识点: 1. **实体解析**:实体解析是数据整合的关键技术,旨在识别并链接数据库中代表同一实体的不同记录。这一过程对于数据清洗、知识图谱构建和信息检索等应用至关重要。 2. **机器算法与众包结合**:传统的机器算法可能在准确性上存在局限,而众包利用人类智能可以提高解析的精确度。文章提出将两者结合,先用机器排除明显不匹配的记录对,减少需要人工处理的部分,降低工作量。 3. **MapReduce并行计算框架**:MapReduce是一种分布式计算模型,常用于大数据处理。在这里,它被用来高效地处理大量记录对,预先过滤掉不可能匹配的组合,优化众包任务的分配。 4. **基于角色的访问控制**:在众包环境中,为保护隐私,文章提出了基于角色的访问控制模型。这意味着不同角色的用户只能访问到特定权限级别的信息,限制了敏感数据的不必要暴露。 5. **重要信息隐藏策略**:除了访问控制外,还采用了信息隐藏策略,可能包括数据脱敏、匿名化等手段,以进一步保护参与众包任务的个人隐私。 6. **应用实例**:论文中提到的方法被应用于某医院的患者主索引构建,这表明该方法在医疗数据集成和管理中具有实用价值,能够帮助构建准确的患者信息索引,同时确保数据隐私安全。 7. **性能评估**:实验结果证明了人机结合方法的有效性,不仅提高了实体解析的效率和准确性,而且成功避免了隐私泄露的风险。 这篇论文提供了实体解析领域的一个创新解决方案,将计算效率与隐私保护相结合,为实际应用提供了理论和技术支持。通过深入研究和实践,这种融合机器学习和众包的方法有望在更多领域得到应用,特别是在处理敏感信息时需要兼顾效率和隐私的场景。