本文主要探讨了现实世界中如何在不收集敏感数据的情况下实现更公平的机器学习。随着算法和机器学习模型在决策过程中扮演越来越重要的角色,它们可能存在从历史数据中继承的不公平性,这涉及到诸如性别、种族、性取向和残疾等保护特征。为了解决这个问题,计算技术社区如歧视感知数据挖掘(Discrimination-Aware Data Mining, DADM)和公平、责任与透明的机器学习(Fairness, Accountability, and Transparency in Machine Learning, FATML)已经提出了一些解决方案。
然而,实际应用这些技术面临诸多挑战。首先,由于法律限制(如反歧视法)、机构政策或商业考量,组织可能无法获取必要的敏感数据来诊断和应对间接歧视,比如在住房贷款领域中的“红线”现象。这些组织在理解和管理复杂社会技术系统中的公平问题上也存在局限。
文章提出了三个关键策略来解决这一问题:
1. **受信任的第三方**:这类第三方可以有选择地存储和处理歧视检测所需的非敏感数据,同时确保隐私保护。他们在模型构建过程中可以引入公平约束,这样即使没有直接的敏感数据,也能实现某种程度的公平性。
2. **协作在线平台**:通过搭建平台,不同组织可以共享上下文知识和实践经验,促进机器学习系统的公平性。这种协作有助于积累对公平问题的理解,共同面对复杂的社会和技术环境。
3. **无监督学习与可解释算法**:利用无监督学习和具有教学上可解释性的算法,可以建立公平假设,进行选择性的测试和探索。这种方法允许在数据受限的情况下,通过算法设计间接地应对潜在的歧视问题。
文章强调,机器学习中的公平挑战并非仅仅是一个理论上的优化问题,它深深地根植于制度和现实环境之中。尽管计算公平工具对于提升公平性至关重要,但它们的研发和应用必须考虑到实际环境的复杂性,而不仅仅是理想化的假设。忽视这一点可能导致实际的算法危害,因此,研究和开发这些工具时必须密切关注真实世界的需求和影响。