1绪论
1
绪论
1.1研究背景
过去几十年,信息化网络的发展彻底改变了我们的生活。网络已经成为人们生活
中不可或缺的部分——查天气,买车票,交友、看新闻、查手机或银行业务,无不通
过网络进行。网络化使人们的日常生活趋于透明化,网络通过提供优质而免费的服务
吸引大量的用户。但是在提供优质服务的同时,几乎所有的互联网公司都在记录着用
户的各种交易数据,也许是为了提供更好的服务,也或许出于其他的商业目的。这些
用户的交易数据对互联网公司来说是珍贵的资源,他们对个人和组织的数据信息进行
数据挖掘与分析研究,从而带来商业价值和科研价值。但是这些数据一旦泄漏,用户
的个人隐私信息将被侵犯,同时对公司的信誉也带来一定的伤害。近年来,我们已经
目睹了多起用户隐私泄漏事件,而这些事件全都是由于数据拥有者由于分享数据不当
引起的。N女D20世纪90年代中期,美国马萨诸塞州团体保险委员会(Group
Insurance
Commission)决定发布州政府雇员的“经过匿名化处理的”医疗数据,以助公共医学
研究。委员会在数据发布之前已经对潜在的隐私问题有所认识,因此删除了所有涉及
敏感信息的数据。例如姓名、性别、年龄、住址、联系方式和社会安全号码(social
security
number)。然而麻省理工学院博士生拉坦娅·斯威尼(Latanya
Sweeney)(现任哈佛大
学教授)在1997年成功破解了这份匿名数据。美国在线公司(AOL)的研究部门在2006
年8月4日在互联网上发布了超过65万用户在过去三个月的搜索关键字,以供公众对搜
索技术进行分析与研究。美国在线公司对发布的数据进行了匿名化处理,但仅仅用一
个随机号码代替用户的账号,并没有对用户所提交的搜索关键字进行任何处理。随后,
《纽约时报》成功将部分数据去匿名化,并在经过当事人同意后,公开了其中一位搜
索用户的真实身份。人们广泛关注这件隐私泄露事件,这个事件导致.Amefica在线公
司的首席技术官辞职。之后,America在线公司因为这个事件在北加州的地方法院被
起诉。除了上述两个著名事件以外,现在大热的网飞公司(Netflix)也曾深陷数据隐私
泄漏的丑闻中。网飞公司投资在2006年以100万美元举办了一个为期三年的推荐系统
算法竞赛,并发布了一些用户的影评数据供参赛者测试。出于隐私保护,网飞公司在
发布数据前将所有用户的个人信息移除,仅保留了每个用户对各个电影的评分以及评
分的时间戳。然而,来自德州大学奥斯汀分校的两位研究人员利用网飞用户影评数据
与公开的互联网电影数据库(tMDB))羽P影评数据之间的相关性,将网飞公司的一部
分匿名用户与公开的IMDB用户进行了一一对应,由此获得了mIDB用户在公司网站
万方数据
评论0