大数据技术入门:爬虫获取与深度解析

需积分: 10 2 下载量 67 浏览量 更新于2024-07-09 收藏 981KB PPTX 举报
在"大数据技术讨论 - 数据获取之爬虫实现"的PPT中,主要内容围绕着大数据领域的关键概念和技术展开。首先,讨论了大数据的视野,强调了大数据不仅仅是海量数据的堆积,而是具有四个典型特性(Volume、Variety、Value和Velocity),即数据量大、类型多样、价值密度低和实时性高等。V+1O模型中,数据在线(Online)是其核心特征,体现在实时处理和分析上。 该讲座着重介绍了数据获取的方法,特别是通过爬虫实现的数据抓取。爬虫被用来收集网络上的公开信息,如选美民调的数据,这些数据可能来源于传统渠道或基于互联网的行为数据。爬虫技术对于大数据获取至关重要,它能够处理交易数据(如电信的通话记录、银行的金融交易等,数据规模中等且要求高度一致)和行为数据(如互联网服务日志、地理位置信息等,数据量大且一致性要求较低)。 在数据来源上,交易数据和行为数据被明确区分,前者通常包括业务流程中的必要记录,而后者是非强制性的,但对理解用户行为至关重要。例如,在电信行业中,计费数据属于交易数据,而通话内容、上网记录则是行为数据。医疗领域则将问诊过程视为交易数据,而患者的日常健康指标作为行为数据。 处理问题的方式强调了全量加工而非采样分析,因为大数据的特点使得处理所有数据更为重要,即使这意味着处理的复杂性和挑战增大。行为数据的处理可以更灵活,允许一定程度的丢弃,这与传统的交易数据处理方式有显著区别。 最后,讲座讨论了应用架构,指出传统交易数据常依赖于IOE架构(IBM、Oracle、EMC),而行为数据由于其特性,更适合利用分布式计算的存储结构,如Hadoop、Spark等。这个PPT深入剖析了大数据技术中数据获取的关键环节,特别是通过爬虫实现的数据抓取在其中扮演的角色,以及如何理解和应用大数据的内涵和外延,帮助听众建立起全面的大数据认知体系。