大数据技术入门：爬虫获取与深度解析

需积分: 10 186 浏览量更新于2024-07-09 收藏 981KB PPTX 举报

在"大数据技术讨论 - 数据获取之爬虫实现"的PPT中，主要内容围绕着大数据领域的关键概念和技术展开。首先，讨论了大数据的视野，强调了大数据不仅仅是海量数据的堆积，而是具有四个典型特性（Volume、Variety、Value和Velocity），即数据量大、类型多样、价值密度低和实时性高等。V+1O模型中，数据在线（Online）是其核心特征，体现在实时处理和分析上。该讲座着重介绍了数据获取的方法，特别是通过爬虫实现的数据抓取。爬虫被用来收集网络上的公开信息，如选美民调的数据，这些数据可能来源于传统渠道或基于互联网的行为数据。爬虫技术对于大数据获取至关重要，它能够处理交易数据（如电信的通话记录、银行的金融交易等，数据规模中等且要求高度一致）和行为数据（如互联网服务日志、地理位置信息等，数据量大且一致性要求较低）。在数据来源上，交易数据和行为数据被明确区分，前者通常包括业务流程中的必要记录，而后者是非强制性的，但对理解用户行为至关重要。例如，在电信行业中，计费数据属于交易数据，而通话内容、上网记录则是行为数据。医疗领域则将问诊过程视为交易数据，而患者的日常健康指标作为行为数据。处理问题的方式强调了全量加工而非采样分析，因为大数据的特点使得处理所有数据更为重要，即使这意味着处理的复杂性和挑战增大。行为数据的处理可以更灵活，允许一定程度的丢弃，这与传统的交易数据处理方式有显著区别。最后，讲座讨论了应用架构，指出传统交易数据常依赖于IOE架构（IBM、Oracle、EMC），而行为数据由于其特性，更适合利用分布式计算的存储结构，如Hadoop、Spark等。这个PPT深入剖析了大数据技术中数据获取的关键环节，特别是通过爬虫实现的数据抓取在其中扮演的角色，以及如何理解和应用大数据的内涵和外延，帮助听众建立起全面的大数据认知体系。