使用jsoup实现医疗数据爬虫并存储到MySQL

需积分: 13 84 浏览量更新于2024-11-12 收藏 117KB ZIP 举报

资源摘要信息:" crawler-jsoup-demo: 使用jsoup构建爬虫程序介绍了如何利用Java语言和jsoup库来构建一个简单的网络爬虫程序。在这个过程中，程序首先使用jsoup的API发起HTTP请求，访问目标网页；接着，使用jsoup提供的选择器功能来解析获取的页面内容，提取出所需的数据；最后，通过MyBatis框架将这些数据持久化存储到MySQL数据库中。从标题中，我们可以提炼出以下知识点： 1. 网络爬虫概念：网络爬虫是一种自动获取网页内容的程序，其工作原理是模拟用户浏览网页的行为，通过下载网页内容，并根据一定的规则提取信息，再进行数据存储或进一步的处理。 2. jsoup库介绍：jsoup是一个Java库，可以用来解析HTML文档。它提供了一个非常方便的API来处理和操作HTML，包括从网页抓取数据、导航和修改文档结构等。jsoup特别适用于处理和提取嵌入在HTML中的数据，因此非常适合用于实现网络爬虫。 3. HTTP请求：在网络爬虫的实现过程中，发起HTTP请求是获取网页数据的第一步。使用jsoup的API可以方便地发送请求并处理响应。 4. HTML解析：使用jsoup选择器解析页面数据是该教程的核心部分。jsoup选择器类似于jQuery的选择器，能够通过CSS选择器语法来查询和提取HTML文档中的元素和内容。 5. MyBatis框架：MyBatis是一个持久层框架，它提供了Java对象与数据库表之间的映射，支持定制化SQL、存储过程以及高级映射。该教程使用MyBatis将爬取的数据写入MySQL数据库，说明了数据持久化的过程。 6. MySQL数据库：MySQL是一个流行的关系型数据库管理系统（RDBMS），用于存储爬虫程序获取的数据。从描述中，我们可以了解该教程的具体应用场景和操作流程： 1. 爬虫应用场景：教程中提到的爬取“寻医问药网站的医疗数据”是一个典型的数据抓取案例，显示了网络爬虫在数据采集方面的实际应用。 2. 爬虫操作流程：首先，程序利用jsoup库发起对寻医问药网站的HTTP请求，获取目标页面的HTML源码。然后，通过jsoup提供的DOM解析能力，使用选择器定位到包含医疗数据的部分并提取出来。最后，使用MyBatis框架将提取的数据保存到MySQL数据库中，完成整个爬虫的数据获取和存储过程。 3. MyBatis与MySQL的结合使用：这个过程也展示了MyBatis如何与MySQL数据库结合使用，实现数据的CRUD（创建、读取、更新、删除）操作，以及如何将数据持久化存储。【压缩包子文件的文件名称列表】提供了该教程项目的名称：“crawler-jsoup-demo-master”，表明这是一个涉及Java编程语言的网络爬虫项目，使用jsoup作为主要的爬虫技术手段，并且是一个主从结构的项目名称。综上所述，这个教程详细地介绍了如何使用Java和jsoup来创建一个网络爬虫，通过HTTP请求获取数据，使用jsoup选择器解析数据，最终利用MyBatis框架存储数据到MySQL数据库中。这不仅是一个实践项目，也对理解网络爬虫的基本原理、操作流程和应用场景有很大的帮助。

收起资源包目录

crawler-jsoup-demo:使用jsoup构建爬虫程序（143个子文件）

IllnessCheckupRefMapper.java 229B

HospitalDao.java 221B

DoctorMapper.java 303B

Hospital.java 3KB

SpecialtyIllnessRefMapper.java 241B

SymptomBodyRefDao.java 662B

SpecialtyIllnessRef.java 685B

SymptomIllnessRefMapper.java 229B

Medication.java 4KB

MedicationParameter.java 732B

IllnessCheckupRef.java 710B

DoctorDao.java 835B

CrawlHospital.java 7KB

MedicationIllnessRefMapper.java 244B

People.java 730B

SymptomSpecialtyRefDao.java 701B

CrawlIllness.java 8KB

CheckupRefDao.java 632B

BobyPartDao.java 220B

PeopleDao.java 210B

BodyHotSymptomRef.java 661B

CrawlPeople.java 2KB

CheckupRefMapper.java 211B

BaseDao.java 2KB

BodyHotSymptomRefMapper.java 226B

DoctorIllnessRefDao.java 660B

BodyIllnessRefDao.java 654B

SymptomSymptomRef.java 693B

AddSpecialtyIllnessRef.java 3KB

PinyinUtil.java 2KB

MedicationIllnessRef.java 697B

AddMedicationIllnessRef.java 2KB

CrawlMedication.java 8KB

SpecialtyIllnessRefDao.java 707B

Illness.java 3KB

CrawlDoctor.java 6KB

SymptomSpecialtyRefMapper.java 238B

BodyIllnessRefMapper.java 217B

BodyIllnessRef.java 625B

AddSymptomBodyRef.java 2KB

SymptomIllnessRef.java 712B

SymptomCheckupRef.java 663B

Doctor.java 1KB

MyBatisUtil.java 2KB

AddDoctorIllnessRef.java 2KB

CrawlBodyPart.java 4KB

MedicationIllnessRefDao.java 722B

MedicationDao.java 876B

SymptomCheckupRefDao.java 687B

BodyHotIllnessRef.java 663B

CrawlCheckup.java 4KB

Hospital.java 1KB

BaseDao.java 2KB

CrawlHospital.java 5KB

BaseDao.java 2KB

MedicationParameter.java 733B

AddIllnessCheckupRef.java 2KB

BodyHotIllnessRefDao.java 675B

AddBodyRef.java 3KB

DoctorIllnessRef.java 697B

SpecialtyHotIllnessRefMapper.java 250B

AddSymptomIllnessRef.java 2KB

BodyHotSymptomRefDao.java 675B

SpecialtyDao.java 225B

BodyPart.java 1KB

SymptomIllnessRefDao.java 687B

SymptomSymptomRefDao.java 687B

Checkup.java 2KB

IllnessCheckupRefDao.java 683B

Specialty.java 1KB

AddSymptomSymptomRef.java 2KB

IllnessMapper.java 208B

CrawlMedication.java 7KB

CrawlSymptom.java 7KB

SymptomSpecialtyRef.java 716B

SymptomCheckupRefMapper.java 231B

AddCheckupRef.java 1KB

WebUtil.java 2KB

BodyHotIllnessRefMapper.java 226B

SpecialtyHotIllnessRef.java 721B

MedicationMapper.java 324B

HospitalDao.java 233B

SymptomSymptomRefMapper.java 231B

Medication.java 3KB

MedicationDao.java 1KB

AddSymptomSpecialtyRef.java 2KB

SymptomDao.java 216B

AddSymptomCheckupRef.java 2KB

CheckupRef.java 681B

DoctorParameter.java 768B

SymptomBodyRef.java 671B

IllnessDao.java 623B

BaseMapper.java 225B

SymptomBodyRefMapper.java 220B

MedicationMapper.java 456B

SpecialtyHotIllnessRefDao.java 728B

CrawlSpecialty.java 4KB

CheckupDao.java 216B

DoctorIllnessMapper.java 221B

Symptom.java 3KB

共 143 条

LunaKnight

粉丝: 37
资源: 4705

使用jsoup实现医疗数据爬虫并存储到MySQL

药智数据疾病名称

async-crawler-jsoup_2.10-1.0.0.zip

Web-crawler:用jSoup用Java编写的Internet爬网程序

jsoup多线程爬虫

java爬虫的DEMO的实现

WebCollector:WebCollector是一个基于Java的开源网络爬虫框架，提供了一些简单的网页爬取接口

学习搜索引擎的一些demo

一个敏捷强大的Java爬虫框架SeimiCrawler.zip

掌握jSoup：打造Java互联网爬虫程序

Spring Boot与Java实现的图片资源爬虫教程

最新资源