周启应：采集蜗牛学院与黑马程序员论坛帖子信息实践记录

需积分: 0 197 浏览量更新于2024-08-04 1 收藏 128KB DOCX 举报

在本次上机实训记录中，学生周启应在2023年4月12日的任务是针对两个不同的在线平台进行数据抓取和网页解析，以实践Python编程技能。具体任务分为两个部分： 1. **采集蜗牛学院中学苑动态页面信息**: - 学生的目标是访问蜗牛学院的动态页面，首页URL为 <https://woniuxy.com/note/page-1.html>。使用Python的`requests`库和`lxml`库来实现网页的爬取。通过`load_page`函数发送HTTP请求获取网页内容，然后使用`parse_html`函数解析HTML。解析步骤包括找到文章标题（位于`<p>`标签内，通常是第一段文本）、图片链接（存储在`<img>`标签的`src`属性中）、文章内容（第二段文本）以及发布时间（第三段文本）。抓取的数据结构被保存为一个包含这些信息的JSON对象，如`{"文章标题": ..., "图片链接": ..., "文章内容": ..., "发布日期": ...}`，然后添加到`items`列表中。 2. **采集黑马程序员论坛Python+人工智能技术交流板块页面信息**: - 这个部分的目标是爬取黑马程序员论坛的Python+人工智能技术交流板块，首页URL为 <http://bbs.itheima.com/forum-425-1.html>。与前一个任务类似，学生需使用相同的工具和技术，只是具体节点的选择会有所不同，例如可能需要根据板块的页面结构来定位文章标题、链接、作者和发布时间。同样，这些信息会被封装成JSON格式并存储。整个项目记录强调了实际操作中的网络请求、HTML解析、异常处理以及数据组织和保存，这些都是Web数据抓取和Python网络爬虫开发的基础技能。通过这样的实训，学生可以提升对HTTP协议的理解，掌握XPath表达式在网页解析中的应用，并能有效地处理网页结构变化带来的问题。同时，将数据保存为JSON格式也有助于后续的数据分析和整理。

【上机实训记录活页手册】

项目任务 6：采集蜗牛学院或黑马程序员论坛的帖子

采集蜗牛学院中学苑动态页面信息。

首页 url：https://woniuxy.com/note/page-1.html

解析网页，将文章标题、图片链接、文章内容、发布时间等保存到 JSON 文件中。

或(采集黑马程序员论坛 Python+人工智能技术交流板块页面信息。

首页 url：http://bbs.itheima.com/forum-425-1.html

解析网页，将文章标题、文章链接、作者、发布时间等保存到 JSON 文件中。)

项目记录表

项目名称：

采集蜗牛学院帖子

日期：

2023.04.12

姓名：

周启应

下载后可阅读完整内容，剩余4页未读，立即下载

m0_72024261

粉丝: 0
资源: 1

周启应：采集蜗牛学院与黑马程序员论坛帖子信息实践记录

电子政务外网云平台方案设计分析.docx.docx

一些工作中常见的Linux命令集合2.docx

071223431高宇航.docx002 2.docx

妇女维权周活动方案.docx

学校食品安全周活动总结.docx

2021公司文员周工作计划.docx

学校安全教育周活动方案.docx

大学建议书4篇 (2).docx.docx

银行员工高效的周工作计划.docx

全省食品安全宣传周活动方案.docx

最新资源