第三章:python实现爬虫系统 1、 实训目的 1、提高Python语言程序设计能力; 2、掌握第三方库的安装和使用; 3、Request、urllib、bs4库的使用。 1、 实训内容 使用requests或urllib库,os库以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。 爬取包括: 1、 广轻新闻,即从以下入口进去的所有新闻(接近1800条) 2、 二级学院“信息技术学院”的新闻。 爬取的新闻内容以及保存方式: 1、 爬取的内容 所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。 如下篇新闻 进入此新闻后,红框部分是需要抽取的内容: 2、保存形式 将所有爬取的内容保存到gdqy目录中。 每条新闻保存到一个文件中,文件名以递增数字为文件名,后缀为.txt。比如第一条新闻保存到1.txt,第二条保存到2.txt。 在保存的文件中,第一行为url地址,第二行为标题(如无标题则是空行),第三行及之后是此新闻的正文内容。 三、实训提交的内容 源代码,爬行运行效果截图。
时间: 2024-04-03 19:35:58 浏览: 54
【python爬虫】通过python爬虫,爬取网页内容,并写入本地数据库(mysql,sqlserver)中。
很好,您的问题是关于 Python 实现爬虫系统的实训目的、内容和提交的内容。这是一个非常实用的实训,通过这个实训,您可以提高 Python 的编程能力,掌握第三方库的安装和使用,以及 Request、urllib、bs4 等库的使用,同时也可以了解爬虫技术的基本原理和应用。
具体来说,本次实训要求使用 requests 或 urllib 库、os 库和 bs4 库爬取特定网页内容,包括广轻新闻和信息技术学院的新闻。爬取的内容仅包括有效的标题、正文文本内容和新闻的 URL 地址,其他内容忽略。爬取的新闻内容将以递增数字为文件名,后缀为.txt 的形式保存到 gdqy 目录下,每条新闻保存到一个文件中。在保存的文件中,第一行为 URL 地址,第二行为标题(如果无标题则是空行),第三行及之后是此新闻的正文内容。
最后,您需要提交源代码和爬行运行效果截图。希望您可以认真完成此项实训,获得更多的编程经验和技能。
阅读全文