1、实训目的1、提高Python语言程序设计能力；2、掌握第三方库的安装和使用；3、Request、urllib、bs4库的使用。1、实训内容使用requests或urllib库，以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。爬取包括：1、广轻新闻，即从以下入口进去的所有新闻（接近1800条）2、二级学院“信息技术学院”的新闻。爬取的新闻内容以及保存方式：1、爬取的内容所有新闻只抽取有效的“标题”，“正文”文本内容，以及本新闻的url地址，其他内容忽略。如下篇新闻进入此新闻后，红框部分是需要抽取的内容： 2、保存形式将所有爬取的内容保存到gdqy目录中。每条新闻保存到一个文件中，文件名以递增数字为文件名，后缀为.txt。比如第一条新闻保存到1.txt，第二条保存到2.txt。在保存的文件中，第一行为url地址，第二行为标题（如无标题则是空行），第三行及之后是此新闻的正文内容。三、实训提交的内容源代码，爬行运行效果截图

时间: 2024-03-19 22:39:51 浏览: 191

抱歉，我无法提供截图功能，但是可以提供实现代码。以下是一个基于requests和BeautifulSoup4库的Python爬虫代码，用于爬取广东轻工职业技术学院新闻和信息技术学院的新闻，保存到本地文件中： ``` python import requests from bs4 import BeautifulSoup import os # 爬取广东轻工职业技术学院新闻 def crawl_gdqy_news(): # 爬取广轻新闻入口 url = 'http://www.gdqy.edu.cn/index/xwdt.htm' response = requests.get(url) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') # 获取新闻列表 news_list = soup.select('.news_list li a') # 遍历新闻列表 for news in news_list: # 获取新闻链接和标题 news_url = 'http://www.gdqy.edu.cn' + news['href'] news_title = news.text.strip() # 获取新闻内容 news_response = requests.get(news_url) news_response.encoding = 'utf-8' news_soup = BeautifulSoup(news_response.text, 'html.parser') news_content = news_soup.select('#vsb_content')[0].text.strip() # 保存新闻到本地文件 save_news(news_url, news_title, news_content) # 爬取信息技术学院的新闻 def crawl_it_news(): # 爬取信息技术学院新闻入口 url = 'http://xxjs.gdqy.edu.cn/index/xyxw.htm' response = requests.get(url) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') # 获取新闻列表 news_list = soup.select('.news_list li a') # 遍历新闻列表 for news in news_list: # 获取新闻链接和标题 news_url = 'http://xxjs.gdqy.edu.cn' + news['href'] news_title = news.text.strip() # 获取新闻内容 news_response = requests.get(news_url) news_response.encoding = 'utf-8' news_soup = BeautifulSoup(news_response.text, 'html.parser') news_content = news_soup.select('#vsb_content')[0].text.strip() # 保存新闻到本地文件 save_news(news_url, news_title, news_content) # 保存新闻到本地文件 def save_news(news_url, news_title, news_content): # 创建目录 if not os.path.exists('gdqy'): os.makedirs('gdqy') # 获取下一个文件名 next_file_name = len(os.listdir('gdqy')) + 1 # 保存新闻到文件 with open(f'gdqy/{next_file_name}.txt', 'w', encoding='utf-8') as f: f.write(news_url + '\n') f.write(news_title + '\n') f.write(news_content) # 爬取广东轻工职业技术学院新闻 crawl_gdqy_news() # 爬取信息技术学院的新闻 crawl_it_news() ``` 在运行上述代码之前，请确保你已经安装了requests和BeautifulSoup4库。运行上述代码后，程序将会爬取广东轻工职业技术学院新闻和信息技术学院的新闻，并将内容保存到本地文件中。

阅读全文

相关推荐

嵌入式Linux下的Python与第三方库交叉编译实战

Python安装第三方库：详述三种方法

pip与PyCharm中第三方库安装与导入详解

程序开发综合实训A卷.doc

常用Python第三方库介绍

【Python App进阶秘籍】：掌握库文件和模块，提升开发技能

【TextBlob终极指南】：掌握Python自然语言处理的10大技巧

微信小程序登录安全深度分析：Python后端防护全攻略

Python基础课件系列

【XML与Python实战】：打造高效DOM解析器，提升数据处理能力

【微信PC端第三方应用集成方案】：实现Wechat 3.2.1版与外部应用的无缝连接

【Python网络安全防御手册】：利用pwd模块分析和抵御安全威胁

大学计算机基础：Python之旅的持续

深入浅出YRC1000：掌握语言核心语法，实例驱动的应用

构建高效数据模型：Python Models实例与最佳实践

Python Web安全大揭秘：防御网络攻击的实战策略

【Python讯飞星火LLM应用开发】：构建智能应用的10大秘诀

【Python社交媒体分析】：10大技巧助你成为数据分析大师

【学生信息管理系统功能扩展指南】：精通Python增删改查技巧

【Python Web框架深度对比】：选择最适合学生信息管理系统的开发技术栈

大家在看

MSATA源文件_rezip_rezip1.zip

Java17新特性详解含示例代码（值得珍藏）

UD18415B_海康威视信息发布终端_快速入门指南_V1.1_20200302.pdf

MAX 10 FPGA模数转换器用户指南

C#线上考试系统源码.zip

最新推荐

无法使用pip命令安装python第三方库的原因及解决方法

Python第三方库安装和卸载

[Python语言程序设计-第11期] 测验1: Python基本语法元素 (第1周)

Python第三方库的几种安装方式

Python第三方包PrettyTable安装及用法解析

3dsmax高效建模插件Rappatools3.3发布，附教程

【R-Studio技术路径】：从RAID 5数据恢复基础到高级操作

``` 定义1个圆类，成员有：1个半径成员变量，1个构造方法给成员变量赋初值，1个求面积方法。```定义1个圆类，成员有：1个半径成员变量，1个构造方法给成员变量赋初值，1个求面积方法。

Ruby实现PointInPolygon算法：判断点是否在多边形内

【R-Studio恢复工具解析】：RAID 5恢复的功能优势与实际应用