第三章:python实现爬虫系统 1、 实训目的 1、提高Python语言程序设计能力; 2、掌握第三方库的安装和使用; 3、Request、urllib、bs4库的使用。 1、 实训内容 使用requests或urllib库,os库以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。 爬取包括: 1、 广轻新闻,即从以下入口进去的所有新闻(接近1800条) 2、 二级学院“信息技术学院”的新闻。 爬取的新闻内容以及保存方式: 1、 爬取的内容 所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。 如下篇新闻 进入此新闻后,红框部分是需要抽取的内容: 2、保存形式 将所有爬取的内容保存到gdqy目录中。 每条新闻保存到一个文件中,文件名以递增数字为文件名,后缀为.txt。比如第一条新闻保存到1.txt,第二条保存到2.txt。 在保存的文件中,第一行为url地址,第二行为标题(如无标题则是空行),第三行及之后是此新闻的正文内容。 三、实训提交的内容 源代码,爬行运行效果截图。
时间: 2024-04-03 11:35:58 浏览: 63
很好,您的问题是关于 Python 实现爬虫系统的实训目的、内容和提交的内容。这是一个非常实用的实训,通过这个实训,您可以提高 Python 的编程能力,掌握第三方库的安装和使用,以及 Request、urllib、bs4 等库的使用,同时也可以了解爬虫技术的基本原理和应用。
具体来说,本次实训要求使用 requests 或 urllib 库、os 库和 bs4 库爬取特定网页内容,包括广轻新闻和信息技术学院的新闻。爬取的内容仅包括有效的标题、正文文本内容和新闻的 URL 地址,其他内容忽略。爬取的新闻内容将以递增数字为文件名,后缀为.txt 的形式保存到 gdqy 目录下,每条新闻保存到一个文件中。在保存的文件中,第一行为 URL 地址,第二行为标题(如果无标题则是空行),第三行及之后是此新闻的正文内容。
最后,您需要提交源代码和爬行运行效果截图。希望您可以认真完成此项实训,获得更多的编程经验和技能。
相关问题
1、实训目的1、提高Python语言程序设计能力;2、掌握第三方库的安装和使用;3、Request、urllib、bs4库的使用。1、实训内容使用requests或urllib库,以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。爬取包括:1、广轻新闻,即从以下入口进去的所有新闻(接近1800条)2、二级学院“信息技术学院”的新闻。爬取的新闻内容以及保存方式:1、爬取的内容所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。如下篇新闻进入此新闻后,红框部分是需要抽取的内容: 2、保存形式将所有爬取的内容保存到gdqy目录中。每条新闻保存到一个文件中,文件名以递增数字为文件名,后缀为.txt。比如第一条新闻保存到1.txt,第二条保存到2.txt。在保存的文件中,第一行为url地址,第二行为标题(如无标题则是空行),第三行及之后是此新闻的正文内容。三、实训提交的内容源代码,爬行运行效果截图
抱歉,我无法提供截图功能,但是可以提供实现代码。以下是一个基于requests和BeautifulSoup4库的Python爬虫代码,用于爬取广东轻工职业技术学院新闻和信息技术学院的新闻,保存到本地文件中:
``` python
import requests
from bs4 import BeautifulSoup
import os
# 爬取广东轻工职业技术学院新闻
def crawl_gdqy_news():
# 爬取广轻新闻入口
url = 'http://www.gdqy.edu.cn/index/xwdt.htm'
response = requests.get(url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
# 获取新闻列表
news_list = soup.select('.news_list li a')
# 遍历新闻列表
for news in news_list:
# 获取新闻链接和标题
news_url = 'http://www.gdqy.edu.cn' + news['href']
news_title = news.text.strip()
# 获取新闻内容
news_response = requests.get(news_url)
news_response.encoding = 'utf-8'
news_soup = BeautifulSoup(news_response.text, 'html.parser')
news_content = news_soup.select('#vsb_content')[0].text.strip()
# 保存新闻到本地文件
save_news(news_url, news_title, news_content)
# 爬取信息技术学院的新闻
def crawl_it_news():
# 爬取信息技术学院新闻入口
url = 'http://xxjs.gdqy.edu.cn/index/xyxw.htm'
response = requests.get(url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
# 获取新闻列表
news_list = soup.select('.news_list li a')
# 遍历新闻列表
for news in news_list:
# 获取新闻链接和标题
news_url = 'http://xxjs.gdqy.edu.cn' + news['href']
news_title = news.text.strip()
# 获取新闻内容
news_response = requests.get(news_url)
news_response.encoding = 'utf-8'
news_soup = BeautifulSoup(news_response.text, 'html.parser')
news_content = news_soup.select('#vsb_content')[0].text.strip()
# 保存新闻到本地文件
save_news(news_url, news_title, news_content)
# 保存新闻到本地文件
def save_news(news_url, news_title, news_content):
# 创建目录
if not os.path.exists('gdqy'):
os.makedirs('gdqy')
# 获取下一个文件名
next_file_name = len(os.listdir('gdqy')) + 1
# 保存新闻到文件
with open(f'gdqy/{next_file_name}.txt', 'w', encoding='utf-8') as f:
f.write(news_url + '\n')
f.write(news_title + '\n')
f.write(news_content)
# 爬取广东轻工职业技术学院新闻
crawl_gdqy_news()
# 爬取信息技术学院的新闻
crawl_it_news()
```
在运行上述代码之前,请确保你已经安装了requests和BeautifulSoup4库。运行上述代码后,程序将会爬取广东轻工职业技术学院新闻和信息技术学院的新闻,并将内容保存到本地文件中。
python的环境搭建的实训内容怎么写
你好!针对“Python环境搭建”的实训内容,可以按照以下步骤进行:
1. 简单介绍Python:Python是一种高级编程语言,具有易学、易用、易读的特点,被广泛应用于Web开发、数据分析、人工智能等领域。
2. 环境搭建前的准备:首先需要确定使用哪种Python版本以及操作系统版本,然后下载对应的Python安装包,并安装好相关的开发环境和编辑器,如Anaconda、PyCharm等。
3. 安装Python环境:根据操作系统和Python版本的不同,安装方法也会有所不同。可以在网上搜索对应的安装教程,或者参考官方文档进行安装。
4. 环境配置:安装完成后,需要进行环境配置,如配置Python的环境变量、安装必要的第三方库等。
5. 实践练习:通过一些简单的练习,如Hello World程序、变量定义、函数定义等,来检验Python环境是否已经搭建成功。
6. 实战项目:可以根据实训内容的具体要求,设计一些实战项目,如爬虫、数据分析、机器学习等,来提高学生的实践能力和编程水平。
最后,需要注意的是,在实训过程中,要注意让学生自主思考、探索,多给予指导和鼓励,帮助他们养成独立思考和解决问题的能力。
阅读全文