使用 urllib 或 requests 爬取编程语言排行榜页面
时间: 2023-11-03 10:59:09 浏览: 84
下面是使用 requests 库爬取编程语言排行榜页面的示例代码:
```python
import requests
url = 'https://www.tiobe.com/tiobe-index/'
response = requests.get(url)
if response.status_code == 200:
html = response.content.decode('utf-8')
print(html)
else:
print(f'Request failed with status code {response.status_code}')
```
该代码向 tiobe.com 发送一个 GET 请求,并从响应中获取页面的 HTML 内容。如果请求成功,则打印 HTML 内容;否则,打印失败信息。
请注意,我们需要对响应内容进行适当的解码,以便在控制台中正确显示页面内容。在上面的代码中,我们使用 utf-8 解码。如果网站的编码方式不同,则需要使用相应的编码方式进行解码。
相关问题
用python完成:使用urllib、re等标准库编程网络爬虫程序,爬取南京工程学院官网中校园要闻的最新200条要闻的发布时间、发布人和新闻标题,并存入excel文件中。
在Python中,你可以使用`urllib`库来发送HTTP请求获取网页内容,`re`库则用于正则表达式匹配,提取你需要的信息。以下是一个基本的步骤示例,但请注意,由于南京工程学院官网的具体结构可能会有所变化,这个脚本可能需要针对实际页面结构进行调整:
```python
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
# 发送GET请求
url = "https://njut.edu.cn/" # 南京工程学院官网首页或其他包含要闻链接的页面
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'lxml')
# 提取新闻列表区域(假设这部分有class="news-list")
news_list = soup.find('div', class_='news-list')
# 创建一个空列表来保存数据
data = []
# 模拟处理每个新闻条目
for news_item in news_list.find_all('li'): # 可能需要修改查找元素的标签
title = news_item.find('h2') or news_item.find('a') # 获取新闻标题
if title is not None:
title_text = title.text.strip()
date = news_item.find('span', class_='post-date') # 获取发布时间
if date is not None:
date_text = date.text.strip()
author = news_item.find('span', class_='author') # 获取发布人
if author is not None:
author_text = author.text.strip()
data.append({'日期': date_text, '作者': author_text, '标题': title_text})
# 将数据转换为DataFrame并保存到Excel
df = pd.DataFrame(data)
df.to_excel('南京工程学院新闻.xlsx', index=False)
第三章:python实现爬虫系统 1、 实训目的 1、提高Python语言程序设计能力; 2、掌握第三方库的安装和使用; 3、Request、urllib、bs4库的使用。 1、 实训内容 使用requests或urllib库,os库以及bs4库爬取特定网页内容。不得使用现成的桌面工具爬取内容。 爬取包括: 1、 广轻新闻,即从以下入口进去的所有新闻(接近1800条) 2、 二级学院“信息技术学院”的新闻。 爬取的新闻内容以及保存方式: 1、 爬取的内容 所有新闻只抽取有效的“标题”,“正文”文本内容,以及本新闻的url地址,其他内容忽略。 如下篇新闻 进入此新闻后,红框部分是需要抽取的内容: 2、保存形式 将所有爬取的内容保存到gdqy目录中。 每条新闻保存到一个文件中,文件名以递增数字为文件名,后缀为.txt。比如第一条新闻保存到1.txt,第二条保存到2.txt。 在保存的文件中,第一行为url地址,第二行为标题(如无标题则是空行),第三行及之后是此新闻的正文内容。 三、实训提交的内容 源代码,爬行运行效果截图。
很好,您的问题是关于 Python 实现爬虫系统的实训目的、内容和提交的内容。这是一个非常实用的实训,通过这个实训,您可以提高 Python 的编程能力,掌握第三方库的安装和使用,以及 Request、urllib、bs4 等库的使用,同时也可以了解爬虫技术的基本原理和应用。
具体来说,本次实训要求使用 requests 或 urllib 库、os 库和 bs4 库爬取特定网页内容,包括广轻新闻和信息技术学院的新闻。爬取的内容仅包括有效的标题、正文文本内容和新闻的 URL 地址,其他内容忽略。爬取的新闻内容将以递增数字为文件名,后缀为.txt 的形式保存到 gdqy 目录下,每条新闻保存到一个文件中。在保存的文件中,第一行为 URL 地址,第二行为标题(如果无标题则是空行),第三行及之后是此新闻的正文内容。
最后,您需要提交源代码和爬行运行效果截图。希望您可以认真完成此项实训,获得更多的编程经验和技能。
阅读全文