东方财富网高效爬虫：获取全面信息

需积分: 10 77 浏览量更新于2024-09-08 收藏 2KB TXT 举报

本篇文档是关于使用Python进行东方财富网快速爬虫的一个实例。作者通过`urllib`和`re`等库来实现对指定股票列表页面的数据抓取。主要关注以下几个知识点： 1. **Python爬虫基础**：使用Python的`urllib.request`模块，如`Request`和`urlopen`方法，用于发送HTTP请求并获取网页内容。这展示了基本的网络请求处理和响应解析。 2. **正则表达式（Regular Expressions）**：文档中频繁使用`re`模块，如`re.compile()`和`re.findall()`，来解析HTML页面中的特定元素。例如，`pattern1`、`pattern2`、`pattern3`、`pattern4`和`pattern5`分别匹配股票评论时间、评论链接、作者、评论数量和阅读数量的HTML标签结构。 3. **数据结构和遍历**：通过`for`循环遍历股票列表（范围1到10），并将爬取的数据存储在`xlwt`库创建的工作簿中，用`add_sheet()`函数创建新的工作表，并使用索引来组织数据，如 `(j-1)*p+i` 作为行号，其中 `p` 是每页评论的数量。 4. **数据存储**：使用`xlwt`库将爬取的数据写入Excel文件，包括评论时间、评论链接、作者、评论数量和阅读数量。`cell_overwrite_ok=True` 表明允许覆盖已存在的单元格，以便在同一页上添加数据。 5. **异常处理**：`try-except`结构用于捕获可能出现的网络错误或解析错误，如`urllib.error.HTTPError`或`ValueError`，确保爬虫的稳定性和健壮性。这个爬虫实现了从东方财富网获取指定股票每日评论信息的功能，并将其整理成易于分析的Excel表格。通过这个例子，读者可以学习到如何利用Python的网络爬虫库、正则表达式和数据处理技术进行实际的数据抓取和整理。同时，它也展示了如何优雅地处理网页结构和数据存储问题，适用于有一定编程基础的初学者和想要自动化收集财经信息的用户。

import urllib
import urllib.request
import re
import xlwt

book = xlwt.Workbook(encoding='utf-8', style_compression=0)
sheet = book.add_sheet('data', cell_overwrite_ok=True)

for j in range(1, 10): #自己选择爬取的页数，此处选择10
print(j)

url = 'http://guba.eastmoney.com/list,000802_{0}.html'.format(j)
try:
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
pattern1 = re.compile('(.*?)', re.S)
time = re.findall(pattern1, content)#爬取股评的发表时间
pattern2 = re.compile('<a href.*?>(.*?)</a>', re.S)
comment = re.findall(pattern2, content)#爬取股评的内容
pattern3 = re.compile('<a href.*?><font.*?>(.*?)', re.S)
author = re.findall(pattern3, content)#爬取股评的发表作者
pattern4 = re.compile('(.*?)', re.S)
num_comment = re.findall(pattern4, content)#爬取股评的评论数
pattern5 = re.compile('(.*?)', re.S)
num_read = re.findall(pattern5, content)#爬取股评的阅读数

p = len(author)
for i in range(0, p):
comment_time = time[i]

下载后可阅读完整内容，剩余1页未读，立即下载

fzh_66

粉丝: 0
资源: 1

东方财富网高效爬虫：获取全面信息

spider.rar_FYH_spider_爬虫

spider.zip baidu.app

baike_spider.zip

最新资源