import requests import re url = 'https://jn.lianjia.com/zufang/pg1/#contentList' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299' } # 获取总页数 response = requests.get(url, headers=headers) html = response.text total_page = re.search(r'data-totalpage="(\d+)"', html).group(1) print(total_page)将total_page变成int型

时间: 2024-04-01 10:35:05 浏览: 52

TAIEX数据：可从https://www.twse.com.tw获取Json原始数据

在IT行业中，数据分析是至关重要的，特别是在金融领域。台湾加权指数（TAIEX）作为全球重要的股市指标之一，其数据对于投资者、分析师以及研究人员来说具有极高的价值。本篇文章将详细探讨如何利用Python从台湾证券交易所（TWSE）的官方网站获取TAIEX的Json原始数据，并对其进行解析和分析。我们需要了解JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。在Python中，我们可以使用内置的`json`模块来处理JSON数据。要从"https://www.twse.com.tw"获取数据，首先你需要了解该网站提供的API接口。TWSE提供了JSON API服务，允许用户以编程方式获取股票市场数据。通常，这需要了解API的URL、请求方法（如GET或POST）、可能需要的参数（如日期范围）等信息。以下是一个基本步骤来获取TAIEX数据： 1. **设置API URL**：根据TWSE的API文档，确定用于获取TAIEX数据的URL。可能需要通过查询网站的开发者工具或查看官方文档来获取。 2. **发送HTTP请求**：使用Python的`requests`库向URL发送GET请求。如果你需要提供特定参数，例如日期范围，可以将它们作为URL参数添加。 ```python import requests url = "https://www.twse.com.tw/exchangeReport/STOCK_DAY?response=json&date=YYYYMMDD&stockNo=0050" response = requests.get(url) ``` 注意替换`YYYYMMDD`为所需日期，`0050`为TAIEX的股票代码。 3. **处理响应**：一旦收到HTTP响应，检查其状态码（如200表示成功）。然后，使用`json`模块加载JSON响应数据。 ```python if response.status_code == 200: data = response.json() ``` 4. **解析JSON数据**：解析JSON数据后，你可以遍历并提取所需的字段。例如，如果数据包含每日开盘价、收盘价、最高价和最低价，你可以这样操作： ```python for item in data['data']: open_price = item['open'] close_price = item['close'] high_price = item['high'] low_price = item['low'] # 进行进一步的数据处理或分析 ``` 5. **存储和分析数据**：你可能希望将数据保存到文件中（如CSV或数据库），以便后续分析。Python的`pandas`库非常适用于此类任务，它提供了方便的数据操作和分析功能。 ```python import pandas as pd df = pd.DataFrame(data['data'], columns=['open', 'close', 'high', 'low', ...]) df.to_csv('TAIEX_data.csv', index=False) ``` 以上就是使用Python从TWSE获取TAIEX JSON数据的基本流程。实际应用中，你可能需要处理更多细节，如错误处理、数据清洗、时间序列分析等。了解并熟练掌握这些技能将有助于你更好地进行金融数据的挖掘和分析。在处理过程中，确保遵循TWSE的使用条款和政策，尊重数据隐私和版权。

你可以使用 `int()` 函数将字符串类型的 `total_page` 转换成整数类型。以下是修改后的示例代码： ```python import requests import re url = 'https://jn.lianjia.com/zufang/pg1/#contentList' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299' } # 获取总页数 response = requests.get(url, headers=headers) html = response.text total_page = int(re.search(r'data-totalpage="(\d+)"', html).group(1)) print(total_page) ``` 这个示例代码可以获取济南市链家网租房信息的总页数，并将其转换成整数类型。你可以根据自己的需要修改代码，提取其他信息。

阅读全文

相关推荐

http://python-requests.org/库的透明持久缓存-Python开发

python requests.get带header

获取总页数 url1 = https://jn.lianjia.com/zufang/pg1/#contentList response = requests.get(url1, headers=header) html = response.text match = re.search(r data-totalpage=(\d+) , html) if match: total_p

Traceback (most recent call last): File "F:\pythonProject\main.py", line 19, in <module> total_page = int(re.search(r'data-totalpage="(\d+)"', html).group(1)) AttributeError: 'NoneType' object has no attribute 'group'解决方法

白色大气风格的商务团队公司模板下载.zip

vb+access学生学籍管理系统(系统+论文+摘要与目录+实习报告)(2024p5).7z

VB+access药品供销存贮系统(系统+封面+开题报告+论文+任务书+答辩PPT+外文文献+中文翻译)(2024d0).7z

白色大气风格的手机电脑商城模板下载.zip

SecureCRT-9.6.0-mac

Litermal 说明书

白色大气风格的婚礼布置现场企业网站模板下载.zip

基于PLC和组态软件的智能停车场收费系统停车场电气控制

白色大气风格响应式项目团队动态企业网站模板.zip

“教育的智慧”读书分享会教案课件模板.pptx

白色大气风格的色彩管理网站模板下载.zip

计算机网络期末复习（第八版）谢希仁

白色大气的服装鞋包商城整站网站模板下载.zip

最新推荐

白色大气风格的商务团队公司模板下载.zip

vb+access学生学籍管理系统(系统+论文+摘要与目录+实习报告)(2024p5).7z

VB+access药品供销存贮系统(系统+封面+开题报告+论文+任务书+答辩PPT+外文文献+中文翻译)(2024d0).7z

白色大气风格的手机电脑商城模板下载.zip

SecureCRT-9.6.0-mac

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践