首页jupyter开发环境中爬取奥林匹克奖牌数据分析全部代码

jupyter开发环境中爬取奥林匹克奖牌数据分析全部代码

时间: 2024-10-01 22:07:56 浏览: 47

在Jupyter Notebook环境下分析奥林匹克奖牌数据通常涉及几个步骤，包括数据获取、数据清洗、数据分析以及可视化。这里是一个简化的Python爬虫示例，用于从网站抓取数据并基本处理，假设我们要从"olympics.org"获取前几届奥运会的奖牌榜信息。请注意，实际操作时需要遵守网站的robots.txt文件规定，并尊重数据隐私。 ```python # 导入必要的库 import requests from bs4 import BeautifulSoup import pandas as pd # 定义要抓取的数据URL url = "https://www.olympic.org/mens-medal-table" # 发送GET请求 response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 找到奖牌榜表格 table = soup.find('table', {'class': 'medalTable'}) # 提取数据（假设表头是固定的） headers = [th.text for th in table.find_all('th', {'scope': 'col'})] data = [] # 遍历行并提取数据 rows = table.find_all('tr') for row in rows[1:]: # 跳过表头 cols = row.find_all('td') cols_data = [col.text.strip() for col in cols] data.append(cols_data) # 将数据转换成DataFrame medals_df = pd.DataFrame(data, columns=headers) # 可能还需进行数据清洗和进一步处理 # ... # 查看数据前几行 print(medals_df.head()) else: print(f"请求失败，状态码：{response.status_code}") #

阅读全文