if __name__ == '__main__': # 读取数据 df = pd.read_excel('data_guba_cjwl (2).xlsx',names=['阅读量','发帖时间', '评论数', '帖子标题', '帖子链接']).astype(str) # 计算信息量指标得分 df['时间得分'] = df['发帖时间'].apply(calc_time_score) df['阅读量得分'] = df['阅读量'].apply(calc_read_score) df['评论数得分'] = df['评论数'].apply(calc_comment_score) df['标题得分'] = df['帖子标题'].apply(calc_title_score) # 计算信息量指标总得分 df['信息量指标得分'] = df['时间得分'] * df['阅读量得分'] * df['评论数得分'] * df['标题得分'] # 输出结果 print(df)这段代码出现下面报错要怎么修改？ File "D:\kelly\PycharmProjects\pythonProject6\网络预测.py", line 74, in <module> df['阅读量得分'] = df['阅读量'].apply(calc_read_score) File "D:\python3.10\lib\site-packages\pandas\core\series.py", line 4771, in apply return SeriesApply(self, func, convert_dtype, args, kwargs).apply() File "D:\python3.10\lib\site-packages\pandas\core\apply.py", line 1123, in apply return self.apply_standard() File "D:\python3.10\lib\site-packages\pandas\core\apply.py", line 1174, in apply_standard mapped = lib.map_infer( File "pandas\_libs\lib.pyx", line 2924, in pandas._libs.lib.map_infer File "D:\kelly\PycharmProjects\pythonProject6\网络预测.py", line 25, in calc_read_score if read_num <= 1000: TypeError: '<=' not supported between instances of 'str' and 'int'

try: #有些div里面获取获取的内容是空的，这种就不要深度爬取了 if href != ‘’: if href.split('.')[-1] == 'html’: # 爬取到的href分为两种类型，分别进行时间提取 href = 'http://guba.eastmoney.com/o' + href response_deep = requests.get(url=href, headers=headers).text # 该请求获取的源代码与element不同，所以用正则提取时间 date_1 = re.findall(r'(.?)', response_deep, re.S) # 将提取出来的时间进行清洗 date_2 = ‘’.join(date_1) date_3 = re.findall(r'发表于(.?)\r', date_2) date = ''.join(date_3).strip().split(' ')[0]

在获取到每个帖子的链接之后，如果链接不为空，则进行深度爬取，即进入链接内部获取更多的信息。...然后用requests发送请求，获取返回的源代码。因为该请求获取的源代码与之前的element不同，所以使用正则表达式提取...

headers = { ‘user-agent’: ‘Mozilla…’} # 爬第1页导2660页的数据 for i in range(1, 2660): # 从图中可以看到翻页只需要在页数那个位置改成i就好了 url = ‘http://guba.eastmoney.com/o/list,603019_{}.html’.format(i) # 发送请求 response = requests.get(url=url, headers=headers) # 状态码等于200说明得到源代码了 if response.status_code == 200: tree = etree.HTML(response.text) # 用xpath进行数据解析 # 先把有信息的整块提出来，在获取所有的div div_list = tree.xpath(‘//*[@id=“articlelistnew”]/div’)

这段代码是用 Python 语言编写的，主要是爬取东方财富网股吧中股票“603019”（中科曙光）的帖子列表数据。通过循环从第1页到第2660页，每次构造对应页数的 URL，并发送请求获取响应数据。如果状态码为200，则使用...

在东方股吧下载“长久物流吧”(https://guba.eastmoney.com/list,603569.html)所有发帖数据,提取出帖子作者,发帖时间,阅读量,评论数,帖子标题,帖子链接,并将结果输出至文本文件“data_guba_cjwl.txt”，数据为2011-01-01至今。利用python构建股吧信息量指标（根据发帖时间、阅读量、评论数、帖子标题自行设计指标），将该指标作为预测因子，检验其对长久物流的超额收益率是否具有可预测性。

df.to_csv('data_guba_cjwl.txt', index=False, sep='\t') # 计算信息量指标 df['time_diff'] = df['time'].diff().fillna(0) df['time_diff'] = df['time_diff'].apply(lambda x: x.seconds) df['read_index'] = ...

在爬取https://guba.eastmoney.com/list,300059.html?from=BaiduAladdin时出现如下错误：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 248: invalid continuation byte 写出解决方法

这个错误通常是由于爬取的网页编码不是UTF-8而导致的。可以尝试以下方法解决： 1. 使用requests库的content属性获取网页内容时，使用response.encoding = 'gbk'指定编码为gbk，即response.content.decode('gbk')。...

TypeError: cannot pickle 'lxml.etree._Element' object

url = 'http://guba.eastmoney.com/' # 发起请求 response = requests.get(url) # 解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 获取股吧内容 content = soup.find('div', class_='content') # ...

打开http://guba.eastmoney.com/list,000506.html，获取帖子的阅读数、评论数、标题、作者、时间并输出。

read_num = soup.find('span', class_='l1').text comment_num = soup.find('span', class_='l2').text print('标题：', title) print('作者：', author) print('时间：', time) print('阅读数：', read_num) print...

soup = BeautifulSoup(response.text, 'lxml') content = soup.find('div', class_='content') print(content.text) Traceback (most recent call last): Input In [31] in <cell line: 1> print(content.text) AttributeError: 'NoneType' object has no attribute 'text'

if content is not None: # 输出结果 print(content.text) else: print("未找到股吧内容") 这样，如果没有找到符合条件的元素，就会输出"未找到股吧内容"，而不会出现AttributeError错误。你可以根据实际...

python爬取股吧数据

可以使用Python的requests库和BeautifulSoup库来爬取股吧数据。下面是一个简单的示例代码： python import requests from bs4 import BeautifulSoup # 股吧URL url = 'http://guba.eastmoney.com/' # 发起请求...

编写一段python程序，要求写一个爬虫，爬取“东方财富网”的“股吧”板块数据，每个帖子是一个样本，要求准确提取帖子的标题、作者、发表时间和正文部分，数据量（帖子数量）不能少于500个，覆盖股票的数量不能少于10个，越多越好。

这是一段简单的Python爬虫程序：#爬取东方财富网“股吧”板块数据 import requests import re#定义要爬取的url url = 'http://guba.eastmoney.com/list,xxxxx.html'#发送请求，获取响应 response = requests.get(url...

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

用于托管 Discord Overlay 的 DirectX 11 窗口Discord 覆盖一个 DirectX 11 窗口，用于托管 Discord 的 Overlay，以便使用 OBS 捕获和显示它。基于Discord Overlay Host的想法，我制作了一个更新版本，因为它已经 5 年没有更新了，积累了很多问题。兼容性您只需要具有支持 DirectX 11 的 GPU 即可运行该程序。设置运行.exe在 Discord 中，转到用户设置 ► 游戏活动 ► 添加它 ► 选择“Discord Overlay”。同样在 Discord 中，用户设置 ► Overlay ► 选中“在游戏中启用覆盖”。在 OBS 内添加捕获窗口源并选择 Discord Overlay。向 Discord Overlay 源添加色度键滤镜，将 HTML 颜色设置为 2e3136、相似度设置为 1、准确度设置为 1、不透明度设置为 74、对比度设置为 0.39，其余值设置为默认值。为什么不使用 Discord Streamkit？Streamkit 背后的人显然从未真正使

【路径规划】吉萨金子塔建造算法栅格地图机器人路径规划【含Matlab仿真 2835期】.zip

CSDN Matlab武动乾坤上传的资料均有对应的仿真结果图，仿真结果图均是完整代码运行得出，完整代码亲测可用，适合小白； 1、完整的代码压缩包内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主或扫描博客文章底部QQ名片； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

【任务分配】蒙特卡洛算法无人机任务分配【含Matlab仿真 3016期】.zip

CSDN Matlab武动乾坤上传的资料均有对应的仿真结果图，仿真结果图均是完整代码运行得出，完整代码亲测可用，适合小白； 1、完整的代码压缩包内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主或扫描博客文章底部QQ名片； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

相关推荐

东方财富的java笔试题-STOCK_PRICE_FINBERT:对于中文评论，使用Finbert模型进行极性分析并预测股价上涨

guba-news-601318-pages1-30.csv

2008-2022中国上市公司股吧评论数据（Stocks Comments of Chinese Listed Companie

案例研究：描述，思考和机会-研究论文

Python爬虫工具：Guba_Xueqiu_Crawler的帖子抓取

大规模网站性能优化：LiveJournal的后台演进

掌握文献综述技巧：定性研究案例解析与写作策略

在爬取https://guba.eastmoney.com/list,300059.html?from=BaiduAladdin时出现如下错误：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 248: invalid continuation byte 写出解决方法

TypeError: cannot pickle 'lxml.etree._Element' object

打开http://guba.eastmoney.com/list,000506.html，获取帖子的阅读数、评论数、标题、作者、时间并输出。

soup = BeautifulSoup(response.text, 'lxml') content = soup.find('div', class_='content') print(content.text) Traceback (most recent call last): Input In [31] in <cell line: 1> print(content.text) AttributeError: 'NoneType' object has no attribute 'text'

python爬取股吧数据

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

【路径规划】吉萨金子塔建造算法栅格地图机器人路径规划【含Matlab仿真 2835期】.zip

【任务分配】蒙特卡洛算法无人机任务分配【含Matlab仿真 3016期】.zip

最新推荐

用于托管 Discord Overlay 的 DirectX 11 窗口.zip

MATLAB新功能：Multi-frame ViewRGB制作彩色图阴影

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

在Flow-3D中如何根据水利工程的特定需求设定边界条件和进行网格划分，以便准确模拟水流问题？

XKCD Substitutions 3-crx插件：创新的网页文字替换工具

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

在Flow-3D中，如何根据水利工程的特定需求设定边界条件和进行网格划分，以便准确模拟水流问题？

Python实现8位等离子效果开源项目plasma.py解读