怎么把从豆瓣读书网中爬取的评论人数中的人评价删除掉转换为int类型
时间: 2024-02-13 11:05:08 浏览: 16
您可以使用Python中的字符串处理和类型转换函数来实现这个过程。具体地说,您可以使用`strip()`函数删除评论人数中的人评价,并使用`int()`函数将结果转换为整数类型。
以下是一个可能的代码示例:
```python
# 假设您已经从MongoDB中获取了评论人数的字符串列表
ratings = ['1,234人评价', '567人评价', '8人评价']
# 循环遍历每个评价字符串,删除人评价并转换为整数类型
for r in ratings:
num = int(r.strip('人评价').replace(',', ''))
print(num)
```
这个代码示例将遍历字符串列表中的每个评价,使用`strip()`函数删除其中的人评价,再使用`replace()`函数将千位分隔符去除。最后,使用`int()`函数将结果转换为整数类型,并将其打印出来。
您可以根据实际情况修改这个示例代码,以适应您的数据格式和处理需求。
相关问题
用python爬取豆瓣读书网中评论人数存储到mongodb中的数据怎么转换为int类型
您可以使用Python中的字符串处理和类型转换函数来实现这个过程。具体来说,您可以使用Python中的`pymongo`库来连接MongoDB数据库,然后使用`find()`函数获取评论数据,遍历每个文档并使用`int()`函数将评论人数转换为整数类型,最后使用`update_one()`函数将数据更新到MongoDB中。
以下是一个可能的代码示例:
```python
import pymongo
# 连接MongoDB数据库
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["mydatabase"]
collection = db["book_ratings"]
# 获取评论数据
comments = collection.find()
# 遍历每个评论文档,并将评论人数转换为整数类型
for comment in comments:
rating_count = comment["rating_count"]
rating_count = int(rating_count.strip("人评价").replace(",", ""))
# 将更新后的评论人数更新到MongoDB中
collection.update_one({"_id": comment["_id"]}, {"$set": {"rating_count": rating_count}})
```
这个代码示例将连接到MongoDB数据库,获取名为`book_ratings`的集合中的所有评论文档,然后使用`strip()`函数删除评论人数中的“人评价”字符,并使用`replace()`函数将千位分隔符去除。最后,使用`int()`函数将评论人数转换为整数类型,并使用`update_one()`函数将更新后的数据更新到MongoDB中。
请根据您的数据格式和处理需求修改这个示例代码。
从python爬取豆瓣读书网中的评论人数和评分怎么进行数据处理
要从豆瓣读书网中爬取评论人数和评分数据,可以使用Python的爬虫库Scrapy或BeautifulSoup来获取数据。你需要分析网站的HTML结构,找到评论人数和评分所在的标签和属性。然后可以将获取到的数据存储到本地文件或数据库中。
一旦你完成了数据的爬取,你可以使用Python的pandas库来进行数据处理和分析。你可以将数据读取到pandas的DataFrame中,然后对数据进行清洗、筛选、统计和可视化等操作。以下是一个简单的示例代码,演示如何从CSV文件中读取数据并计算出评论人数和评分的平均值:
```python
import pandas as pd
# 读取CSV文件中的数据到DataFrame中
df = pd.read_csv('books.csv')
# 计算评论人数和评分的平均值
avg_ratings = df['rating'].mean()
avg_reviews = df['reviews'].mean()
# 打印结果
print('平均评分:{:.2f}'.format(avg_ratings))
print('平均评论人数:{:.2f}'.format(avg_reviews))
```
请注意,这只是一个简单的示例代码,实际上你可能需要进行更复杂的数据处理和分析,具体取决于你的需求和数据结构。