用python怎么把豆瓣图书top250的excel中的相关信息栏字符串中作者和出版社单独列出
时间: 2024-03-15 09:42:29 浏览: 47
Python爬取豆瓣top250电影数据,并导入MySQL,写入excel
5星 · 资源好评率100%
可以使用Python中的pandas库读取Excel文件,并使用正则表达式分离作者和出版社信息。
首先,需要安装pandas库:
```
pip install pandas
```
然后,可以使用以下代码读取Excel文件并进行操作:
```python
import pandas as pd
import re
# 读取Excel文件
df = pd.read_excel('douban_top250.xlsx')
# 提取作者信息并添加为新列
df['作者'] = df['相关信息'].apply(lambda x: re.findall(r'作者: (.+?)\n', x)[0] if re.findall(r'作者: (.+?)\n', x) else '')
# 提取出版社信息并添加为新列
df['出版社'] = df['相关信息'].apply(lambda x: re.findall(r'出版社: (.+?)\n', x)[0] if re.findall(r'出版社: (.+?)\n', x) else '')
# 保存为新的Excel文件
df.to_excel('douban_top250_with_author_publisher.xlsx', index=False)
```
在上面的代码中,`df['相关信息']`表示Excel文件中的相关信息列,`re.findall()`使用正则表达式查找字符串中的作者和出版社信息,`lambda x: ...`表示对每一行进行操作,并将结果添加为新的一列`df['作者']`和`df['出版社']`。最后,使用`df.to_excel()`保存为新的Excel文件,`index=False`表示不保存行索引。
阅读全文