首页用python怎么把豆瓣图书top250的excel中的相关信息栏字符串中作者和出版社单独列出

用python怎么把豆瓣图书top250的excel中的相关信息栏字符串中作者和出版社单独列出

时间: 2024-03-15 09:42:29 浏览: 47

Python爬取豆瓣top250电影数据，并导入MySQL，写入excel

5星 · 资源好评率100%

Python爬取豆瓣top250电影数据，并导入MySQL，写入excel 具体数据：电影链接、电影名称、电影评分、评分人数、电影概括 import pymysql import xlwt from bs4 import BeautifulSoup from urllib import request import re baseurl = 'https://movie.douban.com/top250?start='\nheaders = {\n 'User-Agent': 'XXXXX', 'Referer': 'https://movie.douban.com/top250?

可以使用Python中的pandas库读取Excel文件，并使用正则表达式分离作者和出版社信息。首先，需要安装pandas库： ``` pip install pandas ``` 然后，可以使用以下代码读取Excel文件并进行操作： ```python import pandas as pd import re # 读取Excel文件 df = pd.read_excel('douban_top250.xlsx') # 提取作者信息并添加为新列 df['作者'] = df['相关信息'].apply(lambda x: re.findall(r'作者: (.+?)\n', x)[0] if re.findall(r'作者: (.+?)\n', x) else '') # 提取出版社信息并添加为新列 df['出版社'] = df['相关信息'].apply(lambda x: re.findall(r'出版社: (.+?)\n', x)[0] if re.findall(r'出版社: (.+?)\n', x) else '') # 保存为新的Excel文件 df.to_excel('douban_top250_with_author_publisher.xlsx', index=False) ``` 在上面的代码中，`df['相关信息']`表示Excel文件中的相关信息列，`re.findall()`使用正则表达式查找字符串中的作者和出版社信息，`lambda x: ...`表示对每一行进行操作，并将结果添加为新的一列`df['作者']`和`df['出版社']`。最后，使用`df.to_excel()`保存为新的Excel文件，`index=False`表示不保存行索引。

阅读全文