import requests from bs4 import BeautifulSoup def get_html(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} try: response = requests.get(url, headers=headers) response.raise_for_status() response.encoding = response.apparent_encoding return response.text except: return "" def parse_html(html): soup = BeautifulSoup(html, 'html.parser') book_list = soup.find_all('li', class_='subject-item') for book in book_list: title = book.find('div', class_='info').find('a')['title'] author_info = book.find('div', class_='pub').get_text().split('/') author = author_info[0].strip() publisher = author_info[-3].strip() print('书名:', title) print('作者:', author) print('出版社:', publisher) print('--------------------------') if __name__ == '__main__': for i in range(0,1000,20): url = 'https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start='+str(i)+'&type=T' html = get_html(url) parse_html(html)输出结果转为excle表格

时间: 2024-04-27 17:19:16 浏览: 161
好的,你可以使用pandas库将输出的结果转换成Excel表格。以下是修改后的代码: ```python import requests from bs4 import BeautifulSoup import pandas as pd def get_html(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } try: response = requests.get(url, headers=headers) response.raise_for_status() response.encoding = response.apparent_encoding return response.text except: return "" def parse_html(html): soup = BeautifulSoup(html, 'html.parser') book_list = soup.find_all('li', class_='subject-item') data = [] for book in book_list: title = book.find('div', class_='info').find('a')['title'] author_info = book.find('div', class_='pub').get_text().split('/') author = author_info[0].strip() publisher = author_info[-3].strip() data.append([title, author, publisher]) return data if __name__ == '__main__': data = [] for i in range(0, 1000, 20): url = 'https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=' + str(i) + '&type=T' html = get_html(url) data += parse_html(html) # 将数据转换成DataFrame,并输出到Excel表格 df = pd.DataFrame(data, columns=['书名', '作者', '出版社']) df.to_excel('history_books.xlsx', index=False) ``` 在这段代码中,我们在`parse_html`函数中将每本书的信息存储在一个列表中,然后在主函数中将所有列表合并成一个大列表。最后,使用pandas库将这个大列表转换成DataFrame,并输出到Excel表格中。输出的Excel表格文件名为`history_books.xlsx`,不包含行索引。
阅读全文

相关推荐

import requests from bs4 import BeautifulSoup import openpyxl class LianJiaSpider(): def __init__(self): self.url = 'https://bj.lianjia.com/ershoufang/pg{0}/' self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/109'} def send_request(self, url): resp = requests.get(url, headers=self.headers) if resp.status_code == 200: return resp def parse_html(self, resp): lst = [] html = resp.text bs = BeautifulSoup(html, 'lxml') ul = bs.find('ul', class_='sellListContent') li_list = ul.find_all('li') for item in li_list: title = item.find('div', class_='title').text positionInfo = item.find('div', class_='positionInfo').text address = item.find('div', class_='address').text followInfo = item.find('div', class_='followInfo').text tag = item.find('div', class_='tag').text totalPrice = item.find('div', class_='totalPrice totalPrice2').text unitPrice = item.find('div', class_='unitPrice').text # print(unitPrice) lst.append((title, positionInfo, address, followInfo, tag, totalPrice, unitPrice)) print(lst) self.save(lst) def save(self, lst): wb = openpyxl.Workbook() sheet = wb.active for row in lst: sheet.append(row) continue wb.save('D:/爬虫/链家.csv') def start(self): for i in range(1, 5): full_url = self.url.format(i) resp = self.send_request(full_url) #print(resp.text) self.parse_html(resp) if __name__ == '__main__': lianjia = LianJiaSpider() lianjia.start()使用以上代码爬取数据保存到文件中只显示最后一页30条数据,前面页码的数据都被覆盖了,如何更改

import requests from bs4 import BeautifulSoup import openpyxl from time import sleep # 设置请求头,模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'} # 从天眼查获取公司邮箱和电话 def get_info(company): email = '' phone = '' url = 'https://www.tianyancha.com/search?key=' + company r = requests.get(url, headers=headers) soup = BeautifulSoup(r.text, 'html.parser') # try: # 获取公司详情页链接 company_url = soup.find_all('a', class_='index_alink__zcia5 link-click')[0].get('href') r = requests.get(company_url, headers=headers) soup = BeautifulSoup(r.text, 'html.parser') # 获取公司邮箱和电话 email = soup.find_all('span', class_='index_detail-email__B_1Tq')[0].text sleep(0.5) phone = soup.find('span',class_='index_detail-tel__fgpsE').text # except: # pass # return email,phone # 从Excel文件中读取公司名称 def read_from_excel(file_path): wb = openpyxl.load_workbook(file_path) ws = wb.active company_list = [] for row in ws.iter_rows(min_row=2, values_only=True): company_list.append(row[0]) return company_list # 将公司邮箱和电话写入Excel文件 def write_to_excel(company_list): wb = openpyxl.Workbook() ws = wb.active ws.title = 'Company Info' # 写入表头 ws.cell(row=1, column=1, value='Company Name') ws.cell(row=1, column=2, value='Email') ws.cell(row=1, column=3, value='Phone') # 写入数据 for i, company in enumerate(company_list): email,phone = get_info(company) ws.cell(row=i+2, column=1, value=company) ws.cell(row=i+2, column=2, value=email) ws.cell(row=i+2, column=3, value=phone) # 保存Excel文件 wb.save('company_info.xlsx') if __name__ == '__main__': file_path = 'company_names.xlsx' company_list = read_from_excel(file_path) write_to_excel(company_list)优化这段代码

import requests from bs4 import BeautifulSoup import jieba.analyse import jieba.posseg as pseg from snownlp import SnowNLP import matplotlib.pyplot as plt # 设置请求头,模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 获取网页内容 def get_html(url): resp = requests.get(url, headers=headers) resp.encoding = resp.apparent_encoding html = resp.text return html # 获取新闻列表 def get_news_list(url): html = get_html(url) soup = BeautifulSoup(html, 'html.parser') news_list = soup.find_all('a', class_="news_title") return news_list # 对文本进行情感分析 def sentiment_analysis(text): s = SnowNLP(text) return s.sentiments # 对文本进行关键词提取 def keyword_extraction(text): keywords = jieba.analyse.extract_tags(text, topK=10, withWeight=True, allowPOS=('n', 'vn', 'v')) return keywords # 对新闻进行分析 def analyze_news(url): news_list = get_news_list(url) senti_scores = [] # 情感分数列表 keyword_dict = {} # 关键词词频字典 for news in news_list: title = news.get_text().strip() link = news['href'] content = get_html(link) soup = BeautifulSoup(content, 'html.parser') text = soup.find('div', class_='article').get_text().strip() # 计算情感分数 senti_score = sentiment_analysis(text) senti_scores.append(senti_score) # 提取关键词 keywords = keyword_extraction(text) for keyword in keywords: if keyword[0] in keyword_dict: keyword_dict[keyword[0]] += keyword[1] else: keyword_dict[keyword[0]] = keyword[1] # 绘制情感分数直方图 plt.hist(senti_scores, bins=10, color='skyblue') plt.xlabel('Sentiment Score') plt.ylabel('Number of News') plt.title('Sentiment Analysis') plt.show() # 输出关键词词频排名 keyword_list = sorted(keyword_dict.items(), key=lambda x: x[1], reverse=True) print('Top 10 keywords:') for i in range(10): print('{}. {} - {:.2f}'.format(i+1, keyword_list[i][0], keyword_list[i][1])) if __name__ == '__main__': url = 'https://news.sina.com.cn/' analyze_news(url)

请详细解释以下代码并给每行代码添加注释:#导入requests库 import requests #导入beautifulsoup库 from bs4 import BeautifulSoup import codecs #目标url URL = "https://movie.douban.com/top250" #请求头 HEADERS = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'} def download_page(url): data = requests.get(url, headers=HEADERS).content return data def parse_html(html): soup = BeautifulSoup(html, 'html.parser') # 测试时可以使用print soup.prettify()打印查看获得的页面 # 根据css获取页面信息 movie_list_ol = soup.find('ol', attrs={'class':'grid_view'}) movie_name_list = [] # 遍历页面中有关的信息 for movie_li in movie_list_ol.find_all('li'): # 电影描述 detail = movie_li.find('div', attrs={'class':'hd'}) # 电影名字 movie_name = detail.find('span', attrs={'class':'title'}).getText() movie_name_list.append(movie_name) # 找到下一页 next_page = soup.find('span', attrs={'class':'next'}).find('a') if next_page: # 拼接下一页的url,继续爬取下一页 return movie_name_list, URL + next_page['href'] return movie_name_list, None def main(): url = URL with codecs.open('movies.txt', 'w', encoding='utf-8') as fp: movies_all = [] while url: html = download_page(url) movies, url = parse_html(html) movies_all.extend(movies) for index, movie in enumerate(movies_all): index += 1 # 将获得的信息写入文件 fp.write('{index}.{movie}\n'.format(index=index, movie=movie)) if __name__ == '__main__': main() print('爬取成功')

import requests import time from bs4 import BeautifulSoup header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/25', 'Host':'zhuti.xiaomi.com', 'Referer':'http://zhuti.xiaomi.com/lockstyle?page=2&sort=New', 'Cookie':'uiversion=5; __utmz=219621008.1672838090.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmc=219621008; JSESSIONID=aaapDywvYNfz79fBMiKRx; __utma=219621008.621547792.1672838090.1672886725.1672916631.3; route=ea4585473b17eff20a466a6aa9314dcc; __utmb=219621008.4.10.1672916631', 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' } headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/25', 'sec-fetch-dest': 'document', 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' } def down1(): for i in range(1,5): url="http://zhuti.xiaomi.com/lockstyle?page="+str(i)+"&sort=New" down2(url) def down2(neirong): r=requests.get(neirong,headers=header) r.encoding="utf-8" print(r.status_code) demo=r.text print(demo) down3(demo) def down3(biaoqian): soup=BeautifulSoup(biaoqian,"html.parser") tags=soup.find_all("img") print(len(tags)) print(tags) for tag in tags: image=tag["data-src"] print(image) down4(image) def down4(shuchu): filename="image/"+str(int(time.time()*1000))+".jpg" r=requests.get(shuchu,headers=headers) f=open(filename,"wb") f.write(r.content) f.close() if __name__=="__main__": down1()

最新推荐

recommend-type

基于OpenCV的人脸识别小程序.zip

【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。
recommend-type

精选毕设项目-宅男社区.zip

精选毕设项目-宅男社区
recommend-type

精选毕设项目-扫描条形码.zip

精选毕设项目-扫描条形码
recommend-type

配网两阶段鲁棒优化调度模型 关键词:两阶段鲁棒优化,CCG算法,储能 仿真算例采用33节点,采用matlab+yalmip+cplex编写,两阶段模型采用CCG算法求解 模型中一阶段变量主要包括01

配网两阶段鲁棒优化调度模型 关键词:两阶段鲁棒优化,CCG算法,储能 仿真算例采用33节点,采用matlab+yalmip+cplex编写,两阶段模型采用CCG算法求解。 模型中一阶段变量主要包括01变量和无功优化变量,核心变量主要存在于二阶段,因此在叠加二阶段变量优化过程中更容易得到最优解,所以有限次迭代即得到收敛的结果。 模型以网损为目标,包括功率平衡、网络潮流、电压电流、蓄电池出力以及无功设备出力等约束。 复现《两阶段鲁棒优化的主动配电网动态无功优化》-熊壮壮,具体内容可自行下载了解。
recommend-type

免安装JDK 1.8.0_241:即刻配置环境运行

资源摘要信息:"JDK 1.8.0_241 是Java开发工具包(Java Development Kit)的版本号,代表了Java软件开发环境的一个特定发布。它由甲骨文公司(Oracle Corporation)维护,是Java SE(Java Platform, Standard Edition)的一部分,主要用于开发和部署桌面、服务器以及嵌入式环境中的Java应用程序。本版本是JDK 1.8的更新版本,其中的241代表在该版本系列中的具体更新编号。此版本附带了Java源码,方便开发者查看和学习Java内部实现机制。由于是免安装版本,因此不需要复杂的安装过程,解压缩即可使用。用户配置好环境变量之后,即可以开始运行和开发Java程序。" 知识点详细说明: 1. JDK(Java Development Kit):JDK是进行Java编程和开发时所必需的一组工具集合。它包含了Java运行时环境(JRE)、编译器(javac)、调试器以及其他工具,如Java文档生成器(javadoc)和打包工具(jar)。JDK允许开发者创建Java应用程序、小程序以及可以部署在任何平台上的Java组件。 2. Java SE(Java Platform, Standard Edition):Java SE是Java平台的标准版本,它定义了Java编程语言的核心功能和库。Java SE是构建Java EE(企业版)和Java ME(微型版)的基础。Java SE提供了多种Java类库和API,包括集合框架、Java虚拟机(JVM)、网络编程、多线程、IO、数据库连接(JDBC)等。 3. 免安装版:通常情况下,JDK需要进行安装才能使用。但免安装版JDK仅需要解压缩到磁盘上的某个目录,不需要进行安装程序中的任何步骤。用户只需要配置好环境变量(主要是PATH、JAVA_HOME等),就可以直接使用命令行工具来运行Java程序或编译代码。 4. 源码:在软件开发领域,源码指的是程序的原始代码,它是由程序员编写的可读文本,通常是高级编程语言如Java、C++等的代码。本压缩包附带的源码允许开发者阅读和研究Java类库是如何实现的,有助于深入理解Java语言的内部工作原理。源码对于学习、调试和扩展Java平台是非常有价值的资源。 5. 环境变量配置:环境变量是操作系统中用于控制程序执行环境的参数。在JDK中,常见的环境变量包括JAVA_HOME和PATH。JAVA_HOME是JDK安装目录的路径,配置此变量可以让操作系统识别到JDK的位置。PATH变量则用于指定系统命令查找的路径,将JDK的bin目录添加到PATH后,就可以在命令行中的任何目录下执行JDK中的命令,如javac和java。 在实际开发中,了解并正确配置JDK对于Java开发者来说是一个基础且重要的环节。掌握如何安装和配置JDK,以及如何理解JDK中的源码和各种工具,对于进行Java编程和解决问题至关重要。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

【提升效率与稳定性】:深入掌握单相整流器的控制策略

# 摘要 单相整流器作为电力电子技术的基础设备,广泛应用于电力系统和工业自动化领域。本文首先概述了单相整流器的基本概念,详细分析了其工作原理,包括电力电子器件的角色、数学模型以及控制策略。随后,针对控制技术进行了深入探讨,包括传统控制技术如PID控制和高级控制策略如模糊逻辑控制及自适应控制的应用。进一步地,本文提出了一系列提升单相整流器性能的方法,如效率提升策略、系统稳定性措施,以及性能评估与优化方案。最后,文章探讨了单相整流器在不同领域的应用案例,并对新兴技术与市场趋势进行了展望。 # 关键字 单相整流器;电力电子器件;数学模型;控制策略;性能提升;应用案例 参考资源链接:[单相PWM整
recommend-type

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

在ASP.NET中,.ashx文件(也称为HTTP处理程序)用于处理HTTP请求并返回响应。即使在初始代码中没有对action参数进行任何操作,系统仍然可以通过默认的ProcessRequest方法处理请求并返回数据。 当你在URL中传递参数(如?action=submit)时,这些参数会被包含在请求的查询字符串中。虽然你的代码没有显式地处理这些参数,但默认的ProcessRequest方法会接收这些参数并执行一些默认操作。 以下是一个简单的.ashx文件示例: ```csharp <%@ WebHandler Language="C#" Class="MyHandler" %> us
recommend-type

机器学习预测葡萄酒评分:二值化品尝笔记的应用

资源摘要信息:"wine_reviewer:使用机器学习基于二值化的品尝笔记来预测葡萄酒评论分数" 在当今这个信息爆炸的时代,机器学习技术已经被广泛地应用于各个领域,其中包括食品和饮料行业的质量评估。在本案例中,将探讨一个名为wine_reviewer的项目,该项目的目标是利用机器学习模型,基于二值化的品尝笔记数据来预测葡萄酒评论的分数。这个项目不仅对于葡萄酒爱好者具有极大的吸引力,同时也为数据分析和机器学习的研究人员提供了实践案例。 首先,要理解的关键词是“机器学习”。机器学习是人工智能的一个分支,它让计算机系统能够通过经验自动地改进性能,而无需人类进行明确的编程。在葡萄酒评分预测的场景中,机器学习算法将从大量的葡萄酒品尝笔记数据中学习,发现笔记与葡萄酒最终评分之间的相关性,并利用这种相关性对新的品尝笔记进行评分预测。 接下来是“二值化”处理。在机器学习中,数据预处理是一个重要的步骤,它直接影响模型的性能。二值化是指将数值型数据转换为二进制形式(0和1)的过程,这通常用于简化模型的计算复杂度,或者是数据分类问题中的一种技术。在葡萄酒品尝笔记的上下文中,二值化可能涉及将每种口感、香气和外观等属性的存在与否标记为1(存在)或0(不存在)。这种方法有利于将文本数据转换为机器学习模型可以处理的格式。 葡萄酒评论分数是葡萄酒评估的量化指标,通常由品酒师根据酒的品质、口感、香气、外观等进行评分。在这个项目中,葡萄酒的品尝笔记将被用作特征,而品酒师给出的分数则是目标变量,模型的任务是找出两者之间的关系,并对新的品尝笔记进行分数预测。 在机器学习中,通常会使用多种算法来构建预测模型,如线性回归、决策树、随机森林、梯度提升机等。在wine_reviewer项目中,可能会尝试多种算法,并通过交叉验证等技术来评估模型的性能,最终选择最适合这个任务的模型。 对于这个项目来说,数据集的质量和特征工程将直接影响模型的准确性和可靠性。在准备数据时,可能需要进行数据清洗、缺失值处理、文本规范化、特征选择等步骤。数据集中的标签(目标变量)即为葡萄酒的评分,而特征则来自于品酒师的品尝笔记。 项目还提到了“kaggle”和“R”,这两个都是数据分析和机器学习领域中常见的元素。Kaggle是一个全球性的数据科学竞赛平台,提供各种机器学习挑战和数据集,吸引了来自全球的数据科学家和机器学习专家。通过参与Kaggle竞赛,可以提升个人技能,并有机会接触到最新的机器学习技术和数据处理方法。R是一种用于统计计算和图形的编程语言和软件环境,它在统计分析、数据挖掘、机器学习等领域有广泛的应用。使用R语言可以帮助研究人员进行数据处理、统计分析和模型建立。 至于“压缩包子文件的文件名称列表”,这里可能存在误解或打字错误。通常,这类名称应该表示存储项目相关文件的压缩包,例如“wine_reviewer-master.zip”。这个压缩包可能包含了项目的源代码、数据集、文档和其它相关资源。在开始项目前,研究人员需要解压这个文件包,并且仔细阅读项目文档,以便了解项目的具体要求和数据格式。 总之,wine_reviewer项目是一个结合了机器学习、数据处理和葡萄酒品鉴的有趣尝试,它不仅展示了机器学习在实际生活中的应用潜力,也为研究者提供了丰富的学习资源和实践机会。通过这种跨领域的合作,可以为葡萄酒行业带来更客观、一致的评价标准,并帮助消费者做出更加明智的选择。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依