file.write()比较慢，如何优化？

文件操作的瓶颈通常在磁盘I/O上，因此优化文件写入的速度可以通过以下几个方法： 1. 批量写入：尽量减少写入文件的次数，可以将需要写入的数据先缓存到内存中，等到达一定量或者一定时间后再一次性写入文件。 2. 使用缓冲区：使用缓冲区可以减少磁盘I/O的次数，提高文件写入速度。Python中，可以使用`io.BufferedWriter`类或者`codecs.getwriter`方法来实现缓冲区写入。 3. 使用多线程/多进程：可以开启多个线程或进程，同时写入文件，提高写入速度。但是需要注意并发写入可能会导致文件内容混乱，需要进行同步控制。 4. 使用操作系统缓存：操作系统会对文件进行缓存，如果需要写入的数据较小，可以使用操作系统缓存来提高写入速度。可以使用`os.sync`方法来将缓存中的数据写入磁盘。总之，优化文件写入速度需要综合考虑数据量大小、磁盘I/O速度、系统资源等因素，选择合适的方法进行优化。

rm: remove write-protected regular file 'chirplan-gateway/.git/objects/pack/pack-22b2b2a4a4f560d9db77ee79c1d20a011681d617.idx'?

在Linux系统中，当尝试删除一个被保护的文件时，会提示是否删除该文件。错误提示"rm: remove write-protected regular file"表示要删除的文件受到保护，需要确认操作是否正确。如果确认要删除该文件，可以使用sudo命令来提升权限，例如： ``` sudo rm chirplan-gateway/.git/objects/pack/pack-22b2b2a4a4f560d9db77ee79c1d20a011681d617.idx ``` 该命令会使用sudo权限来执行rm命令，以删除该文件。需要注意的是，执行删除操作前需要确认文件是否可以被删除，以免误删重要文件。

import requests from bs4 import BeautifulSoup import openpyxl from time import sleep # 设置请求头，模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'} # 从天眼查获取公司邮箱和电话 def get_info(company): email = '' phone = '' url = 'https://www.tianyancha.com/search?key=' + company r = requests.get(url, headers=headers) soup = BeautifulSoup(r.text, 'html.parser') # try: # 获取公司详情页链接 company_url = soup.find_all('a', class_='index_alink__zcia5 link-click')[0].get('href') r = requests.get(company_url, headers=headers) soup = BeautifulSoup(r.text, 'html.parser') # 获取公司邮箱和电话 email = soup.find_all('span', class_='index_detail-email__B_1Tq')[0].text sleep(0.5) phone = soup.find('span',class_='index_detail-tel__fgpsE').text # except: # pass # return email,phone # 从Excel文件中读取公司名称 def read_from_excel(file_path): wb = openpyxl.load_workbook(file_path) ws = wb.active company_list = [] for row in ws.iter_rows(min_row=2, values_only=True): company_list.append(row[0]) return company_list # 将公司邮箱和电话写入Excel文件 def write_to_excel(company_list): wb = openpyxl.Workbook() ws = wb.active ws.title = 'Company Info' # 写入表头 ws.cell(row=1, column=1, value='Company Name') ws.cell(row=1, column=2, value='Email') ws.cell(row=1, column=3, value='Phone') # 写入数据 for i, company in enumerate(company_list): email,phone = get_info(company) ws.cell(row=i+2, column=1, value=company) ws.cell(row=i+2, column=2, value=email) ws.cell(row=i+2, column=3, value=phone) # 保存Excel文件 wb.save('company_info.xlsx') if name == 'main': file_path = 'company_names.xlsx' company_list = read_from_excel(file_path) write_to_excel(company_list)优化这段代码

这段代码可以进行以下优化： 1. 在函数 get_info 中，使用 try...except 捕获异常会使代码难以维护。可以使用 if...else 判断 soup.find_all() 和 soup.find() 是否返回了有效结果，如果无效则将 email 和 phone 赋值为空字符串。 2. 在函数 write_to_excel 中，每次调用 get_info() 都会发起一个 http 请求，这会导致程序运行速度变慢。可以先将所有公司的详情页链接获取到，再一次性请求，减少 http 请求的次数。下面是优化后的代码： ``` import requests from bs4 import BeautifulSoup import openpyxl from time import sleep # 设置请求头，模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36' } # 从天眼查获取公司邮箱和电话 def get_info(company, company_urls): email = '' phone = '' url = 'https://www.tianyancha.com/search?key=' + company r = requests.get(url, headers=headers) soup = BeautifulSoup(r.text, 'html.parser') # 获取公司详情页链接 company_url = soup.find_all('a', class_='index_alink__zcia5 link-click') if company_url: company_urls.append(company_url[0].get('href')) # 获取公司邮箱和电话 if company_urls: r = requests.get(company_urls[-1], headers=headers) soup = BeautifulSoup(r.text, 'html.parser') email = soup.find('span', class_='index_detail-email__B_1Tq') phone = soup.find('span', class_='index_detail-tel__fgpsE') if email: email = email.text if phone: phone = phone.text sleep(0.5) return email, phone # 从Excel文件中读取公司名称 def read_from_excel(file_path): wb = openpyxl.load_workbook(file_path) ws = wb.active company_list = [] for row in ws.iter_rows(min_row=2, values_only=True): company_list.append(row[0]) return company_list # 将公司邮箱和电话写入Excel文件 def write_to_excel(company_list): company_urls = [] for company in company_list: email, phone = get_info(company, company_urls) company_urls.pop() row_num = len(company_urls) + 2 ws.cell(row=row_num, column=1, value=company) ws.cell(row=row_num, column=2, value=email) ws.cell(row=row_num, column=3, value=phone) # 保存Excel文件 wb.save('company_info.xlsx') if __name__ == '__main__': file_path = 'company_names.xlsx' company_list = read_from_excel(file_path) wb = openpyxl.Workbook() ws = wb.active ws.title = 'Company Info' # 写入表头 ws.cell(row=1, column=1, value='Company Name') ws.cell(row=1, column=2, value='Email') ws.cell(row=1, column=3, value='Phone') write_to_excel(company_list) ```

file.write()比较慢，如何优化？

rm: remove write-protected regular file 'chirplan-gateway/.git/objects/pack/pack-22b2b2a4a4f560d9db77ee79c1d20a011681d617.idx'?

相关推荐

编译速度优化文件1

socket.io-file-client:Socket.io文件的客户端模块

mysql myisam 优化设置设置

请帮我用python写一个根据https://nomads.ncep.noaa.gov/cgi-bin/filter_gfs_0p25_1hr.pl?dir=%2Fgfs.20230609%2F00%2Fatmos&file=gfs.t00z.pgrb2.0p25.anl&var_UGRD=on&var_VGRD=on&lev_20_m_above_ground=on网址自动下载文件的方法

nginx 的sendfile 参数是什么意思

Python 格式化json性能优化

JAVA写入文件引起延时_java – FileOutputStream.close在写大文件时非常慢

如何避免while循环的滞后性？

win10 my.ini详细配置

python 压缩密码

java生成gpload的control配置文件，需要java语言实现，配置文件内容模型化

java把d:\\bbb.mp4复制到当前项目目录下的copy.mp4中 分别用FileInputStream和BufferedInputStream类中的两种read()方法，共四种方式复制并比较效率。

python压缩率高的库

查询oracle数据库里面的SQL语句，并做慢SQL的TOP5排序，并把TOP5的SQL作为附件邮件发给对应负责人

通过python给钉钉好友发送excel文件

最新推荐

SpringBoot Logback日志记录到数据库的实现方法

mysql_配置详细说明.docx

jsp+servlet实现文件下载

VMP技术解析：Handle块优化与壳模板初始化

管理建模和仿真的文件

【进阶】音频处理基础：使用Librosa

python中字典转换成json

C++ Primer 第四版更新：现代编程风格与标准库

"互动学习：行动中的多样性与论文攻读经历"

【基础】网络编程入门：使用HTTP协议

java把d:\\bbb.mp4复制到当前项目目录下的copy.mp4中分别用FileInputStream和BufferedInputStream类中的两种read()方法，共四种方式复制并比较效率。