帮我写一段爬取指定网站内容并把内容按照指定编码保存到txt文档并设置指定网页内容为文档名的python程序
时间: 2023-09-09 13:04:25 浏览: 162
Python 如何实现定时爬取网页内容 Python源码
### 回答1:
可以这样写python程序:import urllib.request
import osdef getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return htmldef getFileName(url):
fileName = url.split('/')[-1]
return fileNameurl = 'http://www.example.com/'
html = getHtml(url)
fileName = getFileName(url)with open(fileName, 'wb') as f: #以二进制格式写入
f.write(html)
f.close()#设置指定编码
os.system('iconv -f gb2312 -t utf-8 '+fileName+' -o new_'+fileName+'')
### 回答2:
以下是一个简单的Python程序,可以帮助你爬取指定网站内容,并将内容按照指定编码保存到文本文档中,同时使用指定网页内容作为文档名:
```python
import requests
def crawl_and_save_content(url, encoding):
# 发送GET请求获取网页内容
response = requests.get(url)
# 按照指定编码解码网页内容
decoded_content = response.content.decode(encoding)
# 提取文档名
doc_name = url.split("/")[-1].split(".")[0] + ".txt"
# 将解码后的内容保存到文本文件中
with open(doc_name, "w", encoding=encoding) as f:
f.write(decoded_content)
print("爬取并保存成功!")
# 调用函数进行爬取和保存
crawl_and_save_content("https://www.example.com", "utf-8")
```
请确保你已经安装了Python的requests库,你可以使用`pip install requests`进行安装。
在上述示例中,我们首先使用requests库发送GET请求来获取页面的内容。然后,使用给定的编码来解码内容。接下来,我们从URL中提取文档名,并将解码后的内容保存到以文档名为文件名的文本文件中。最后,打印出成功保存的消息。
请确保将`https://www.example.com`替换为你要爬取内容的网站URL,并将`utf-8`替换为你要使用的编码格式。
### 回答3:
可以使用Python中的requests库和BeautifulSoup库来爬取指定网站的内容。具体步骤如下:
首先,需要在Python环境中安装requests库和BeautifulSoup库。可以使用以下命令来安装:
```
pip install requests
pip install beautifulsoup4
```
接下来,编写Python程序,使用requests库来发送HTTP请求获取网页内容,并使用BeautifulSoup库来解析网页。
```python
import requests
from bs4 import BeautifulSoup
# 指定网站的URL
url = "https://example.com"
# 指定编码
encoding = "utf-8"
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 设置网页内容的编码
response.encoding = encoding
# 使用BeautifulSoup库解析网页内容
soup = BeautifulSoup(response.text, "html.parser")
# 获取需要保存的内容,这里以标题为例
title = soup.title.string
# 设置保存的文件名为网页标题加上.txt后缀
filename = title + ".txt"
# 保存内容到txt文档
with open(filename, "w", encoding=encoding) as file:
file.write(response.text)
print("内容已保存到文件:" + filename)
```
以上程序将会爬取指定网站的内容,保存到以网页标题为名字的txt文档,并使用指定编码保存。你可以根据实际需要修改和扩展这段代码。
阅读全文