帮我写一段取HTML网页内容并且存储到txt文档的代码,使用指定编码
时间: 2023-08-31 19:19:44 浏览: 266
js利用IE通过windowopen方式保存网页部分内容到本地
3星 · 编辑精心推荐
### 回答1:
可以使用以下代码来实现:from urllib.request import urlopen
# 指定编码
encoding = 'utf-8'# 读取网页内容
html = urlopen("http://www.example.com").read().decode(encoding)# 将网页内容存储到txt文档
with open("example.txt", "w", encoding=encoding) as f:
f.write(html)
### 回答2:
可使用Python中的requests和BeautifulSoup库实现从HTML网页中获取内容并存储到txt文档中。
首先需要安装requests库和BeautifulSoup库,可以在命令行中输入以下命令进行安装:
```
pip install requests
pip install beautifulsoup4
```
然后,可以使用以下代码实现取HTML网页内容并存储到txt文档中(以UTF-8编码为例):
```python
import requests
from bs4 import BeautifulSoup
def get_html_content(url):
response = requests.get(url)
response.encoding = 'UTF-8' # 指定编码
if response.status_code == 200:
return response.text
else:
print("请求错误:" + url)
def save_content_to_txt(content, filename):
with open(filename, 'w', encoding='UTF-8') as file:
file.write(content)
print("保存成功:" + filename)
url = "http://example.com" # 替换为需要爬取的网页链接
filename = "output.txt" # 替换为要保存的txt文档路径
html_content = get_html_content(url)
if html_content:
save_content_to_txt(html_content, filename)
```
在代码中,`get_html_content()`函数用于获取网页内容,`save_content_to_txt()`函数用于将内容保存到txt文档中。将`url`变量替换为需要爬取的网页链接,将`filename`变量替换为要保存的txt文档路径。
执行以上代码后,即可从指定网页获取内容并保存到指定的txt文档中,编码方式为UTF-8。
### 回答3:
import requests
# 定义目标网页的URL
url = "目标网页的URL"
# 获取网页内容
response = requests.get(url)
# 设置网页编码
response.encoding = "指定编码"
# 将网页内容保存到txt文档
with open("目标文档.txt", "w", encoding="指定编码") as file:
file.write(response.text)
以上是一段使用Python的requests库来获取HTML网页内容并保存到txt文档的代码。首先,我们需要定义目标网页的URL,然后使用requests库的get方法获取网页内容。然后,我们设置网页的编码为指定的编码方式。最后,我们将网页内容写入到指定的txt文档中,并指定编码方式为与网页内容相同的编码方式。
阅读全文