python爬取html
时间: 2023-08-14 20:02:39 浏览: 95
tieba_崩坏_贴吧html_python爬虫_
5星 · 资源好评率100%
回答: 要使用Python爬取HTML网页,你可以使用不同的库,如requests和urllib。使用requests库,你可以使用get()方法发送GET请求,然后将响应的内容保存到一个变量中,最后将内容写入一个文件。例如,你可以使用以下代码将百度网页保存为一个HTML文件:
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
string = (response.text).encode()
with open('baidu.html', 'wb') as f:
f.write(string)
print('ok')
另外,你也可以使用urllib库来实现相同的功能。使用urllib库,你需要创建一个Request对象,然后使用urlopen()方法发送请求,最后将响应的内容保存到一个文件中。以下是一个使用urllib库的示例:
import urllib.request
url = 'http://www.baidu.com/'
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
html = response.read()
with open('baidu.html', 'wb') as f:
f.write(html)
print('ok')
无论你选择使用哪个库,都需要注意指定合适的文件名和保存路径,以及适当处理编码问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* *3* [python--爬虫 爬取html和txt文件](https://blog.csdn.net/weixin_45289656/article/details/127819933)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"]
[ .reference_list ]
阅读全文