python爬取网页内容源码
时间: 2023-08-25 20:06:34 浏览: 134
要使用Python爬取网页内容源码,可以使用urllib模块中的urlopen函数来打开网址并读取源代码。以下是一个示例代码:
```python
import urllib.request
def grab(url):
# 打开传入的网址
resp = urllib.request.urlopen(url)
# 读取网页源码内容
data = resp.read()
# 输入存储文件名
name = input("请定义文件名:")
# 打开文件
file_name = open(name, "wb")
# 将代码写入文件
file_name.write(data)
# 关闭文件
file_name.close()
print("下载源码完成")
if __name__ == '__main__':
# 按照格式输入网址
web_addr = input("请输入你要抓取的网址(例如http://www.baidu.com/):")
try:
grab(web_addr)
except:
print("网址输入有误")
```
这段代码中,我们定义了一个`grab`函数,它接受一个网址作为参数。函数内部使用`urlopen`函数打开网址并读取源代码,然后将源代码写入一个本地文件中。你可以根据需要修改文件名和存储路径。运行这段代码后,输入你要抓取的网址,即可将网页内容源码保存到本地文件中。
#### 引用[.reference_title]
- *1* [python-爬虫(最后附爬取数据的源码)](https://blog.csdn.net/iconada/article/details/121895984)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* [python爬虫入门篇------爬取网页源代码](https://blog.csdn.net/wf134/article/details/78554764)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
- *3* [实战|手把手教你用Python爬虫(附详细源码)](https://blog.csdn.net/m0_59162248/article/details/128682228)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
阅读全文