爬虫问题: (1)利用以下代码段获取指定url链接对应网页源代码 url='https://movie.douban.com/top250' importrequests strs=requests.
时间: 2024-11-07 09:13:36 浏览: 44
GETHTML.zip_HTTP_c++ HTTP_getHTML.com_getHtml()_获取网页源代码 HTTP
当然可以。首先,你需要导入`requests`库来发送HTTP请求,并使用`BeautifulSoup`库解析HTML内容。这里是一个简单的Python代码示例,用于从指定URL抓取网页源代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义需要爬取的URL
url = 'https://movie.douban.com/top250'
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功,状态码为200表示成功
if response.status_code == 200:
# 使用BeautifulSoup解析响应内容为HTML对象
html_content = BeautifulSoup(response.text, 'html.parser')
# 你可以通过soup对象对HTML进行遍历和提取所需数据
title_list = html_content.select('.hd > a') # 获取电影标题列表
for title in title_list:
print(title.get_text()) # 打印每个电影的标题
else:
print(f"请求失败,状态码:{response.status_code}")
阅读全文