写一条python抓取网页爬虫
时间: 2023-09-21 19:09:15 浏览: 48
下面是一个简单的python爬虫代码,可以抓取网页内容:
```
import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.content
print(html)
```
这段代码使用了 `requests` 库,通过 `requests.get()` 函数请求给定的 `url` ,并获取网页的内容。最后,使用 `print` 函数打印出获取的网页内容。
请注意,有些网站可能会阻止爬虫,在这种情况下,您可能需要设置请求头来模拟浏览器行为。
相关问题
python爬虫一万条数据
基于Python的爬虫可以帮助你获取大量的数据。要抓取一万条数据,你可以按照以下步骤进行操作:
1. 导入所需的库,如requests和BeautifulSoup。
2. 发送HTTP请求获取目标网页的HTML内容。
3. 使用BeautifulSoup解析HTML内容,提取你想要的数据。
4. 循环发送多个HTTP请求,以获取更多的数据。可以使用for循环和range函数来控制循环次数。
5. 将每次获取的数据保存到一个数据结构中,如列表或字典。
6. 当达到所需的数据数量后,停止循环和请求。
请注意,在编写爬虫时,要遵守网站的使用规则和法律法规,确保不会给网站造成不好的影响。
python爬虫抓取豆瓣评论
好的,这是一个比较常见的需求,下面是一个简单的Python爬虫抓取豆瓣电影评论的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 豆瓣电影评论页面URL
url = 'https://movie.douban.com/subject/26794435/comments?start=0&limit=20&sort=new_score&status=P'
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求获取页面内容
response = requests.get(url, headers=headers)
# 解析页面内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取评论内容
comments = soup.find_all('span', {'class': 'short'})
# 打印评论内容
for comment in comments:
print(comment.text.strip())
```
以上代码会输出豆瓣电影《摔跤吧!爸爸》的前20条评论。你可以根据自己的需求修改URL和抓取评论的数量。另外请注意不要过度频繁地爬取同一网站,遵守相关法律法规和道德规范。