用Python编写一个网络爬虫
时间: 2023-11-16 12:37:25 浏览: 40
好的,编写一个网络爬虫的基本步骤如下:
1. 导入相关的库,如requests和BeautifulSoup。
2. 发送请求,获取网页内容。
3. 解析网页内容,提取需要的信息。
4. 存储数据。
下面是一个简单的示例代码,用来爬取某个网站的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
for link in soup.find_all("a"):
print(link.get("href"))
print(link.text)
```
这段代码首先使用requests库发送GET请求,获取网页内容,然后使用BeautifulSoup库解析网页内容,并通过find_all方法找到所有的链接,最后打印链接和对应的文本。
相关问题
请用Python编写一个网络爬虫代码
好的,以下是一个简单的Python网络爬虫代码,用于爬取网页内容:
```python
import requests
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
content = response.content
print(content)
else:
print("Error: ", response.status_code)
```
这段代码使用了Python的requests库,向指定的URL发送了一个GET请求,获取到了该网页的HTML内容。如果请求成功(即状态码为200),则将内容打印出来。如果请求失败,则打印状态码。当然,这只是一个最基本的爬虫代码,实际上需要考虑更多的细节,比如请求头、反爬机制、数据解析等等。
用Python编写一个电影爬虫
好的,以下是一个用 Python 编写的电影爬虫的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 请求URL
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
movie_list = []
def get_movies(start):
# 请求URL
url = 'https://movie.douban.com/top250'
params = {
'start': start,
'filter': ''
}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.content, 'html.parser')
movie_items = soup.find_all('div', class_='item')
for item in movie_items:
movie = {}
movie_title = item.find('span', class_='title').get_text()
movie_score = item.find('span', class_='rating_num').get_text()
movie_content = item.find('div', class_='bd').p.get_text().replace("\n", "").replace(" ", "")
movie_info = item.find('div', class_='bd').p.contents[-1].strip().split('/')
movie_year = movie_info[-2]
movie_country = movie_info[-3]
movie['title'] = movie_title
movie['score'] = movie_score
movie['content'] = movie_content
movie['year'] = movie_year
movie['country'] = movie_country
movie_list.append(movie)
return movie_list
if __name__ == '__main__':
for i in range(10):
get_movies(i*25)
print(movie_list)
```
这个代码使用 requests 库和 BeautifulSoup 库获取电影排行榜页面的 HTML 代码,然后解析出电影的名称、评分、简介、年份和国家,并将这些信息存储到一个列表中。我们可以根据需要对爬取到的电影信息进行进一步处理和分析。