python爬虫获取title标签
时间: 2023-11-15 14:48:16 浏览: 178
获取网页的title标签可以使用Python中的requests和BeautifulSoup库。
首先,使用requests库获取网页的HTML代码:
```python
import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.text
```
然后,使用BeautifulSoup库解析HTML代码并找到title标签:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
print(title)
```
这样就可以获取网页的title标签内容了。
相关问题
python爬虫获取a标签属性值
要获取a标签的属性值,可以使用BeautifulSoup对象的find_all方法来找到所有的a标签,然后通过遍历这些a标签,使用attrs属性来获取每个a标签的属性字典,再通过属性名来获取属性值。具体的代码如下所示:
```python
a_tags = soup.find_all('a') # 找到所有的a标签
for a_tag in a_tags:
href = a_tag.attrs.get('href') # 获取href属性值
print(href)
```
这段代码会打印出所有a标签的href属性值。
#### 引用[.reference_title]
- *1* *2* *3* [Python爬虫入门8:BeautifulSoup获取html标签相关属性](https://blog.csdn.net/LaoYuanPython/article/details/113413766)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]
python爬虫获取博文
Python爬虫可以使用第三方库,如requests、BeautifulSoup、Scrapy等来获取博文。其中requests库可以用来发送HTTP请求,获取博文页面的HTML源代码;BeautifulSoup可以用来解析HTML源代码,提取页面中需要的博文内容;Scrapy是一个Python爬虫框架,可以更加高效地实现大规模博文获取。下面是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.example.com/blog" # 博客首页链接
response = requests.get(url) # 发送GET请求
soup = BeautifulSoup(response.text, "html.parser") # 解析HTML源代码
articles = soup.find_all("article") # 获取所有博文的<article>标签
for article in articles:
title = article.find("h2").text # 获取博文标题
content = article.find("div", class_="content").text # 获取博文内容
print("标题:", title)
print("内容:", content)
```
阅读全文