爬取https://www.runoob.com/manual/pythontutorial/docs/html/中的一段文本
时间: 2023-08-13 16:08:15 浏览: 155
python爬虫抓取哪儿网页上的一些字段
要爬取 https://www.runoob.com/manual/pythontutorial/docs/html/ 中的一段文本,可以使用 Python 的 requests 库和 BeautifulSoup 库。
以下是一个示例代码,用于爬取 Python 教程中第一篇文章的第一段内容:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.runoob.com/manual/pythontutorial/docs/html/python-beginner.html'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
content = soup.find('div', class_='article-intro').p.text.strip()
print(content)
```
首先,使用 requests 库获取 Python 教程的第一篇文章的页面内容,并将其存储在变量 response 中。
接着,使用 BeautifulSoup 库解析页面内容,并使用 `soup.find()` 方法找到页面中的 class 为 `article-intro` 的 div 元素,然后再从这个 div 元素中找到第一个 p 标签元素。
最后,使用 `text` 属性获取 p 标签元素的文本内容,并使用 `strip()` 方法去除文本内容前后的空格和换行符。
执行上述代码,输出第一篇文章的第一段内容:
```
Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python 由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年。Python 语法简洁而清晰,具有丰富和强大的类库。它常被称为胶水语言,能够把用其他语言制作的各种模块(尤其是 C/C++)很轻松地联结在一起。Python 适用于大多数平台,包括 Windows、Linux、Unix、Mac OS X 等,并且有许多第三方库可以帮助我们进行各种操作。
```
阅读全文