首页python 爬取页面并解析所有电话号码

python 爬取页面并解析所有电话号码

时间: 2023-08-12 08:34:03 浏览: 62

可以使用Python中的requests和BeautifulSoup库来实现页面爬取和解析电话号码。首先，使用requests库发送HTTP请求获取网页内容： ```python import requests url = "https://example.com" # 替换为要爬取的网页链接 response = requests.get(url) if response.status_code == 200: # 请求成功 html = response.text # 获取网页内容 ``` 接下来，使用BeautifulSoup库解析HTML文档，提取所有电话号码： ```python from bs4 import BeautifulSoup import re soup = BeautifulSoup(html, "html.parser") # 解析HTML文档 tel_pattern = re.compile(r"\b\d{3}-\d{8}\b|\b\d{4}-\d{7}\b") # 匹配电话号码的正则表达式 tel_set = set() # 用set来去重 # 查找所有文本节点，并在其中匹配电话号码 for text_node in soup.find_all(text=True): tel_list = tel_pattern.findall(text_node) if tel_list: tel_set.update(tel_list) for tel in tel_set: print(tel) ``` 这里使用了正则表达式`\b\d{3}-\d{8}\b|\b\d{4}-\d{7}\b`来匹配电话号码，其中`\b`表示单词边界，`\d`表示数字，`{3}`和`{8}`表示匹配3位和8位数字，`|`表示或，`\d{4}-\d{7}`表示匹配4位和7位数字。使用set来去重，最后输出所有电话号码。

最新推荐

Python爬取数据并实现可视化代码解析

python 爬取页面并解析所有电话号码

相关推荐

Python爬取数据并实现可视化代码解析

基于Python爬取51cto博客页面信息过程解析

python爬取Ajax动态加载网页过程解析

python爬取页面所有href的值

python 爬取页面

python爬取静态页面

python 爬取html页面下载

python 爬取页面json格式数据，插入数据库

python爬取二级页面

python 爬取url 目录下所有文件

python电影爬取并下载_python爬取电影并下载

python爬取机票并可视化

python爬取企查查手机号码

python爬取数据并存入excel

python下载电影_python爬取电影并下载

python爬取qq音乐并保

python爬取某人所有微博

python爬取机票并可视化程序

python爬取并存入MySql数据库实例

最新推荐

Python爬取数据并实现可视化代码解析

python 爬取马蜂窝景点翻页文字评论的实现

Python爬取当当、京东、亚马逊图书信息代码实例

python爬取cnvd漏洞库信息的实例

Python爬虫爬取新闻资讯案例详解

利用迪杰斯特拉算法的全国交通咨询系统设计与实现

管理建模和仿真的文件

【实战演练】基于TensorFlow的卷积神经网络图像识别项目

CD40110工作原理

全国交通咨询系统C++实现源码解析