python 文本提取
时间: 2023-06-30 11:13:49 浏览: 64
在 Python 中,可以使用字符串方法和正则表达式来提取文本。以下是一些常见的文本提取方法:
1. 字符串切片:可以使用字符串切片来提取字符串中的一部分。例如,可以使用 `str[start:end]` 来获取字符串 `str` 中从 `start` 到 `end` 的子字符串。
2. 字符串查找:可以使用字符串方法 `find()`、`index()` 或 `count()` 来查找字符串中的特定子串。例如,可以使用 `str.find(sub)` 来查找字符串 `str` 中是否包含子串 `sub`。
3. 正则表达式:可以使用 Python 的 `re` 模块来使用正则表达式匹配文本。例如,可以使用 `re.search(pattern, str)` 来在字符串 `str` 中查找符合正则表达式 `pattern` 的子串。
下面是一个示例代码,演示如何使用正则表达式从文本中提取 email 地址:
```
import re
text = "我的邮箱是example@example.com,请给我发送邮件。"
pattern = r"[\w\.-]+@[\w\.-]+\.\w+"
match = re.search(pattern, text)
if match:
email = match.group()
print("提取到的邮箱地址是:", email)
else:
print("未找到邮箱地址。")
```
在上面的代码中,使用正则表达式 `r"[\w\.-]+@[\w\.-]+\.\w+"` 来匹配 email 地址。然后使用 `re.search()` 方法从文本中查找符合该正则表达式的子串。如果找到匹配的子串,则使用 `match.group()` 方法获取该子串,即为提取到的 email 地址。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)