从长文本中抽取给定的关键词,python代码实现
时间: 2023-01-15 09:20:22 浏览: 150
为了从长文本中抽取给定的关键词,可以使用 Python 中的正则表达式。
首先,需要安装 `re` 模块,这是 Python 的正则表达式库。
然后,使用 `re.findall` 函数可以在文本中查找所有匹配给定正则表达式的字符串。例如,假设要从文本中抽取所有数字,可以使用以下代码:
```
import re
text = "The quick brown fox jumps over the lazy dog. 1234567890"
numbers = re.findall(r'\d+', text)
print(numbers)
```
输出结果为:
```
['1234567890']
```
如果要抽取给定的关键词,可以将正则表达式替换为关键词的模式。例如,假设要抽取所有 "cat" 和 "dog",可以使用以下代码:
```
import re
text = "The quick brown cat jumps over the lazy dog."
keywords = re.findall(r'cat|dog', text)
print(keywords)
```
输出结果为:
```
['cat', 'dog']
```
此外,还可以使用 `re.search` 函数在文本中查找第一个匹配给定正则表达式的字符串。例如,假设要查找文本中第一个数字,可以使用以下代码:
```
import re
text = "The quick brown fox jumps over the lazy dog. 1234567890"
number = re.search(r'\d+', text)
print(number.group())
```
输出结果为:
```
1234567890
```
可以根据需要使用不同的正
阅读全文