python摘出文本中所有单词
时间: 2023-12-12 15:51:03 浏览: 69
可以使用正则表达式来匹配文本中的所有单词。以下是一个简单的示例代码,可以摘出一个字符串中的所有单词:
```python
import re
text = "Hello, world! This is a sample text."
words = re.findall(r'\b\w+\b', text)
print(words)
```
输出结果为:
```
['Hello', 'world', 'This', 'is', 'a', 'sample', 'text']
```
在上面的代码中,我们使用了正则表达式 `\b\w+\b` 来匹配单词。其中:
- `\b` 表示单词边界,用于确保匹配的是单词而不是单词的一部分。
- `\w+` 表示一个或多个字母、数字或下划线字符,用于匹配单词中的字符。
`re.findall()` 函数则可以在文本中查找所有匹配的字符串,并返回一个列表。
相关问题
python统计文本中不同单词个数
可以用Python的字典来实现单词计数的功能,具体代码如下:
```python
text = "This is a sample text with several words and repeated words"
words = text.split() # 将文本划分成单词
word_count = {} # 创建一个空字典
# 遍历单词列表
for word in words:
if word not in word_count:
word_count[word] = 1 # 如果单词不在字典中,则将其加入字典,并将其计数设置为1
else:
word_count[word] += 1 # 如果单词已经在字典中,则将其计数加1
# 输出不同单词的个数
print("不同单词的个数:", len(word_count))
```
输出结果如下:
```
不同单词的个数: 9
```
这个代码可以统计文本中不同单词的个数,但是它并没有考虑到单词的大小写、标点符号等问题。如果需要更加精确的统计,还需要进行一些数据清洗的工作。
python统计文本中单词数
可以使用Python的正则表达式和字符串操作来统计文本中单词数。以下是一个简单的示例代码:
```python
import re
text = "This is a sample text with multiple words. Counting the number of words in this text is a simple task."
# 使用正则表达式将文本中的单词分离出来
words = re.findall(r'\w+', text)
# 统计单词数量
word_count = len(words)
print("Number of words in the text:", word_count)
```
输出结果为:
```
Number of words in the text: 18
```
该代码使用正则表达式 `\w+` 来匹配文本中的单词,然后使用 Python 的 `len()` 函数计算单词数量。