1.了解3类基本组合数据类型。 2.理解列表概念并掌握Python中列表的使用。 3.理解字典概念并掌握Python中字典的使用。 4. 运用jieba库进行中文分词并进行文本词频统计。
时间: 2023-06-24 22:07:56 浏览: 102
1. 三类基本组合数据类型分别为:列表、元组和字典。列表是一种有序的可变序列,元组是一种有序的不可变序列,字典是一种无序的键值对集合。
2. 列表是Python中最常用的数据类型之一,用于存储一组有序的元素。可以通过方括号来创建一个列表,并使用索引访问列表中的元素。例如:
```
my_list = [1, 2, 3, "apple", "banana"]
print(my_list[0]) # 输出1
```
列表还支持切片操作,可以通过切片来获取列表中的一部分元素。例如:
```
my_list = [1, 2, 3, 4, 5]
sub_list = my_list[1:3] # 获取下标1和下标2的元素
print(sub_list) # 输出[2, 3]
```
列表也可以进行添加、删除、修改等操作,例如:
```
my_list.append("orange") # 在列表末尾添加一个元素
my_list.pop(1) # 删除下标为1的元素
my_list[2] = "pear" # 修改下标为2的元素
```
3. 字典是Python中另一种常用的数据类型,用于存储一组无序的键值对。可以通过花括号来创建一个字典,并使用键来访问字典中的值。例如:
```
my_dict = {"name": "Alice", "age": 18, "gender": "female"}
print(my_dict["name"]) # 输出Alice
```
字典也支持添加、删除、修改等操作,例如:
```
my_dict["city"] = "Beijing" # 添加一个键值对
del my_dict["age"] # 删除一个键值对
my_dict["name"] = "Bob" # 修改一个键值对的值
```
4. jieba是一款开源的中文分词库,可以用于将中文文本切分成词语。可以使用pip安装jieba库,并使用jieba.cut()函数进行分词,例如:
```
import jieba
text = "今天天气真好,适合出去游玩。"
words = jieba.cut(text)
for word in words:
print(word)
```
运行结果如下:
```
今天天气
真好
,
适合
出去
游玩
。
```
可以使用Counter类来统计分词后的词频,例如:
```
from collections import Counter
text = "今天天气真好,适合出去游玩。"
words = jieba.cut(text)
word_list = list(words)
word_count = Counter(word_list)
print(word_count)
```
运行结果如下:
```
Counter({'今天天气': 1, '真好': 1, ',': 1, '适合': 1, '出去': 1, '游玩': 1, '。': 1})
```
阅读全文