def split_dot(words): dots=[',','.','!','?'] str_data = [] for w in words: ##*****——请在下方补充代码——***** ##*****——请在上方补充代码——***** return(str_data) def get_eng_dicts(datas): w_all_dict = {} for sample in datas: for token in sample.split(" "): ##*****——请在下方补充代码——***** ##*****——请在上方补充代码——***** sort_w_list = sorted(w_all_dict.items(), key=lambda d: d[1], reverse=True) w_keys = [x for x,_ in sort_w_list[:7000-2]] w_keys.insert(0,"<PAD>") w_keys.insert(0,"<UNK>") w_dict = { x:i for i,x in enumerate(w_keys) } i_dict = { i:x for i,x in enumerate(w_keys) } return w_dict,i_dict
时间: 2024-01-17 07:12:45 浏览: 84
Python库 | dots_for_microarrays-0.2.0.tar.gz
在第一个函数的注释中,我们可以看到需要将输入的words字符串列表中的句子分割成单词,并将其中的标点符号去除。我们可以使用Python的内置方法split()来分割字符串,并使用字符串的replace()方法来去除标点符号。
下面是修改后的代码:
```python
def split_dot(words):
dots=[',','.','!','?']
str_data = []
for w in words:
w = w.replace(".", "").replace(",", "").replace("!", "").replace("?", "") # 去除标点符号
str_data += w.split(" ") # 分割字符串
return(str_data)
```
在第二个函数的注释中,我们可以看到需要将datas中的所有单词统计出现次数,并根据出现次数从多到少排序,然后选取出现次数最多的前7000个单词作为词典。我们可以使用Python的collections模块中的Counter类来统计单词出现次数,并使用sorted()函数来排序。
下面是修改后的代码:
```python
from collections import Counter
def get_eng_dicts(datas):
w_all_dict = Counter()
for sample in datas:
words = sample.split(" ")
# 统计单词出现次数
w_all_dict.update(words)
# 按照出现次数从多到少排序
sort_w_list = sorted(w_all_dict.items(), key=lambda d: d[1], reverse=True)
# 选取出现次数最多的前7000个单词作为词典
w_keys = [x for x,_ in sort_w_list[:7000-2]]
w_keys.insert(0,"<PAD>")
w_keys.insert(0,"<UNK>")
w_dict = { x:i for i,x in enumerate(w_keys) }
i_dict = { i:x for i,x in enumerate(w_keys) }
return w_dict,i_dict
```
阅读全文