for ind,line in enumerate(wordList): # print('_______________________________________') # print(ind) for i in range(0,50): if 0 == index[ind][0]: fw = open('./cluster' + str(0) + '.txt', 'a+', encoding='utf-8') fw.write(line) # pass else: fw = open('./cluster' + str(1) + '.txt', 'a+', encoding='utf-8') fw.write(line) # pass为什么输出的文件里分词个数都是50的倍数
时间: 2024-04-13 17:28:10 浏览: 528
输出的文件中分词个数都是50的倍数,是因为在循环中,每次写入文件的时候,是将整个 `line` 写入,而不是根据当前循环的索引 `i` 写入。因此,无论循环多少次,写入的内容都是一样的,都是整个 `line`。如果你想要将每个 `line` 按照50的倍数进行写入,你可以按照以下方式进行修改:
```python
for ind, line in enumerate(wordList):
for i in range(0, 50):
if 0 == index[ind][0]:
fw = open('./cluster' + str(0) + '.txt', 'a+', encoding='utf-8')
fw.write(line[i*50:(i+1)*50])
else:
fw = open('./cluster' + str(1) + '.txt', 'a+', encoding='utf-8')
fw.write(line[i*50:(i+1)*50])
```
这样,每次写入的内容就是 `line` 中从 `i*50` 到 `(i+1)*50` 的部分。这样就可以保证输出的文件中每个分词个数都是50的倍数了。
相关问题
In file included from /home/yhdr/2-test-2023-06_v3/sent.h:24:0, from /home/yhdr/2-test-2023-06_v3/sent.cpp:1: /usr/include/c++/7/thread: In instantiation of ‘struct std::thread::_Invoker<std::tuple<void (*)(double*, double&, double&, double&, double&, double&), double**, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double> > >’: /usr/include/c++/7/thread:127:22: required from ‘std::thread::thread(_Callable&&, _Args&& ...) [with _Callable = void (&)(double*, double&, double&, double&, double&, double&); _Args = {double**, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>}]’ /home/yhdr/2-test-2023-06_v3/sent.cpp:18:153: required from here /usr/include/c++/7/thread:240:2: error: no matching function for call to ‘std::thread::_Invoker<std::tuple<void (*)(double*, double&, double&, double&, double&, double&), double**, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double> > >::_M_invoke(std::thread::_Invoker<std::tuple<void (*)(double*, double&, double&, double&, double&, double&), double**, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double> > >::_Indices)’ operator()() ^~~~~~~~ /usr/include/c++/7/thread:231:4: note: candidate: template<long unsigned int ..._Ind> decltype (std::__invoke((_S_declval<_Ind>)()...)) std::thread::_Invoker<_Tuple>::_M_invoke(std::_Index_tuple<_Ind ...>) [with long unsigned int ..._Ind = {_Ind ...}; _Tuple = std::tuple<void (*)(double*, double&, double&, double&, double&, double&), double**, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double>, std::reference_wrapper<double> >] _M_invoke(_Index_tuple<_Ind...>)
这个编译错误看起来是在创建一个std::thread对象时出现了问题。它指出无法匹配std::thread::_Invoker模板的_M_invoke函数的参数列表。这通常是因为您的函数参数与std::thread的参数不匹配,或者您的函数参数中有无法转换的类型。
请检查您的函数参数类型是否与std::thread需要的参数类型相匹配。如果您的函数需要接受其他参数类型,请尝试将它们转换为std::reference_wrapper或其他可转换的类型。您可能还需要检查您的函数参数数量是否正确。
如果您需要更多的帮助,请提供更多的代码和上下文,我可以更好地帮助您解决这个问题。
ef m_step(self, posterior): """Maximization step in EM algorithm, use last time posterior p(z|x) to calculate params gratitude. Args: posterior: [n_sample, n_class] p(z=i | x_i, \theta_t) Return: Each class param's gratitude in current time step grad_class_prob: scatter of class j grad_mus: [,dim] jth class mus grad_sigma: [, dim, dim] jth class sigma """ for cls in range(self.n_class): ## class_prob gratitudes grad_class_prob = posterior[:, cls].sum() / self.n_sample ## mu_j <- (\sum_i p(z_j|x_i) * x_i) / sum_i p(z_j |x_i) grad_mus = np.zeros(self.n_dim) for ind in range(self.n_sample): grad_mus += posterior[ind, cls] * self.data[ind, :] grad_mus /= posterior[:, cls].sum() ## sigma_j <- (\sum_i p(z_j|x_i) * (x_i - \mu_j)^2) / sum_i p(z_j |x_i) grad_sigma = np.zeros((self.n_dim, self.n_dim)) for ind in range(self.n_sample): grad_sigma += posterior[ind, cls] * \ np.dot((self.data[ind, :] - self.mus[cls]), self.data[ind, :] - self.mus[cls].T) grad_sigma /= posterior[:, cls].sum() yield grad_class_prob, grad_mus, grad_sigma 这段代码的作用
这段代码是高斯混合模型的EM算法中的M步骤,即最大化步骤,用上一步得到的后验概率p(z|x)来计算模型的参数(即类别概率、均值和协方差矩阵)的梯度。
具体来说,这段代码中的posterior是一个n_samples x n_components的矩阵,表示每个样本属于每个聚类的后验概率。grad_class_prob、grad_mus和grad_sigma分别表示类别概率、均值和协方差矩阵的梯度,通过yield关键字返回结果。
代码的第一个循环计算类别概率的梯度,即将某个聚类中所有样本的后验概率相加后除以样本总数,得到该聚类的类别概率的梯度。
代码的第二个循环计算均值的梯度,即将某个聚类中所有样本的后验概率乘以该样本的特征向量相加,然后除以该聚类所有样本的后验概率之和,得到该聚类的均值的梯度。
代码的第三个循环计算协方差矩阵的梯度,即将某个聚类中所有样本的后验概率乘以该样本与该聚类均值之差的矩阵相乘,然后加权求和,最后除以该聚类所有样本的后验概率之和,得到该聚类的协方差矩阵的梯度。
最后,通过yield返回三个梯度,用于更新EM算法中的参数。
阅读全文