pku-vd数据集特点
时间: 2023-06-07 16:02:28 浏览: 236
用于人体动作识别的PKU-MMD大范围数据集
pku-vd数据集是一个用于中文文本分类和情感分析的数据集,由北京大学自然语言处理实验室提供。该数据集共包含4,000篇文本,涵盖6个领域:汽车、电子产品、电影、餐饮、书籍和旅游。每个领域都有500篇文本,每篇文本有一个对应的标签,标签分别为正面、负面、中性。
该数据集的特点如下:
1.全面性:pku-vd数据集涵盖了6个领域,包含了丰富的文本主题,可以适用于不同领域的文本分类和情感分析的研究。
2.精度高:数据集的标注精度很高,每篇文本都有一个准确的标签,标注人员经过专业培训,对文本进行了严格的标注。
3.样本均衡:每个领域都有500篇文本,正负样本数量相等,且中性文本数量合理,样本分布均衡。
4.真实性:pku-vd数据集中的文本来自真实的网络环境,具有代表性。
5.可扩展性:该数据集可以进行扩展,适应不同的应用场景和研究方向。
总之,pku-vd数据集是一个适用于中文文本分类和情感分析的高质量数据集,可以为研究人员提供丰富的数据资源。
阅读全文