CORD-19数据集有多少
时间: 2024-01-13 17:05:18 浏览: 26
CORD-19数据集是一个包含数十万篇新冠病毒相关论文的大型文本语料库,截至2021年4月,它包含了超过400,000篇论文。这些论文来自于各种来源,包括PubMed、bioRxiv、medRxiv、WHO和CDC等,涵盖了从病毒传播、病毒基因组学到诊断、治疗和预防等方面的研究。
需要注意的是,由于CORD-19数据集是一个动态更新的数据库,因此其大小会不断变化,而且可能会包含一些重复或不相关的文献,因此在使用时需要进行数据清洗和预处理。