CORD-19数据集有多少
时间: 2024-01-13 13:05:18 浏览: 265
CORD-19数据集是一个包含数十万篇新冠病毒相关论文的大型文本语料库,截至2021年4月,它包含了超过400,000篇论文。这些论文来自于各种来源,包括PubMed、bioRxiv、medRxiv、WHO和CDC等,涵盖了从病毒传播、病毒基因组学到诊断、治疗和预防等方面的研究。
需要注意的是,由于CORD-19数据集是一个动态更新的数据库,因此其大小会不断变化,而且可能会包含一些重复或不相关的文献,因此在使用时需要进行数据清洗和预处理。
相关问题
CORD-19数据集的训练集测试集验证集有多少
CORD-19数据集并没有明确的训练集、测试集和验证集划分,因为它主要是用于研究新冠病毒相关论文的分析和建模。不过,一些研究者将其视为一个大型的文本语料库,可以根据自己的需求进行划分和使用。
另外,针对CORD-19数据集,Kaggle举办了一个比赛,名为CORD-19 Research Challenge,提供了一些挑战任务和评估标准,可以作为一些研究者进行模型评估的参考。在这个比赛中,主办方提供了一些数据子集,如只包含COVID-19相关论文的子集,可以用于划分训练集、测试集和验证集。
kaggle医疗数据集推荐
Kaggle是一个知名的开源数据科学竞赛平台,上面有许多医疗相关的数据集,这些数据集涵盖了各种健康议题,如疾病预测、患者诊断、药物研发等。下面是一些推荐的医疗数据集:
1. **MIMIC-III** (Medical Information Mart for Intensive Care): 这是ICU患者的大规模电子病历数据集,可用于研究患者监护、病情演变和预后分析。
2. **Breast Cancer Wisconsin (Diagnostic)**: 用于乳腺癌分类的数据集,常用于机器学习入门项目,训练疾病检测模型。
3. **Chest X-ray Pneumonia Detection**: 医学影像数据集,包含肺部X光图像,用于识别肺炎。
4. **IBM Watson Genomics Challenge**: 提供了癌症基因组数据,可用于个性化治疗方案的研究。
5. **COVID-19 Open Research Dataset (CORD-19)**: 疫情期间的重要数据集,收录了关于新冠病毒的相关文献和数据。
6. **Global Burden of Disease Study (GBD)**: 数据集展示了全球范围内多种疾病的负担情况,包括发病率、死亡率等信息。
阅读全文