可用于spark大数据研究的数据集
时间: 2024-02-19 18:00:59 浏览: 140
有很多可用于Spark大数据研究的数据集,以下是一些例子:
1. Apache Spark官方提供的示例数据集,例如:KMeans样本数据集,ALS电影评分数据集等。
2. Kaggle的开放数据集,这些数据集包含了从文本、图像、音频等各种不同领域的数据,可以用于各种大数据分析任务。
3. UCI Machine Learning Repository的数据集,这些数据集来自各种不同领域,例如医疗、金融、社交媒体等,可以用于大数据分析和机器学习任务。
4. Amazon的公共数据集,这些数据集包含了从电影评分到天气数据等各种数据,可以用于大数据分析和机器学习任务。
5. Google的公共数据集,这些数据集包含了从气象数据到图像数据等各种数据,可以用于大数据分析和机器学习任务。
以上仅是一些例子,还有很多其他的数据集可用于Spark大数据研究。
相关问题
可用于spark大数据研究的医药类数据集
以下是一些可用于Spark大数据研究的医药类数据集:
1. DrugBank: 包含药物、药物相互作用、药物靶点、药物剂量等信息的数据库。可以用于药物研究和开发。
2. FDA Adverse Event Reporting System (FAERS): 包含美国食品和药品管理局 (FDA) 收集的药物不良反应报告的数据库。可以用于药物安全性评估和监测。
3. The Cancer Genome Atlas (TCGA): 包含多种癌症类型的基因组学和临床数据。可以用于癌症研究和治疗。
4. PharmGKB: 包含药物与基因组学关联信息的数据库。可以用于药物个体化治疗研究。
5. PubMed: 美国国立医学图书馆 (NLM) 维护的医学文献数据库。可以用于医学研究和文献分析。
这些数据集包含了大量的医药相关信息,可以用于Spark大数据研究和分析。
阅读全文