arxiv dataset
时间: 2024-08-14 14:09:51 浏览: 46
Replica-Dataset:在https中发布的副本数据集v1
arXiv是一个在线预印本服务,主要用于数学、物理学、计算机科学等领域的研究论文。它提供了一个名为"arXiv Dataset"的数据集,包含了从该平台收集的大量学术论文摘要、标题、作者信息以及元数据。这个数据集不仅对研究人员来说是个宝贵的资源库,也常用于自然语言处理(NLP)任务,比如文本分类、情感分析和文档检索。由于它是公开的,许多机器学习和深度学习项目会使用它来训练模型,尤其是在预训练语言模型中作为无标注数据的一部分。
阅读全文