github中文文本专利数据集
时间: 2023-11-24 16:40:12 浏览: 69
在Github上可以找到一些中文文本专利数据集,以下是一些可能有用的资源:
1. [PatentCN 数据集](https://github.com/Samurais/patentCN):该数据集包含了中国大陆的专利文本数据,包括了专利申请和授权两部分,共计约 1.5 亿篇。
2. [CN-ABS 数据集](https://github.com/cyberspace-ai/cn-abs):该数据集包含了中国科学院计算技术研究所提供的中文文本专利摘要数据,包括了 2005 到 2019 年的数据,共计约 1.2 亿篇。
3. [CN-CLC 数据集](https://github.com/cyberspace-ai/cn-clc):该数据集包含了中国国家图书馆提供的中文文本专利分类数据,包括了 2011 到 2015 年的数据,共计约 470 万篇。
4. [CN-CPA 数据集](https://github.com/cyberspace-ai/cn-cpa):该数据集包含了中国国家知识产权局提供的中文文本专利分类数据,包括了 2016 到 2018 年的数据,共计约 100 万篇。
请注意,这些数据集可能存在一些限制,例如需要获取特定的许可证或付费。在使用这些数据集之前,请务必仔细阅读其文档和许可证,并确保您的使用符合相关法规和规定。
相关问题
Github推荐哪些呼吸数据集
以下是几个我认为比较有用的呼吸数据集的GitHub链接:
1. Respiratory-Sound-Dataset:这是一个包含来自不同年龄段和不同呼吸疾病的呼吸音信号的数据集。数据集由专业医生和听力学家标注,并且可以用于训练和评估AI模型。链接:https://github.com/mondejar/ecg-classification
2. UCI Machine Learning Repository的呼吸数据集:该数据集包含来自5个不同呼吸疾病类别的30个患者的呼吸数据。数据采集自胸部X射线图像。链接:https://github.com/UCI-Rehabilitation-Machine-Learning-Project/Chest-X-Ray-Image-Classification-for-Diagnosis-of-Pulmonary-Diseases
3. MIMIC-III呼吸数据集:这个数据集包含来自医院ICU的呼吸数据,可以用于研究和开发AI算法。数据集包括呼吸频率、氧饱和度、气道压力和流速等指标。链接:https://github.com/MIT-LCP/mimic-code/tree/master/concepts/ventilation
这些数据集可以用于训练和评估AI模型,以帮助诊断和治疗呼吸疾病。
github 光伏发电数据集
GitHub 上有很多光伏发电数据集,这些数据集包含了各种不同地区和时间段的光伏发电数据。这些数据集通常包括光伏发电量、天气条件、发电设备信息等多种数据。研究人员可以利用这些数据集进行光伏发电效率、天气条件对光伏发电的影响等方面的研究。
光伏发电数据集可以帮助人们更好地了解光伏发电系统的运行情况,发现其中的规律和问题。这对于光伏发电系统的设计优化、运行管理和预测维护都非常有帮助。
研究人员可以使用这些数据集进行数据分析、建立光伏发电模型,并进行相关预测。这些工作可以帮助提高光伏发电系统的效率和可靠性,降低光伏发电成本,推动光伏发电技术的发展和应用。
此外,光伏发电数据集也对于政府部门和企业来说是非常有用的。政府部门可以利用这些数据集进行政策制定和规划,企业可以使用这些数据集进行投资决策和业务拓展。
总而言之,GitHub 上的光伏发电数据集为研究人员、政府部门和企业提供了宝贵的数据资源,有助于推动光伏发电领域的发展和应用。希望在未来能够有更多的光伏发电数据集加入到 GitHub 上,并为相关研究和工作提供更多有力的支持。