工业企业专利匹配数据集(1998-2014年)提取方法解析

版权申诉
5星 · 超过95%的资源 3 下载量 173 浏览量 更新于2024-11-04 收藏 127.79MB RAR 举报
资源摘要信息: "1998-2014数十万数据量工业企业专利匹配数据集" 是一份包含了从1998年至2014年期间数十万条工业企业数据与专利数据的匹配结果。该数据集对研究者或分析者在分析工业企业的专利活动、技术创新能力以及产业发展趋势等方面具有重要的参考价值。数据集的匹配方法主要分为四个步骤: 第一步,参照Brandt(2012)的方法处理工企数据和专利数据。这里的Brandt(2012)可能指的是某篇具体的学术论文或研究文献,该文献中详细描述了工业企业和专利数据处理与匹配的方法。这些方法可能包括数据清洗、标准化处理等步骤,确保数据的质量和格式一致性,为后续匹配工作打下基础。 第二步,根据企业名称和年份与专利数据进行匹配。这一步骤涉及到将工业企业的名称和对应年份信息与专利数据库中记录的专利信息进行对照。通过企业名称和年份可以初步筛选出可能属于该企业的专利,这一过程可能需要处理同名或相似名称的问题,确保匹配的准确性。 第三步,根据组织代码和年份与专利数据进行匹配。组织代码通常指的是企业唯一标识代码,如统一社会信用代码、企业法人代码等。这一步骤可以辅助第二步的匹配结果,通过组织代码进一步确保匹配的精准度,尤其是对于拥有多个名称或曾用名的企业。 第四步,合并第二、三步的匹配数据,并去重。由于工业企业可能通过不同的名称和组织代码申请专利,因此需要将第二步和第三步的匹配结果合并,并对重复的专利数据进行去重处理,保证最终的匹配结果中每个专利只出现一次。这样可以避免数据分析时的重复计数和偏差。 最终,数据集提供了一个综合了上述四个步骤后得到的匹配结果,即任意满足第二步或第三步匹配条件的企业及其专利数据。这个数据集能够支持深度分析,如某企业专利的历年变化趋势、特定行业内的技术进步、不同企业的专利战略等。 对于数据集的使用,研究者应特别注意数据的隐私保护、版权以及数据使用的合规性。同时,也应当对数据的完整性和准确性进行检查,确保分析结果的有效性。在分析这些数据时,常见的分析工具可能包括Excel、SPSS、SAS、R语言、Python等数据分析和统计软件,它们能够帮助用户进行数据清洗、统计分析、数据可视化等操作,深入挖掘数据背后的信息。