数据挖掘作业:解析DBLP学者关系与研究趋势分析

版权申诉
5星 · 超过95%的资源 2 下载量 72 浏览量 更新于2024-10-12 收藏 2.93MB ZIP 举报
资源摘要信息: 本资源是一份基于关联规则挖掘在DBLP学者关系研究领域的Python源码及其实验报告,主要用于数据挖掘的课程作业。资源中包含了一系列详细记录与关联规则挖掘过程相关的文件,以及一份详细的课程报告。 关联规则挖掘是一种在大数据集中寻找项之间的有趣关系的方法,如支持度、置信度和提升度等。在这项研究中,使用了DBLP(Digital Bibliography & Library Project)的XML格式数据,专门关注以"attention"和"transformer"为关键词的论文,并筛选出2017年以后发表的文章进行分析。使用Python编程语言对学者的人际关系进行了编码和建模,重点分析了合著者关系和团队关系的演变过程。 以下为资源中各文件所包含的知识点概述: 1. `getAuthors.py`文件:这个Python脚本负责解析DBLP的XML文件,并从中提取出作者、文章标题、年份等信息,将结果保存在`authors.txt`文件中。 2. `encodeAuthors.py`文件:该脚本读取`authors.txt`文件,并将作者的名字转换为数字编码形式,生成`authors_encode.txt`和`author_index.txt`文件。数字编码有利于后续的关联规则挖掘和数据分析。 3. `fpgrowth.py`文件:利用机器学习库`mlxtend`中的FP-growth算法进行关联规则挖掘。FP-growth算法是一种用于找出数据集中项目集之间频繁模式的有效方法,它能够找出满足特定支持度和置信度阈值的规则。 4. `authors.txt`文件:包含从DBLP数据库解析出的原始数据,格式为年份、标题和学者名字。 5. `authors_encode.txt`文件:包含编码后的学者信息,将人名替换为数字编码。 6. `authors_index.txt`文件:包含编码后的学者及其一年内的发文数量,这有助于分析学者的研究活跃程度。 7. `result_co_authors_5_0.5.csv`文件:包含了合著者分析结果,记录了合著者对(两人一组)、年份、学者名字(tuple)、一年内发文数量和活跃程度。 8. `result_teams_5_0.5.csv`文件:包含了团队分析结果,格式与合著者结果类似,但包括人数大于2的关系,即团队关系。 9. `数据挖掘报告.pdf`文件:详细记录了整个实验的过程、方法、分析结果和结论,是一个完整的实验报告。 10. 项目说明.md文件:提供了对整个项目的说明和背景介绍。 在进行分析时,研究者设定了以下两个阈值条件:一年内发表论文数量大于5(支持率),和除学者自身外,其他人在发表文章数量上至少有50%的置信度,可以和该学者共同发表论文(置信率)。根据这两个条件,定义了合著者和团队,并计算了学者关系的活跃程度。活跃程度的计算公式为:活跃程度 = 发表文章数量 + (10 / 人数) * 求和{每个人发表文章数量的倒数}。 主要结论指出,研究"attention"和"transformer"的学者数量在逐年增加,但研究的持久性不强,通常不会持续超过一年。活跃学者的模式倾向于"一个固定导师+一个可变学生",或者"两个固定导师+一个可变学生",以及"AB BC AC 都活跃"等模式,说明学者之间的合作模式倾向于固定小团队或实验室。 此外,研究还发现合著者在2018年、团队在2019年和2021年分别有发文数量的激增,这可能与研究热点或会议投稿的周期有关。 该资源旨在为计算机相关专业学生、教师和企业员工提供一个学习数据挖掘、自然语言处理和关系挖掘的实践案例。项目不仅适合初学者,也可以作为高级作业、课程设计、毕业设计以及项目立项演示的材料。资源鼓励用户进行二次开发,并欢迎分享反馈与建议。 由于涉及的研究是特定于学术领域的,这份资源将特别有益于那些关注人工智能、自然语言处理、数据科学和文献计量学的研究人员和学生。通过这份资源,用户将能更好地理解如何应用关联规则挖掘技术分析复杂的社会网络数据,以及如何通过数据挖掘技术洞察学术合作模式和研究趋势。