微软高级科学家东昱晓解析图表示学习：嵌入、GNNs与预训练方法

需积分: 25 42 浏览量更新于2024-07-15 收藏 15.42MB PDF 举报

微软东昱晓是一位在Redmond微软研究院担任高级应用科学家的专家，他在图表示学习领域有着深厚的研究背景。东昱晓的学术生涯涵盖了广泛的领域，包括数据挖掘、网络科学和计算社会科学，尤其擅长将计算模型应用于解决大规模网络系统的挑战，如Microsoft Academic Graph (MAG)等。他的工作主要聚焦于图嵌入（Embedding）、图神经网络(GNNs)以及预训练技术。图表示学习是一种关键的机器学习方法，它通过将节点或边的信息转化为低维度向量表示，使得复杂的网络结构可以被机器学习算法理解和处理。在这个框架下，GNNs（图形神经网络）作为重要的组成部分，它们模仿神经网络在节点和邻域之间传播信息的方式，能够捕捉到节点之间的复杂关系。图的类型多种多样，包括办公室和社会网络、互联网、知识图谱、生物神经网络以及交通运输网络等，每种图都具有独特的结构特征和模式。图挖掘范式涉及到节点分类、链接预测、社区检测、异常检测、社会影响力分析以及网络演化等多个应用场景。东昱晓的研究还探讨了结构多样性和同质性在超过一百个大型网络中的关系，这有助于深入理解网络数据的内在规律。在图表示学习中，输入通常是一个网络G=(V,E)，其中V是节点集合，E是边集合。输出是每个节点对应的低维向量表示，通常k-dim（k远小于|V|）的实数向量，这被称为节点嵌入。这个过程旨在捕捉节点的局部和全局特性，减少特征工程的工作量，让机器学习模型可以直接处理这些经过转换的数据。东昱晓的联合工作涉及到了多所知名机构的学者，如清华大学的Jiezhong Qiu、Jie Tang和Yizhou Sun，以及UCLA的Ziniu Hu和Hongxia Yang。他们共同研究了从手工设计的特征矩阵到自动学习的潜在特征矩阵的转变，以及如何通过机器学习模型进一步提升图表示学习的效果。东昱晓在微软的研究工作不仅推动了图表示学习在实际应用中的发展，如学术图谱分析和社交网络分析，还在理论层面探索了结构多样性与网络性能的关系，为深度理解网络数据提供了强大的工具和见解。通过结合GNNs和预训练技术，他的研究有助于构建更智能的系统，处理复杂网络环境下的各种挑战。