本文共 1167 字,大约阅读时间需要 3 分钟。
节点的度是衡量一个节点拥有多少邻居的数量。
节点度仅衡量节点的邻居数量,但并不足以反映节点在图中的重要性。
特征向量中心性考虑了一个节点的邻居的重要性。通过递推关系定义,节点中心性与其邻居的平均中心性成比例。实际上是求一个向量 ( e ),满足 ( \lambda e = A e ),其中 ( \lambda ) 是邻接矩阵 ( A ) 的最大特征值。
测量一个节点位于其他两个节点之间的最短路径上的频率。具有较高中介中心性的节点通常是核心成员。
测量节点与图中其他节点之间的平均最短路径长度。接近中心性更接近几何上的中心位置。
聚类系数衡量一个节点的邻域聚类程度。当聚类系数为1时,表示节点的所有邻居彼此相连。
最简单的图级特征定义方法是基于节点级统计信息的聚合。例如,使用节点的度、中心性和聚集系数计算直方图或其他汇总统计信息。
通过迭代邻域聚合策略提取节点级特征。WL算法的核心思想是:
另一种方法是计算特定大小的所有可能子图结构(称为graphlets)的出现次数。基于路径的方法则不需要枚举所有子图,而是检查图中不同类型路径的出现情况。
2.1中介绍的特征和统计信息虽然对分类任务有用,但无法量化节点间关系。邻域重叠度量试图弥补这一不足。
最简单的度量是计算两个节点共享的邻居数量 ( S[u,v] = |N(u) \cap N(v)| )。其他方法包括索尔顿指数、Jaccard重叠和资源分配指标等。
局部方法仅考虑邻域重叠,可能忽略图中其他关系。全局重叠度量(如Katz指数)考虑节点邻居的重要性,通过赋予邻居不同的权重来区分不同路径的影响力。
最常见的图拉普拉斯矩阵是无标准化的拉普拉斯矩阵 ( L = D - A ),其中 ( D ) 是度矩阵,( A ) 是邻接矩阵。
切割是计算边跨越节点划分之间的数量。RatioCut和Normalized Cut是常用的切割方法,分别通过最小化或最大化子图大小来优化切割。
基于拉普拉斯矩阵的谱方法可以有效地进行图聚类。通过计算节点的特征向量,可以发现数据中的潜在结构。
转载地址:http://laoa.baihongyu.com/