《Dynamic Graph Information Bottleneck》论文解读

论文传送门:click here

Code:DGIB(github.com)

论文动机

本篇论文是2024WWW上的论文。

这篇论文将信息瓶颈理论创新性地应用于动态图神经网络中,遇上一篇论文类似,文章核心围绕着信息瓶颈理论的——minimal sufficient 特点展开。但动态图具有时间特征,因此在时间特征上的编码一致性是重要的,针对此问题,本文将minimal - sufficient进行扩展,得到Minimal-Sufficient-Consensual (MSC)原则

整体论文架构思路与《Graph Information Bottleneck》论文解读有些相似,但应用于不同场景。本文讲重点介绍思想与区别,一些之前提到过得内容会简单略过。


方法论

$DGIB_{MS}$

与GIB类似,仍然有如下假设:当前节点时空特征只与$k$-hop邻居有关,与其它结点相互独立。

针对最小-充足性特征,编码应该满足:
$$
\mathrm Z^{T+1} =\arg\min_{\mathbb P(Z^{T+1}|\mathcal D ,\theta)\in\Omega}\mathrm{DGIB}_{MS}(\mathcal D,\mathrm Y^{I+1};\mathrm Z^{I+1})
\triangleq\left[- I(\mathrm Y^{T+1};\mathrm Z^{T+1}) +\beta_1 I(\mathrm D;\mathrm Z^{T+1}) \right].
$$
这里是与原始数据 $\mathcal D $ 相比,保留了原始BI理念的特点。

变分界:

$DGIB_{C}$

针对一致性特征,编码应该满足:
$$
\mathrm Z^{T+1} =\arg\min_{\mathbb P(Z^{T+1}|Z^{1:T},C(\theta))\in\Omega}\mathrm{DGIB}_{MS}(Z^{1:T},\mathrm Y^{I+1};\mathrm Z^{I+1})
\triangleq\left[- I(\mathrm Y^{T+1};\mathrm Z^{T+1}) +\beta_1 I(Z^{1:T};\mathrm Z^{T+1}) \right].
$$
这里是与时间尺度上的特征$Z^{1:T}$ 相比,保持了编码空间的一致性。

变分界:

实际应用

交叉熵代替互信息:

假设 $\mathbb P(\hat{\mathrm A}^t\mid\hat{\mathrm Z}^t,\mathrm Z^{t-1},\mathrm A^t)$服从伯努利or类别分布,进而得到 $A$:

假设 $\mathbb P(\mathrm Z^t\mid\hat{\mathrm Z}^t,\mathrm Z^{t-1},\hat{\mathrm A^t})$服从多元正态分布,进而得到 $Z$,其中 $\Phi$是正态分布:

对于Eq(14)而言:

优化目标

优化目标为:
$$
\mathcal L_{\mathrm{DGIB}}=\alpha\mathrm{DGIB}_{MS}+(1-\alpha)\mathrm{DGIB}_C
$$
而两种信息瓶颈的区别就在于已知量是谁:


实验设置与结果

  • 在原始数据集上训练,然后对测试集进行特征或结构的攻击:

  • 使用NETTACK对数据集进行攻击,包括evasion attacking 和 poisoning attacking:

  • 消融实验,探究损失函数中的不同部分对结果的影响(Figure 4)

  • 训练过程中DGIB理论每一部分互信息的变化情况(Figure 5)

  • DGIB中控制最小性和充足性的超参数 $\beta$ 对结果的影响(Figure 6)

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
Runtime Display
  • Copyrights © 2023-2024 Lucas
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

支付宝
微信