互信息-平均互信息

©作者 |公绪蒙

（图片来源网络，侵删）

单位 |北京邮电大学硕士生

来源 |北邮 GAMMA Lab

简介

对比学习（Contrastive Learning）是一种无监督的表示学习方法互信息，其通过数据增强和负采样获得正负样本互信息，并使用目标函数增大正样本对之间的相似度，减小负样本对间的相似度，以获得具有判别性的表征。对比学习常用的损失函数 InfoNCE 如下：

对比学习最早在 CV 中取得了广泛应用，通过对目标样本（图像）进行数据增强(如，旋转，裁剪，加入噪声等)以获得样本的不同 views，以该图像的不同 views 作为正样本，其依赖于一种先验知识，即数据增强不会影响图像的标签，举例来说，对于某个图像来说（比如一个狗狗的图片），无论对其进行旋转，裁剪，加入噪声等各种操作，该图像在人看来还是一只狗，而不会变成汽车，所以数据增强后的图像还可以作为原样本的正样本。

然而，在 Graph 数据中，常见的数据增强方式（如：随机删除/添加边或节点）是否能保证该 Graph 的标签不变呢，举个简单的例子：化学中某些有机物分子可以由原子和化学键组成的 Graph 进行表示，而同分异构体之间具有相同的节点，不同的边，类似的结构，可以看做是对方进行删除/添加边得到的增强图，但同分异构体却通常有着不同的功能和性质（标签）。

也就是说，在图对比学习（Graph Contrastive Learning）中，数据增强给原样本中带来的噪声很有可能改变图的标签，使得学到的图表征效果变差。

在本篇工作中，我们认为，在 GCL 中传统的 Graph Data Augmentation 和固定的视图编码器架构不足以产生具有足够差异性的视图，所以我们提出了图模型增强的概念，图模型增强可以生成更加diverse的视图，并提出了三种不同的模型增强策略，分别是非对称，随机和洗牌策略，并基于这三种策略，提出了一种新的图对比学习模型 MA-GCL（Model Augmentation Graph Contrastive Learning）。

论文标题：

MA-GCL: Model Augmentation Tricks for Graph Contrastive Learning

论文链接：

https://arxiv.org/pdf/2212.07035.pdf

方法介绍

2.1 预备知识

在本篇工作中，我们使用 GNN 作为 view encoder，并且使用一种新的方式来形式化 GNN，GNN 可以由传播和转换两种算子组成，其中传播算子 g 是将图滤波器 F 和节点特征 Z 进行运算得到互信息；而转换算子 h 则是将节点特征 Z 和参数矩阵 W 进行运算并通过非线性转换得到。

以下公式则是利用 h 算子和 g 算子形式化了 GCN 和 SGC 两种常用的 GNN encoders:

2.2 非对称策略

该策略的动机可以由以上韦恩图所展示，红色的圈为与下游任务相关的信息，蓝色和绿色的圈则是对比学习生成的两个视图所包含的信息，当我们采用固定的对称的视图编码器时，如 a 所示，在 InfoNCE loss 的作用下两个视图的互信息，也就是区域 C+D 会被最大化，但是和任务相关的信息只有区域 D，C 也会变大是我们不想要的，而当我们采用非对称的视图架构时，如 b 所示区域 C 也就是和任务无关的噪声会被减少。

该策略的核心思想是两个视图编码器之间具有共享的模型参数，但是传播层数（g 算子数量）不同时，可以过滤高频噪声。当采用 SGC 作为视图编码器，并且假设节点特征为独热向量时，InfoNCE 损失函数可以重写为以下最优化问题的形式：

随后我们证明了定理 1（具体证明可见论文附录），通过定理 1，可以得到一个结论就是当采用非对称的视图编码器时，最优化问题的最优解 W 只由图滤波矩阵和其特征值决定，和 GCL 引入的数据增强无关。相反，如果采用对称的视图编码器结构，可以证明最优解不但和滤波矩阵有关，还和引入的数据增强有关，就会把数据增强中可能对图性质造成破坏的噪声引入到图表征中。

2.3 随机策略

在该策略中，我们在每个训练轮次中随机决定视图编码器中传播算子的数量，在图数据中，每一个样本通过一个有 K 个传播层数的 GNN 可以看做某个节点和他的 K 姐邻居组成的节点树，通过随机策略在每次训练过程中随机 GNN 的传播层数可以看做在每个轮次中随机选择不同高度的节点树作为样本，能够变相的丰富训练样本。

2.4 洗牌策略

洗牌策略则是在训练过程中，随机打乱传播算子和转换算子的排列。当采用的视图编码器中不含有非线性激活函数时，进行洗牌后的两个视图编码器不变，我们证明了洗牌是比传统的图数据增强更安全的增强方式。

2.5 MA-GCL

基于三种模型增强策略，我们提出了一种新的图对比学习模型 MA-GCL，其伪代码如下：

实验

3.1 数据集

我们使用的数据集如表所示，在节点分类任务的六个数据集上进行试验：

3.2 节点分类实验

MA-GCL 在六个节点分类数据集上的五个都取得了 SOTA 的性能。

3.3 消融实验

由消融实验的结果可以看出，我们提出的三种模型增强策略都有效果，其中非对称策略提升效果最为明显。

3.4 动机验证实验

更多阅读

# 投稿通道#

让互信息你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢互信息？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（ pwbot02）快速投稿，备注：姓名-投稿

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

正文

相关阅读

目录[+]