图模块

PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks

这里要做的图卷积，

先导知识

这篇论文用的图神经网络，用的是GLCN，所以有必要先学习一下GLCN：

GLCN

PICK用的图卷积，参考的是Jiang Bo的《GLCN：Semi-supervised learning with graph learning-convolutional networks 2019》，2，这个网络是为了。。。todo

GLCN的主要优点是能将给定的标签和估计的标签合并在一起，因此可以提供有用的“弱”监督信息来改进（或学习）图的结构，并且便于在未知标签估计中使用图卷积运算。作者提出的GLCN的一个目的是通过集成图学习和图卷积，希望能通过半监督的方式学习到最优的图结构，以用于后续的相关任务。

我们来简短说明一下GLCN：

GLCN主要是两块：图学习、图卷积。

图学习是为了学出邻接矩阵，图卷积是为了学出节点的向量表达。

【A、图学习】

它定义了一个$S_{ij}$，表示节点$x_i$和$x_j$之间关系的强度，他是靠一个神经网络算出来的，如下：

$x_i$维度为$\mathbb R^{n \times p}$
$a^T$维度为$\mathbb R^p$

其中$a^T$就是参数，干嘛不写成$W$，好讨厌。你看！其实就是一个很简单的神经网络。这个网络就把每个节点和其他节点的强度就都算了一遍，通过它，就可以得到整张图的关系强弱的邻接矩阵了，对吧？

是神经网络，就得有loss，对吧，来了：

看着挺复杂，别怕，我来说说：$\gamma$是超参不管他；$\Vert S \Vert_F$，S的范数？可为何多了一个F，原来这个叫做Frobenius范数，就是向量的范数差不多一个意思，只不过用来算矩阵的。前面的不用说了把，就是$x1，x2$的欧氏距离。这个损失函数的你应该立刻可以理解了，就是尽量让这个学习出来的网络，具备这样的特性：$x1，x2$远，$S$就大，或者反过来。而后面的F范数，据说是为了让$S$矩阵尽量稀硫，稀硫啥意思？就是为了让大部分都为0，就关系强烈的有值呗。但是为何这样约束，就可以稀硫，真心母鸡。

这里有个细节，一般“损失”函数，得有损失啊，损失是啥？损失就是真实标签和预测结果的差啊。可是，这里，谁是标签？谁是预测结果呢？标签就是$\Vert x_1 - x_2 \Vert$，对，$x1,x2$是已知的啊，他们的欧氏距离其实就是标签啊。那预测结果呢？那预测结果就是$S$呀，尽量约束$S$达到最优。

不过，GLCN又进一步考虑了$A_{ij}$，我不知道这个$A_{ij}$哪里来的？是开始有个初始关系么？然后每次带入就不变这个$A_{ij}$么？还是说，这个$A_{ij}$，也是动态变的？每次学习过程中，都会跟着变，也就是这个网络计算后的结果？毕竟这个网络就是为了算这个$A_{ij}$的。我其实更倾向于后者，原因是，你看他引入了$A_{ij}$之后的损失函数里，是包含了这个$A$的，说明这个$A$是动态变的。

For some problems, when an initial graph A is available, we can incorporate it in our graph learning

然后，随之损失函数，也要考虑新引入的$A$:

好，到此为止，前面都是在讲啥？讲的是，如何学一个神经网络，是一个全连接的神经网络，用它，可以学出一个描述这个图的节点们之间关系的稀硫关系矩阵来。

接下来，是论文中所说的，图卷积了

【B、图卷积】

对，接下来做图卷积了，我们都知道最最最经典的GCN概念，就是基于邻接矩阵做的经典谱域的卷积的那套思路。

现在我们有邻接矩阵了啊，就是S啊，而且，我们也不用经典GCN中的规范化的动作了，所以我们的图卷积公式就变成了：

恩， $X$就是节点的$d$维度的节点表达向量，然后你就可以，迭代$k+1$轮，不断地训练了。

稳定下来，你就学到到了一个整个图中，每个节点的向量表达。

2) 图卷积

图卷积的时候，你总是要用节点信息，或者节点+边信息，但是，这篇论文里用的是，节点+边+节点，3元组的信息。

其中的边，还很特殊，它管他叫$\alpha_{ij}$，这样的3元组就是节点-边-节点：$(vi,\alpha_{ij},v_j)$,

那么这个边到底是怎么定义的呢？是一个6维的向量，然后乘以参数$W$，学出来的。那这个6维，可是我们自己规定出来的，是特征工程出来，

\[\alpha_{ij}^0 = W^0_{\alpha} [ x_{ij},y_{ij},\frac{w_i}{h_i},\frac{h_j}{h_i},\frac{w_j}{h_i},\frac{T_j}{T_i} ]\]

这个六维分别是：两框bbox的长度、宽度、高度、以及字符长度，这些特征，都是很好的描述俩框直接的关系的，在我眼里。比如最后一个$\frac{T_j}{T_i}$，他举了个例子，就是适合比如年龄这种，也就1-2位长度数字的约束。

PICK的思路

好了，前面前导知识够了，我们可以开始理解PICK了。

PICK网络，整体上来说，就是4步：

1、做Transformer，得到一个框内文字的语义表达

2、做CNN，得到一个框的图像表达

3、合并1、2的表达，然后用它们，组成一个图，通过GLCN来学些节点（框）的关系 => 邻接矩阵

4、通过有边、顶点的原始表达（1、2表达的合并），然后通过考虑其他特性 $\alpha(6维)$，一起进行图卷积，学出一个图节点们的隐含表达$h_i$。

5、然后把一个框的表达，也就是上面说的“原始表达”（1、2表达的合并），

李宏毅老师说过，最主要的是搞清楚每个环节入和出的shape，基本上你对网络的细节也就比较了解了。

我们来捋捋这个网络的输入输出走向。

1、Transformer的输入是每个句子，每个字都是一个word2vec（字的vector吗？），所以输入是：$[T,D_1]$；输出是经过transformer学习后的$[T,D_2]$

2、CNN，就每个小bbox的图片$[H,W,3]$，过这个CNN，然后得到一个，$[H’,W’,D_1]$，但是貌似论文做了一个resize成$[H’‘,W’‘,D_1]，且, H’’*W’‘=T$，哈，诡异哈？！我理解，就是为了后面和1中的Transformer的结果做element-wise add用。

3、然后你从$1 \odot 2$的bboxes们中，抽样出一个图？为何要抽样？为何不用完全的一张图？！不知，没懂。反正你就理解，丫是一张图。这张图的节点都是光秃秃的，没有边的关系，每个点上，也就是每个bbox，有个$1 \odot 2$合体的embeding表示：$[N’,T,D_1]$，$N’$是抽样出来的数量。

4、然后你要通过GLCN来进行“Graph Learning”，来学习节点间是不是有关系了？怎么学？就是算2个节点之间的距离。2个节点的值是固定的，不变的。是从$1 \odot 2$中得到的那个element-wise add