YiKe Blog

more is less

对抗训练

对抗样本的基本概念 要认识对抗训练,首先要了解”对抗样本”,它首先出现在论文Intriguing properties of neural networks之中。简单来说,它是指对于人类来说”看起来”几乎一样,但对于模型来说预测结果却完全不一样的样本,比如下面的经典例子(一只熊猫加了点扰动就被识别成了长臂猿) 那么,什么样的样本才是好的对抗样本呢?对抗样本一般需要具有两个特点: ...

self-attention 的本质

self-attention 的本质就是从一个矩阵生成三个新的矩阵,这三个矩阵分别记作 qkv,然后将 q 乘以 k 的转置,得到的结果再与 v 相乘,再将最后得到的结果送入下游任务。因此实际上任何网络都可以融入 self-attention,生成三个新矩阵的方式也很简单,只需要调用三次 nn.Linear ()。用什么矩阵来生成三个矩阵?随意,比方说 nlp 中可以用 word2vec 的...

GraphSAGE&PinSAGE

本文主要讲解两种图采样算法。前面GCN讲解的文章中,我使用的图$G$节点个数非常少,然而在实际问题中,一张图可能节点非常多,因此就没有办法一次性把整张图送入计算资源,所以我们应该使用一种有效的采样算法,从全图$G$中采样出一个子图$g$,这样就可以进行训练了 在了解图采样算法前,我们至少应该保证采样后的子图是连通的。例如下图中,左边采样的子图就是连通的,右边的子图不是连通的 Grap...

GCN

本文将详细阐述图卷积网络的相关内容。我们首先考虑一个多层图卷积网络(GCN),其层间传播规则如下: \[H^{(l+1)}=\sigma(\color{red}{\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}}H^{(l)}W^{(l)})\] $\tilde{A}=A+I_N$表示图$G$的邻接矩阵$A$加上单位...

GNN

Introduction 既然你点进了这篇博客,我就默认你了解图的最基本概念,包括但不限于有向图、无向图的定义,这里我不再多做赘述,下面我只阐述一些比较重要的部分 图神经网络是一种直接对图结构进行操作的神经网络。GNN的一个典型应用是节点分类。本质上,图中的每一个节点都与一个标签相关联。如下图所示,a节点的向量表示为[0.3, 0.02, 7, 4, ...],将该向量送入下游继续做...

BEP原理及实现

Byte Pair Encoding 在NLP模型中,输入通常是一个句子,例如"I went to New York last week.",一句话中包含很多单词(token)。传统的做法是将这些单词以空格进行分隔,例如['i', 'went', 'to', 'New', 'York', 'last', 'week']。然而这种做法存在很多问题,例如模型无法通过old, older, ol...

XLNet 的 fine-tune 实现

本文主要是基于英文文本关系抽取比赛,讲解如何fine-tune Huggingface的预训练模型,同时可以看作是关系抽取的一个简单案例 数据预览 训练数据包含两列。第一列是文本,其中<e1></e1>包起来的是第一个实体,<e2></e2>包起来的是第二个实体。第二列是关系,除了”Other”这个关系以外,其它关系都有先后顺序,比方说第一...

BERT 的 PyTorch 实现

本文主要介绍一下如何使用 PyTorch 复现BERT。 准备数据集 这里我并没有用什么大型的数据集,而是手动输入了两个人的对话,主要是为了降低代码阅读难度,我希望读者能更关注模型实现的部分 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36...

BERT 的 PyTorch 实现

首先我会详细阐述BERT原理,然后简单介绍一下ELMO以及GPT BERT详解 BERT全称为Bidirectional Encoder Representation from Transformer,是Google以无监督的方式利用大量无标注文本「炼成」的语言模型,其架构为Transformer中的Encoder(BERT=Encoder of Transformer) 以往为了解决...

transformer 的 PyTorch 实现

B站视频讲解 Transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的seq2seq模型。现在已经取得了大范围的应用和扩展,而BERT就是从Transformer中衍生出来的预训练语言模型 这篇文章分为以下几个部分 Transformer直观认识 Positional Encoding Self Attentio...