YiKe Blog

more is less

对抗训练

对抗样本的基本概念要认识对抗训练，首先要了解”对抗样本”，它首先出现在论文Intriguing properties of neural networks之中。简单来说，它是指对于人类来说”看起来”几乎一样，但对于模型来说预测结果却完全不一样的样本，比如下面的经典例子（一只熊猫加了点扰动就被识别成了长臂猿）那么，什么样的样本才是好的对抗样本呢？对抗样本一般需要具有两个特点： ...

Posted by YiKe on March 21, 2021

self-attention 的本质

self-attention 的本质就是从一个矩阵生成三个新的矩阵，这三个矩阵分别记作 qkv，然后将 q 乘以 k 的转置，得到的结果再与 v 相乘，再将最后得到的结果送入下游任务。因此实际上任何网络都可以融入 self-attention，生成三个新矩阵的方式也很简单，只需要调用三次 nn.Linear ()。用什么矩阵来生成三个矩阵？随意，比方说 nlp 中可以用 word2vec 的...

Posted by YiKe on March 4, 2021

GraphSAGE&PinSAGE

本文主要讲解两种图采样算法。前面GCN讲解的文章中，我使用的图$G$节点个数非常少，然而在实际问题中，一张图可能节点非常多，因此就没有办法一次性把整张图送入计算资源，所以我们应该使用一种有效的采样算法，从全图$G$中采样出一个子图$g$，这样就可以进行训练了在了解图采样算法前，我们至少应该保证采样后的子图是连通的。例如下图中，左边采样的子图就是连通的，右边的子图不是连通的 Grap...

Posted by YiKe on February 28, 2021

GCN

本文将详细阐述图卷积网络的相关内容。我们首先考虑一个多层图卷积网络（GCN），其层间传播规则如下： \[H^{(l+1)}=\sigma(\color{red}{\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}}H^{(l)}W^{(l)})\] $\tilde{A}=A+I_N$表示图$G$的邻接矩阵$A$加上单位...

Posted by YiKe on February 27, 2021

GNN

Introduction 既然你点进了这篇博客，我就默认你了解图的最基本概念，包括但不限于有向图、无向图的定义，这里我不再多做赘述，下面我只阐述一些比较重要的部分图神经网络是一种直接对图结构进行操作的神经网络。GNN的一个典型应用是节点分类。本质上，图中的每一个节点都与一个标签相关联。如下图所示，a节点的向量表示为[0.3, 0.02, 7, 4, ...]，将该向量送入下游继续做...

Posted by YiKe on February 14, 2021

BEP原理及实现

Byte Pair Encoding 在NLP模型中，输入通常是一个句子，例如"I went to New York last week."，一句话中包含很多单词（token）。传统的做法是将这些单词以空格进行分隔，例如['i', 'went', 'to', 'New', 'York', 'last', 'week']。然而这种做法存在很多问题，例如模型无法通过old, older, ol...

Posted by YiKe on December 3, 2020

XLNet 的 fine-tune 实现

本文主要是基于英文文本关系抽取比赛，讲解如何fine-tune Huggingface的预训练模型，同时可以看作是关系抽取的一个简单案例数据预览训练数据包含两列。第一列是文本，其中<e1></e1>包起来的是第一个实体，<e2></e2>包起来的是第二个实体。第二列是关系，除了”Other”这个关系以外，其它关系都有先后顺序，比方说第一...

Posted by YiKe on August 28, 2020

BERT 的 PyTorch 实现

本文主要介绍一下如何使用 PyTorch 复现BERT。准备数据集这里我并没有用什么大型的数据集，而是手动输入了两个人的对话，主要是为了降低代码阅读难度，我希望读者能更关注模型实现的部分 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36...

Posted by YiKe on August 12, 2020

BERT 的 PyTorch 实现

首先我会详细阐述BERT原理，然后简单介绍一下ELMO以及GPT BERT详解 BERT全称为Bidirectional Encoder Representation from Transformer，是Google以无监督的方式利用大量无标注文本「炼成」的语言模型，其架构为Transformer中的Encoder（BERT=Encoder of Transformer）以往为了解决...

Posted by YiKe on August 11, 2020

transformer 的 PyTorch 实现

B站视频讲解 Transformer是谷歌大脑在2017年底发表的论文attention is all you need中所提出的seq2seq模型。现在已经取得了大范围的应用和扩展，而BERT就是从Transformer中衍生出来的预训练语言模型这篇文章分为以下几个部分 Transformer直观认识 Positional Encoding Self Attentio...

Posted by YiKe on July 19, 2020