transformer是什么

AI　2024/3/24 11:07:15　　点击：不统计

先看下官方的说明：

Transformer模型现在已经是大语言模型搭建的主流框架，其由谷歌团队在2017年发表的论文《Attention is All You Need》，是一个利用注意力机制来提高模型训练速度的模型，因其适用于并行化计算以及本身模型的复杂程度使其在精度和性能上都要高于之前流行的循环神经网络。

下面通过中简单描述，理解下transhformer

1. 通俗的讲，它是变形，对于语言来说就是翻译。

将一种语言翻译成另一种语言的基础技术结构程序。

2.翻译，RNN 可用按单词 1:N ,N:N, 1:1,N:1 的形式，但在我们计算机中，要实现比如，对一段话的总结，为M:N，或者对一段话进行解释，则是N:M。那么怎么实现不匹配式的翻译呢，transhformer 经过多次的迭代，实现了N:M的翻译。

3.原理，先编码，再计算，再解码。

（1）有编码encoder和解码decoder 两个过程的集合。

编码和解码，都不是一步完成的，可能需要n多步骤进行。

（2）每个编码步骤，可用分为前馈网络和自注意机制。

（3）每个解码步骤，可用分为自注意力机制，编码注意和前馈网络。

4. 名词解释

（1）前馈网络

Feed Forward 层比较简单，包括一个两层的全连接网络和一个非线性激活函数。两层的全连接网络实现两次线性变换，第一层使用激活函数(通常为RELU),第二层不使用激活函数。

（2）自注意力机制

语言模型的核心思想是理解自然语言内部的结构、模式和关联关系。通过建模语句中单词(Token)之间的关系，我们可以捕捉到语句的上下文和含义。自注意力作为一种沟通机制，用来帮助建立这些关系，以概率分数表示。

这篇文章讲的很详细：https://zhuanlan.zhihu.com/p/681604237