本文目录
- 化学中的trans和cis的区别
- 目前深度学习的模型有哪几种适用于哪些问题
- 为什么说Transformer的注意力机制是相对廉价的注意力机制相对更对于RNN系列及CNN系列算法有何优势
- 什么数学模型或者公式支持了Transformer模型的训练目标
- 数据挖掘技术涉及哪些技术领域
- lstm具有什么特点
- 深度学习会学到哪些算法
- 数控编程里TRANS的意思
- 前缀trans是什么意思
- 为何Transformer论文作者声称“Attention is all you need”
化学中的trans和cis的区别
化学中的trans和cis的区别:
1、概念不同
在化学中,trans是反式异构,cis 是顺式异构。
2、表示的异构体不同
用 trans- 来表示两个相同原子或基团在双键或环的两侧的为反式异构体。
用cis-来表示两个相同原子或基团在双键或环的同侧的为顺式异构体。
3、同种配位体位置不同
顺式指同种配位体处于相邻位置,一般用“顺”或“cis-”表示;反式指同种配位体处于对角位置,一般用“反”或“trans-”表示。配位体在中心原子周围因排列方式不同而产生的异构现象,叫立体异构现象。
扩展资料
顺反异构命名法
两个相同原子或基团在双键或脂环的同侧的为顺式异构体,也用 cis- 来表示。
两个相同原子或基团在双键或脂环的异侧的为反式异构体,也用 trans- 来表示。
两个碳原子上没有全连有四个相同的原子或基团的顺反异构体,既可以用Z-E命名法,也可以用顺反异构命名法。但需要注意的是,顺反异构体的命名与Z-E构型的命名不是完全相同的。这是两种不同的命名法,故顺式不一定就是Z型,反式不一定就是E型。-is
Z-E命名法
国际统一规定:按“顺序规则”分别比较每个碳原子上连接的两个原子或基团,若两个较优基团在π键平面同侧者为Z型异构体,在异侧者为E型异构体。Z和E分别取自德语单词“Zusammen”和“Entgegen”的首位字母,前者意思是“在一起”,后者的意思是“相反,相对”。-c
参考资料来源:百度百科:顺反异构
目前深度学习的模型有哪几种适用于哪些问题
核心有几个
卷积神经网络CNN,用来做图像处理的
循环神经网络RNN,用来处理带顺序关系的数据
对抗生成网络GAN,是一种概率生成模型
transformer注意力模型,用来做序列到序列计算的
更多的是他们的变种。数不清
-is
为什么说Transformer的注意力机制是相对廉价的注意力机制相对更对于RNN系列及CNN系列算法有何优势
QA形式对自然语言处理中注意力机制(Attention)进行总结,并对Transformer进行深入解析。
二、Transformer(Attention Is All You Need)详解
1、Transformer的整体架构是怎样的?由哪些部分组成?
2、Transformer Encoder 与 Transformer Decoder 有哪些不同?
3、Encoder-Decoder attention 与self-attention mechanism有哪些不同?
4、multi-head self-attention mechanism具体的计算过程是怎样的?
5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的?有什么变化?-c
一、Attention机制剖析
1、为什么要引入Attention机制?
根据通用近似定理,前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢?
计算能力的限制:当要记住很多“信息“,模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈。
优化算法的限制:虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,有效缓解模型复杂度和表达能力之间的矛盾;但是,如循环神经网络中的长距离以来问题,信息“记忆”能力并不高。
聚焦式(focus)注意力:自上而下的有意识的注意力,主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力;
显著性(saliency-based)注意力:自下而上的有意识的注意力,被动注意——基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关;可以将max-pooling和门控(gating)机制来近似地看作是自下而上的基于显著性的注意力机制。-is
- Attention机制的实质:寻址(addressing)
- 注意力机制可以分为三步:一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。
- 软性注意力机制(soft Attention)
变种1-硬性注意力:之前提到的注意力是软性注意力,其选择的信息是所有输入信息在注意力 分布下的期望。还有一种注意力是只关注到某一个位置上的信息,叫做硬性注意力(hard attention)。硬性注意力有两种实现方式:(1)一种是选取最高概率的输入信息;(2)另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力模型的缺点:-is
- 硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导,因此无法使用在反向传播算法进行训练。为了使用反向传播算法,一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》
变种2-键值对注意力:即上图右边的键值对模式,此时Key!=Value,注意力函数变为:
变种3-多头注意力:多头注意力(multi-head attention)是利用多个查询Q = [q1, · · · , qM],来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分,然后再进行拼接:-c
- 基于卷积网络和循环网络的变长序列编码
- 如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一 种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络。 ——《神经网络与深度学习》
- 全连接模型和自注意力模型:实线表示为可学习的权重,虚线表示动态生成的权重。
- self-Attention计算过程剖解(来自《细讲 | Attention Is All You Need 》)
- Transformer模型架构
- Seq2Seq模型
- Transformer Encoder
sub-layer-1:multi-head self-attention mechanism,用来进行self-attention。
sub-layer-2:Position-wise Feed-forward Networks,简单的全连接网络,对每个position的向量分别进行相同的操作,包括两个线性变换和一个ReLU激活输出(输入输出层的维度都为512,中间层为2048):-c
- Transformer Decoder
sub-layer-1:Masked multi-head self-attention mechanism,用来进行self-attention,与Encoder不同:由于是序列生成过程,所以在时刻 i 的时候,大于 i 的时刻都没有结果,只有小于 i 的时刻有结果,因此需要做Mask。-is
sub-layer-2:Position-wise Feed-forward Networks,同Encoder。
sub-layer-3:Encoder-Decoder attention计算。
- ## Multihead Attention ( self-attention)
- self.dec = multihead_attention(queries=self.dec,
- keys=self.dec,
- num_units=hp.hidden_units,
- num_heads=hp.num_heads,
- dropout_rate=hp.dropout_rate,
- is_training=is_training,
- causality=True,
- scope=“self_attention“)
- ## Multihead Attention ( Encoder-Decoder attention)
- self.dec = multihead_attention(queries=self.dec,
- keys=self.enc,
- num_units=hp.hidden_units,
- num_heads=hp.num_heads,
- dropout_rate=hp.dropout_rate,
- is_training=is_training,
- causality=False,
- scope=“vanilla_attention“)
- multi-head self-attention mechanism计算过程
Expand:实际上是经过线性变换,生成Q、K、V三个向量;
Split heads: 进行分头操作,在原文中将原来每个位置512维度分成8个head,每个head维度变为64;
Self Attention:对每个head进行Self Attention,具体过程和第一部分介绍的一致;
Concat heads:对进行完Self Attention每个head进行拼接;
GPT中训练的是单向语言模型,其实就是直接应用Transformer Decoder;
Bert中训练的是双向语言模型,应用了Transformer Encoder部分,不过在Encoder基础上还做了Masked操作;
可以借助人脑处理信息过载的方式,例如Attention机制可以提高神经网络处理信息的能力。
2、Attention机制有哪些?(怎么分类?)
当用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制,只 选择一些关键的信息输入进行处理,来提高神经网络的效率。按照认知神经学中的注意力,可以总体上分为两类:
在人工神经网络中,注意力机制一般就特指聚焦式注意力。
3、Attention机制的计算流程是怎样的?
Attention机制的实质其实就是一个寻址(addressing)的过程,如上图所示:给定一个和任务相关的查询Query向量 q,通过计算与Key的注意力分布并附加在Value上,从而计算Attention Value,这个过程实际上是Attention机制缓解神经网络模型复杂度的体现:不需要将所有的N个输入信息都输入到神经网络进行计算,只需要从X中选择一些和任务相关的信息输入给神经网络。-c
step1-信息输入:用X = [x1, · · · , xN ]表示N 个输入信息;
step2-注意力分布计算:令Key=Value=X,则可以给出注意力分布
我们将 称之为注意力分布(概率分布), 为注意力打分机制,有几种打分机制:
step3-信息加权平均:注意力分布 可以解释为在上下文查询q时,第i个信息受关注的程度,采用一种“软性”的信息选择机制对输入信息X进行编码为:
这种编码方式为软性注意力机制(soft Attention),软性注意力机制有两种:普通模式(Key=Value=X)和键值对模式(Key!=Value)。
4、Attention机制的变种有哪些?
与普通的Attention机制(上图左)相比,Attention机制有哪些变种呢?
5、一种强大的Attention机制:为什么自注意力模型(self-Attention model)在长距离序列中如此强大?
(1)卷积或循环神经网络难道不能处理长距离序列吗?
当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列,如图所示:
从上图可以看出,无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络,由于梯度消失等问题也只能建立短距离依赖。
(2)要解决这种短距离依赖的“局部编码”问题,从而对输入序列建立长距离依赖关系,有哪些办法呢?
由上图可以看出,全连接网络虽然是一种非常直接的建模远距离依赖的模型, 但是无法处理变长的输入序列。不同的输入长度,其连接权重的大小也是不同的。
这时我们就可以利用注意力机制来“动态”地生成不同连接的权重,这就是自注意力模型(self-attention model)。由于自注意力模型的权重是动态生成的,因此可以处理变长的信息序列。
总体来说,为什么自注意力模型(self-Attention model)如此强大:利用注意力机制来“动态”地生成不同连接的权重,从而处理变长的信息序列。
(3)自注意力模型(self-Attention model)具体的计算流程是怎样的呢?
同样,给出信息输入:用X = [x1, · · · , xN ]表示N 个输入信息;通过线性变换得到为查询向量序列,键向量序列和值向量序列:
上面的公式可以看出,self-Attention中的Q是对自身(self)输入的变换,而在传统的Attention中,Q来自于外部。
注意力计算公式为:
自注意力模型(self-Attention model)中,通常使用缩放点积来作为注意力打分函数,输出向量序列可以写为:
二、Transformer(Attention Is All You Need)详解
从Transformer这篇论文的题目可以看出,Transformer的核心就是Attention,这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer,如果对上面的Attention机制特别是自注意力模型(self-Attention model)理解后,Transformer就很容易理解了。-is
1、Transformer的整体架构是怎样的?由哪些部分组成?
Transformer其实这就是一个Seq2Seq模型,左边一个encoder把输入读进去,右边一个decoder得到输出:
Transformer=Transformer Encoder+Transformer Decoder
(1)Transformer Encoder(N=6层,每层包括2个sub-layers):
每个sub-layer都使用了残差网络:
(2)Transformer Decoder(N=6层,每层包括3个sub-layers):
2、Transformer Encoder 与 Transformer Decoder 有哪些不同?
(1)multi-head self-attention mechanism不同,Encoder中不需要使用Masked,而Decoder中需要使用Masked;
(2)Decoder中多了一层Encoder-Decoder attention,这与 self-attention mechanism不同。
3、Encoder-Decoder attention 与self-attention mechanism有哪些不同?
它们都是用了 multi-head计算,不过Encoder-Decoder attention采用传统的attention机制,其中的Query是self-attention mechanism已经计算出的上一时间i处的编码值,Key和Value都是Encoder的输出,这与self-attention mechanism不同。代码中具体体现:-c
4、multi-head self-attention mechanism具体的计算过程是怎样的?
Transformer中的Attention机制由Scaled Dot-Product Attention和Multi-Head Attention组成,上图给出了整体流程。下面具体介绍各个环节:
上述过程公式为:
5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的?有什么变化?
BERT Transformer 使用双向self-attention,而GPT Transformer 使用受限制的self-attention,其中每个token只能处理其左侧的上下文。双向 Transformer 通常被称为“Transformer encoder”,而左侧上下文被称为“Transformer decoder”,decoder是不能获要预测的信息的。-is
什么数学模型或者公式支持了Transformer模型的训练目标
Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性数学思维下来完成的。Encoder-Decoder架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现;基于Transformer各种模型变种及实践也都是基于Bayesian思想指导下来应对数据的不确定性;混合使用各种类型的Embeddings来提供更好Prior信息其实是应用Bayesian思想来集成处理信息表达的不确定性、各种现代NLP比赛中高分的作品也大多是通过集成RoBERTa、GPT、ELECTRA、XLNET等Transformer模型等来尽力从最大程度来对抗模型信息表示和推理的不确定性。
从数学原理的角度来说,传统Machine Learning及Deep learning算法训练的目标函数一般是基于Naive Bayes数学原理下的最大似然估计MLE和最大后验概率MAP来实现,其核心是寻找出最佳的模型参数;而Bayesian的核心是通过计算后验概率Posterior的predictive distribution,其通过提供模型的不确定来更好的表达信息及应对不确定性。对于Bayesian架构而言,多视角的先验概率Prior知识是基础,在只有小数据甚至没有数据的时候是主要依赖模型Prior概率分布(例如经典的高斯分布)来进行模型推理,随着数据的增加,多个模型会不断更新每个模型的参数来更加趋近真实数据的模型概率分布;与此同时,由于(理论上)集成所有的模型参数来进行Inference,所以Bayesian神经网络能够基于概率对结果的提供基于置信度Confidence的分布区间,从而在各种推理任务中更好的掌握数据的不确定性。
-c
数据挖掘技术涉及哪些技术领域
数据挖掘的技术有很多种,按照不同的分类有不同的分类法,大致有十三种常用的数据挖掘的技术。
1、统计技术
2、关联规则
3、基于历史的MBR(Memory-based Reasoning)分析
4、遗传算法GA(Genetic Algorithms)
5、聚集检测
6、连接分析
7、决策树
8、神经网络
9、粗糙集
10、模糊集
11、回归分析
12、差别分析
13、概念描述
由于人们急切需要将存在于数据库和其他信息库中的数据转化为有用的知识,因而数据挖掘被认为是一门新兴的、非常重要的、具有广阔应用前景和富有挑战性的研究领域,并应起了众多学科(如数据库、人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、机器学习、信息检索、神经网络、模式识别、高性能计算机等)研究者的广泛注意。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。
如果对数据挖掘的学习有疑问的话,推荐CDA数据分析师的课程,它安排了Sklearn/LightGBM、Tensorflow/PyTorch、Transformer等工具的应用实现,并根据输出的结果分析业务需求,为进行合理、有效的策略优化提供数据支撑。课程培养学员硬性的数据挖掘理论与Python数据挖掘算法技能的同时,还兼顾培养学员软性数据治理思维、商业策略优化思维、挖掘经营思维、算法思维、预测分析思维,全方位提升学员的数据洞察力。点击预约免费试听课。
-is
lstm具有什么特点
LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络(RNN),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。 LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。
工作原理
LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。
一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
说起来无非就是一进二出的工作原理,却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明,LSTM是解决长序依赖问题的有效技术,并且这种技术的普适性非常高,导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本,这就让LSTM可以处理千变万化的垂直问题。
-c
深度学习会学到哪些算法
深度学习就一个神经网络
很难说里面有什么算法, 但是里面细节很多很多
比如优化模型就有很多,优化算法就有很多种,这就意味着你可以调参
另外模型也有一大把
比如CNN,RNN, LSTM, GAN, transformer, 以及它们的改进,太多了
建议你慢慢入门
-is
数控编程里TRANS的意思
TRANS和ATRANS是在西门子系统里用来控制坐标平移的命令。
其功能和FANUC里的G52类似。
TRANS表示相对于当前所调用的G54-G59中有效坐标系的坐标原点进行绝对平移,指令为TRANS X_ Y_ Z_
ATRANS与TRANS的区别在于ATRANS是相对于当前有效坐标点或已经偏移后的编程零点进行增量平移。
-c
前缀trans是什么意思
前缀trans有两个意思:
1.表示“转变“、“变换“。例如:transport(运输---从一地转到另一地) transplant(移植)translation(翻译---从一种语言转为另一种语言)trans- form(使变形,改造)。-is
2.表示“超过“、“横跨“、“超“。例如:transcentury(跨世纪)transnational(跨国的)transcontinental(横跨大陆的) transatlantic(横跨大西洋的)。-c
拓展资料
前缀,即在词根(如:union联合)前加上特有的一个缀文(如:re-)使之成为另一个新的词汇并具有新的含义(如:reunion团圆,重聚)。
常见的前缀有:
ⅰ.前缀re-
re-是最常用的前缀之一。它可以加在名词或动词前面,构成新的名词或动词。re-表示以下三方面的意义:
1.表示“回“或“向后“的意思。例如:return(回来,返回)recall(回忆,召回)retract(缩回,取回)
2.表示“再“、“重新“、“重复“的意思。例如:review(复习)reunion(团圆,重聚)restart(重新开始)reconstruction(重建)
3.表示“相反“、“反对“的意思。例如:rebel(反叛,谋反)reverse(反转,颠倒)resist(反抗,抵抗)
ⅱ.前缀de-与dis-
前缀de-来自拉丁语,意为“away from“,所以这个前缀的意义之一就是“离开“、“出“。它构成的词有一定规律性,常表“离开“这一深层概念,而且常与介词from等搭配,
例如:dethrone(废黜) deport(驱逐出境)deduce(推断) derail(脱轨) delete his name from the list of members.把他的名字从成员名单上除去。 the train will depart from platform -is
另外,前缀de-还表示“除去“、“取消“以及“否定“、“非“、“相反“的意思。例如:decamp(撤营)decode(解码)deforest(砍伐森林)decolonize(非殖民化) devaluation(贬值) he has been degraded from public office.他已经被解除公职。 he descended from his taxi.他下了出租车。 -c
前缀dis-与前缀de-同源,也来自拉丁语,原义为apart“分开“。dis-具有“不“、“无“的意思,所以加在某些动词或名词前构成反义词。例如:dishonest(不诚实的)disappear(不见,消失) disorder(无秩序,混乱) dis-还表示“取消“、“除去“以及“分开“、“离“、“散“的意思。由这些意义构成的词常与from等搭配。-is
例如: he discounted 15%from the price of a car.他把汽车价格打八五折。 don’tdistracthis mind from his work.不要分散他工作的注意力。 -c
另外,dis-也可表示“相反动作“或加强意义,由它构成的词也常与from等搭配,下面例子都表示“相反动作“。 disappear from the view 消失不见 he was discharged from hospital.他出院了。 -is
ⅲ.前缀in-及im-,il-,ir- 它们像同胞四兄弟,都是表示否定的前缀。表示“不、无、非“等否定意义。
1.以字母b,m,p开头的单词,其否定前缀为im-。例如:imbalance(不平衡的)immoral(不道德的)impossible(不可能的)
2.以字母l开头的单词用il-;以字母r开头的单词用ir-。例如:illegal(不合法的)illogical(不合逻辑的)irregular(不规则的)irrelative(无关系的)
3.以其他字母开头的为in-。例如: inhuman(不人道的)injustice(不分开的)inseparable(不可分的)incorrect(不正确的) ⅳ.前缀ex-
为何Transformer论文作者声称“Attention is all you need”
详解Transformer (论文Attention Is All You Need). 正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。. 更准确地讲,Transformer由且
-c