transformer模型（人工智能的快速发展会给以后的社会和人类带来哪些机遇和挑战）

本文目录

人工智能的快速发展会给以后的社会和人类带来哪些机遇和挑战
学习深度学习是否要先学习机器学习
这一波人工智能泡沫将会怎么破灭
你如何理解transformer模型
如何看待智能写作人工智能会超越人类吗
NLP预训练模型的研究进展有哪些
Transformer是什么，有什么用
是否存在通用的神经网络模型，可以处理图像，语音以及NLP

人工智能的快速发展会给以后的社会和人类带来哪些机遇和挑战

人工智能革命归根结底是算力的革命。

为了能够让读者对人工智能有一个相对清晰的印象，我打算先聊一些人工智能是什么，然后再聊具体的机遇和挑战。

如上文所讲，人工智能革命归根结底是算力的革命。何为算力？就是做1+1=2的能力，就是简单地做加法的能力，更复杂的计算都会转化为加法的计算。人工智能就是基于这个最微观的能力建立起来的大厦，这次的革命就是以GPU和TPU的算力的兴起为代表。所有的研究问题都可以看做一种优化，就是给出一个模型，这个模型有一些参数没办法确定，然后通过计算对这些参数进行优化，最终让这个模型的预测结果最好地符合观测数据。所以，计算就是优化。-transformer模型

（图源：

学习深度学习是否要先学习机器学习

针对这个问题，我的总体建议就是：

本着大处着眼小处着手的学习原则，顺藤摸瓜，展开学习。

不老在门口徘徊，一脚先进去，然后定位自己需要的知识点，进行聚焦学习。

首先比较下两者的区别

机器学习与深度学习有什么区别？

两者的关系是：人工智能AI包括机器学习，机器学习包括深度学习。

额外也提一下数据挖掘，大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。所以我们看到机器学习跟深度学习都是数据挖掘的方法。

什么是机器学习？

机器学习(Machine Learning，ML)是人工智能的子领域，也是人工智能的核心。机器学习是一门交叉学科，综合利用概率论知识，统计学知识，近似理论知识和复杂算法知识，模拟人类的思考解决问题的方式，达到充分利用计算机超强运算能力协助人类解决问题的目的。-transformer模型

什么是深度学习？

深度学习(DeepLearning，DL)属于机器学习的子类。是利用深度神经网络来解决特征表达的一种学习过程。深度学习(DL, Deep Learning)是机器学习一个新的研究方向，使用更加抽象的算法来模拟人的大脑的决策学习过程。它的最终目标是让机器能够像人一样具有分析学习能力。-transformer模型

机器学习与深度学习的比较

深度学习在搜索技术、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术等待领域取得了很多成果。我们平常把深度学习跟机器学习混在一块的，这也没什么不妥。

1、检验算法的成熟度

机器学习，通过调整得到的算法一般是准确，并完全可控的，可以比较快得到高成熟度的算法。

一般来说，深度学习算法需要大量时间进行训练。这是因为该算法包含有很多参数，因此训练它们需要比平时更长的时间。所以深度学习的算法成熟度，跟不确定性，需要更长时间。

2、解决问题的过程

机器学习算法遵循标准程序以解决问题。计算过程是可以解释的、按流程进行的。

深度学习的数据处理过程则是黑盒子方式，需要通过不停的调整训练。

两者的基础概念相通的地方很多

最终如果掌握了深度学习，肯定也掌握了机器学习。学习的过程不一定是要求把所有机器学习模型通通掌握，而是理解一些基本概念，比如监督学习(supervised learning)，无监督学习(unsupervised leaning)，训练(training)，测试(testing)，泛化(generalization)等。这些概念都是通用的。-transformer模型

大处着眼小处着手的学习原则

如果要学习深度学习，网上有很多深入浅出的文章跟公开课可以学习快速有个总体概念。

了解需要的预备知识。不能始终在门口徘徊。可以先一脚进去看看，里面有什么。

如果入门了，就要开始聚焦一个专业细分领域了。

因为涉及的概念太多，要迅速搜集信息，让自己尽快定位到需要专注学习的细分方向上。

把不太懂的地方都展开学习，就可以顺藤摸瓜。

总之，要聚焦问题，让自己的学习更加高效，有针对性。

这一波人工智能泡沫将会怎么破灭

我国的人工智能才刚起步，最多只能说做了一些基础性工作，如语言识别，智能机器人、无人驾驶、深度学习、计算机视觉等等，远没达到预期目标，与日本、美国等西方国家还有很大差距，所以也谈不上什么泡沫破灭。

就拿题主所说的深度学习为例。深度学习的技术原理定义如下：

”1.构建一个网络并且随机初始化所有连接的权重；

2.将大量的数据情况输出到这个网络中；

3.网络处理这些动作并且进行学习；

4.如果这个动作符合指定的动作，将会增强权重，如果不符合，将会降低权重；

5.系统通过如上过程调整权重；

6.在成千上万次的学习之后，超过人类的表现；”

网络机器人。如果深度学习成功，机器人可以代替人类进行涉及安全的生产活动，如，具有核幅射的加工实验、矿山的井下劳动、高空作业等等重复性工作。现在基本没做到。

一些研究机构热衷于象棋、围棋的深度学习，并频发论文，以示突破。这只是简单的理论。

前一段时间，核工业的一个公司，为了简验核材料的一些属性，找到我们公司，要买一套加工设备，附加机器人自动上料、卡装、加工、取料、回收一整套系统。这其中的每一步操作都要准确无误，在一个封闭的屋子完成。

我们找了几家机器人研发公司、深度学习做的很有成就的公司、国内卡具专业公司，希望一起作此项目，但大都没有实战能力，或者没有技术储备。

这件事情从一个侧面说明，我们的理论是肤浅的，没有真正地深入到需要它的领域。真正在一线工地上从事重复劳动、日夜奋战的工人师傅，他们急需要被具有”深度学习”水准的机器人所替代。

深度学习，在成千上万次的学习之后，超过人类的表现。很容易做到吗？

国产扫地机的表现，可能大家都很失望。按照成熟的深度学习的原理，一个扫地机，工作在一个网络里，这没问题。在对整个屋子进行了长达一年多的学习之后，依然是懵懵懂懂，要么跑到地毯上动不了，要么在桌、椅腿之间卡住了，要么吭哧吭哧地一定要爬上障碍物。-transformer模型

深度学习，绝不是几个数学算法那么简单，一定要应用于实际解决问题，从一个行业，扩展到大多行业，逐渐使产品成熟，达到为人民服务的目的。

随着我国经济的高速发展，人民生活进入全面小康，对人工智能有着迫切的需要。

一些老年人乘公共交通，如何刷卡，或经常忘带卡，是经常遇到的事，如果到处都能支持人脸识别，并且与银行帐户挂钩，还会有此烦恼吗？

垃圾分类，现在基本靠人来手动分拣，如果能根据AI的计算机视觉原理，让机器自动分拣，岂不又快又卫生、又节省人力？

随便都能想很多AI的用途，关键在于落地，把理论用于实践中。

总结：深度学习只是AI的一个分枝。AI的语言识别、智能机器人、无人驾驶、计算机视觉等等诸多分枝也需要广大科研工作者潜心细致的研究并使其产业化。

技术需要螺旋式提高，尚未深入研究技术，就认为有泡沫，是很肤浅的、非专业的表现。需要在某一领域沉下心来，深入研究，争创世界一流，才是广大AI科研工作者应有的态度。

你如何理解transformer模型

Transformer是Google在2017年发表的论文《Attention is all you need》中提出的模型。其中使用了self-attention来替代此前的RNN和CNN对序列的编码方式，从而实现更快的并行训练以及更优的序列表示。-transformer模型

模型中有以下几个特点：

1）为了能够捕获序列中的绝对位置和相对位置关系，在对序列的表示中加入了位置编码，其编码公示如下：其中pos表示序列的位置，dmodel为表示维度。这里使用了三角函数来表示是因为pos+k的位置编码可以由pos的线形变换表示出来，从而蕴涵了相对位置信息，计算公式如下。-transformer模型

2）Multi-head的Self-Attention。Self-Attention能够对句子进行编码，其中的self指的就是Q=K=V，即序列自己对自己进行Attention的编码，从而能捕获到序列中的语义信息，计算的公式如下。-transformer模型

这里加入了multi-head的做法是基于一个词语会存在诸多语义，而在不同的语义空间中，对句子的编码结果也会显著不同。因此在进行self-attention之前先对输入做线形变换，然后按照编码维度切分成h份，分别进行序列编码，再将结果拼接在一起。-transformer模型

3）为加速网络的训练，还在模型中加入了Layer Normalization以及残差连接。此外为了防止模型出现过拟合，还引入了dropout以及label smoothing，从而让模型更具鲁棒性。

4）Transformer相比于RNN和CNN的计算复杂度更低，而且利用self-attention使得在对序列进行编码时，最大的长度仅为1，避免了长程依赖的问题。而RNN则序列的长度n，CNN也得受限于卷积的感受野。因此Transformer有望替代RNN，成为对序列编码的标配。-transformer模型

如何看待智能写作人工智能会超越人类吗

关于人工智能会取代人类工作多少的争论甚嚣尘上，但无论如何，我们不得不承认，取代已经变成了“大势所趋”，只是不同的行业不同的工种，被取代的程度和时间不同而已。近两年，人工智能的出现在很多领域，都引起了很多讨论，包括很多工厂现在也在慢慢引入一些机器人，去做一些重复性很强，工作强度很大的工作，也逐渐淘汰了部分人员，由机器人替代。朋友们，当我们面对人工智能时代，我们需要多一些思考，去做点什么，迎接真正AI智能时代的到来。-transformer模型

文字这东西，尤其是思考性非常强的，表达人类特有情绪和音符之类的东西，是最难被高科技所替代的。作家一两句妙语，是人工智能所不能领会的，何况整本大作呢。现实情况是，那么多不用动什么脑子的工作，科技都还没有完全替代，至于人思考的部分，有关意识的东西，连科学都还没办法解释人脑的运作，既然科学都没办法逻辑化，模块化，它又如何能让人工智能去解读，去拼写相关文字呢，尤其是富涵了人生阅历和情感的文字，人工智能是更加无法体会和揣摩的。-transformer模型

现在一些文字作品，比如股票分析类文章，比如现场直播些只需要传递资讯数据的，人工智能写作已经走到了前台，做了大量的工作。甚至我们也看到人工智能写诗，写音乐，也能在不知情的情况下蒙混过关，但它离代替作家写作还有太遥远的距离。-transformer模型

我是泰瑞聊科技，专注互联网+、大数据、人工智能、物联网、区块链等方向的应用方案、技术剖析等内容。欢迎关注、获取更多优质内容。

NLP预训练模型的研究进展有哪些

本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统，刷新了 11 项 NLP 任务的当前最优性能记录。-transformer模型

近日，谷歌 AI 的一篇NLP论文引起了社区极大的关注与讨论，被认为是 NLP 领域的极大突破。如谷歌大脑研究科学家 Thang Luong Twitter 表示这是 NLP 领域的新时代。

Twitter 上也有众多研究者参与讨论、转发了这篇论文：

这篇刷新了 11 项 NLP 任务的论文不久之前已经上线，让我们一睹为快：

研究证明语言模型预训练可以有效改进许多自然语言处理任务，包括自然语言推断、复述（paraphrasing）等句子层面的任务，以及命名实体识别、SQuAD 问答等 token 层面的任务。前者通过对句子进行整体分析来预测句子之间的关系，后者则要生成 token 级别的细粒度输出。-transformer模型

目前将预训练语言表征应用于下游任务存在两种策略：基于特征的策略和微调策略（fine-tuning）。基于特征的策略（如 ELMo）使用将预训练表征作为额外特征的任务专用架构。微调策略（如生成预训练 Transformer (OpenAI GPT)）引入了任务特定最小参数，通过简单地微调预训练参数在下游任务中进行训练。在之前的研究中，两种策略在预训练期间使用相同的目标函数，利用单向语言模型来学习通用语言表征。-transformer模型

本论文作者（即 Google AI Language 团队的研究人员）认为现有的技术严重制约了预训练表征的能力，微调策略尤其如此。其主要局限在于标准语言模型是单向的，这限制了可以在预训练期间使用的架构类型。例如，OpenAI GPT 使用的是从左到右的架构，其中每个 token 只能注意 Transformer 自注意力层中的先前 token。这些局限对于句子层面的任务而言不是最佳选择，对于 token 级任务（如 SQuAD 问答）则可能是毁灭性的，因为在这种任务中，结合两个方向的语境至关重要。-transformer模型

本文通过 BERT（Bidirectional Encoder Representations from Transformers）改进了基于微调的策略。BERT 提出一种新的预训练目标——遮蔽语言模型（masked language model，MLM），来克服上文提到的单向局限。MLM 的灵感来自 Cloze 任务（Taylor, 1953）。MLM 随机遮蔽输入中的一些 token，，目标在于仅基于遮蔽词的语境来预测其原始词汇 id。与从左到右的语言模型预训练不同，MLM 目标允许表征融合左右两侧的语境，从而预训练一个深度双向 Transformer。除了 MLM，我们还引入了一个「下一句预测」（next sentence prediction）任务，该任务联合预训练文本对表征。-transformer模型

本文贡献如下：

展示了双向预训练语言表征的重要性。不同于 Radford 等人（2018）使用单向语言模型进行预训练，BERT 使用 MLM 预训练深度双向表征。本研究与 Peters 等人（2018）的研究也不同，后者使用的是独立训练的从左到右和从右到左 LM 的浅层级联。-transformer模型
证明了预训练表征可以消除对许多精心设计的任务特定架构的需求。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统。
BERT 刷新了 11 项 NLP 任务的当前最优性能记录。本论文还报告了 BERT 的模型简化测试（ablation study），证明该模型的双向特性是最重要的一项新贡献。代码和预训练模型将发布在 goo.gl/language/bert。-transformer模型

论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址：

Transformer是什么，有什么用

Transformer是基于Encoder-Decoder框架的一个神经网络模型，处理的问题类型是序列到序列，比如机器翻译，文本分类等等。Transformer火起来是由于之后的Bert预训练语言模型，因为Bert就是基于Transformer的encoder框架。最主要的是，Transformer提出的一个思想：它摒弃了神经网络中的RNN和CNN的束缚，提出了Multi-Head Attention机制，这是一种self-attention，有效地提高了模型的性能和效率。所以后期很多神经网络模型又是在其基础上的一个拓展。-transformer模型

你可以这样理解。Transformer可以看作是RNN和CNN的替代品

是否存在通用的神经网络模型，可以处理图像，语音以及NLP

对于目前的深度学习模型来说，尽管深度学习的一个目标是设计能够处理各种任务的算法，然而截至目前深度学习的应用仍然需要一定程度的特化，还没有通用的神经网络处理模型。不过各个模型也在互相借鉴，彼此融合，共同提高，象有些创新能同时改进卷积神经网络和循环神经网络，比如批标准化与注意力等。通用的模型还有待未来研究提出。-transformer模型

图像和视频处理，计算机视觉，目前最流行的是cnn，即卷积神经网络，及其变形和发展，cnn适合处理空间数据，在计算机视觉领域应用广泛。象陆续出现的ＡｌｅｘＮｅｔ，ＶＧＧＮｅｔ，ＧｏｏｇＬｅＮｅｔ，ＲｅｓＮｅｔ等都很有特色。以上几种模型是图像分类识别使用的。象图像分割，目标检测等还有更多针对性模型提出和得到广泛应用。-transformer模型

语音处理，2012 年前，最先进的语音识别系统是隐马尔可夫模型(HMM) 和高斯混合模型(GMM) 的结合。目前最流行的是深度学习的RNN循环神经网络，及其发展长短时记忆网络LSTM，以及GRU,双向RNN,分层RNN等。-transformer模型

自然语言处理，除了传统方法，目前深度学习用于自然语言处理的模型经历了基于CNN的模型，基于RNN的模型，基于Attention机制的模型，基于Transformer的模型等几个发展阶段。NLP有很多模型和方法，不同的任务场景有不同的模型和策略来解决某些问题。-transformer模型

电脑数码网

Nice to meet you, too!

transformer模型