机器学习一词由谁提出
艾伦.图灵。
机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。
1950年(艾伦.图灵提议建立一个学习机器)到2000年初(有深度学习的实际应用以及最近的进展,比如2012年的AlexNet),机器学习有了很大的进展。
机器学习有下面几种定义
(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
(2)机器学习是对能通过经验自动改进的计算机算法的研究。
(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
什么是联邦机器学习
联邦机器学习(Federated machine learning/Federated Learning),又名联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
举例来说,假设有两个不同的企业 A 和 B,它们拥有不同数据。比如,企业 A 有用户特征数据;企业 B 有产品特征数据和标注数据。这两个企业按照上述 GDPR 准则是不能粗暴地把双方数据加以合并的,因为数据的原始提供者,即他们各自的用户可能不同意这样做。假设双方各自建立一个任务模型,每个任务可以是分类或预测,而这些任务也已经在获得数据时有各自用户的认可,那问题是如何在 A 和 B 各端建立高质量的模型。由于数据不完整(例如企业 A 缺少标签数据,企业 B 缺少用户特征数据),或者数据不充分 (数据量不足以建立好的模型),那么,在各端的模型有可能无法建立或效果并不理想。联邦学习是要解决这个问题:它希望做到各个企业的自有数据不出本地,而后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。这样,建好的模型在各自的区域仅为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富裕”的策略。 这就是为什么这个体系叫做“联邦学习”。
-机器学习
机器学习的研究内容有哪些
近年来,有很多新型的机器学习技术受到人们的广泛关注,也在解决实际问题中,提供了有效的方案。这里,我们简单介绍一下深度学习、强化学习、对抗学习、对偶学习、迁移学习、分布式学习、以及元学习,让大家可以明确机器学习的方向都有哪些,这样再选择自己感兴趣或擅长的研究方向,我觉得这是非常理智的做法。
▌深度学习
不同于传统的机器学习方法,深度学习是一类端到端的学习方法。基于多层的非线性神经网络,深度学习可以从原始数据直接学习,自动抽取特征并逐层抽象,最终实现回归、分类或排序等目的。在深度学习的驱动下,人们在计算机视觉、语音处理、自然语言方面相继取得了突破,达到或甚至超过了人类水平。深度学习的成功主要归功于三大因素——大数据、大模型、大计算,因此这三个方向都是当前研究的热点。
在过去的几十年中,很多不同的深度神经网络结构被提出,比如,卷积神经网络,被广泛应用于计算机视觉,如图像分类、物体识别、图像分割、视频分析等等;循环神经网络,能够对变长的序列数据进行处理,被广泛应用于自然语言理解、语音处理等;编解码模型(Encoder-Decoder)是深度学习中常见的一个框架,多用于图像或序列生成,例如比较热的机器翻译、文本摘要、图像描述(image captioning)问题。
▌强化学习
2016 年 3 月,DeepMInd 设计的基于深度卷积神经网络和强化学习的 AlphaGo 以 4:1 击败顶尖职业棋手李世乭,成为第一个不借助让子而击败围棋职业九段棋手的电脑程序。此次比赛成为AI历史上里程碑式的事件,也让强化学习成为机器学习领域的一个热点研究方向。
强化学习是机器学习的一个子领域,研究智能体如何在动态系统或者环境中以“试错”的方式进行学习,通过与系统或环境进行交互获得的奖赏指导行为,从而最大化累积奖赏或长期回报。由于其一般性,该问题在许多其他学科中也进行了研究,例如博弈论、控制理论、运筹学、信息论、多智能体系统、群体智能、统计学和遗传算法。
▌迁移学习
迁移学习的目的是把为其他任务(称其为源任务)训练好的模型迁移到新的学习任务(称其为目标任务)中,帮助新任务解决训练样本不足等技术挑战。之所以可以这样做,是因为很多学习任务之间存在相关性(比如都是图像识别任务),因此从一个任务中总结出来的知识(模型参数)可以对解决另外一个任务有所帮助。迁移学习目前是机器学习的研究热点之一,还有很大的发展空间。
▌对抗学习
传统的深度生成模型存在一个潜在问题:由于最大化概率似然,模型更倾向于生成偏极端的数据,影响生成的效果。对抗学习利用对抗性行为(比如产生对抗样本或者对抗模型)来加强模型的稳定性,提高数据生成的效果。近些年来,利用对抗学习思想进行无监督学习的生成对抗网络(GAN)被成功应用到图像、语音、文本等领域,成为了无监督学习的重要技术之一。
▌对偶学习
对偶学习是一种新的学习范式,其基本思想是利用机器学习任务之间的对偶属性获得更有效的反馈/正则化,引导、加强学习过程,从而降低深度学习对大规模人工标注数据的依赖。对偶学习的思想已经被应用到机器学习很多问题里,包括机器翻译、图像风格转换、问题回答和生成、图像分类和生成、文本分类和生成、图像转文本和文本转图像等等。
▌分布式学习
分布式技术是机器学习技术的加速器,能够显著提高机器学习的训练效率、进一步增大其应用范围。当“分布式”遇到“机器学习”,不应只局限在对串行算法进行多机并行以及底层实现方面的技术,我们更应该基于对机器学习的完整理解,将分布式和机器学习更加紧密地结合在一起。
▌元学习
元学习(meta learning)是近年来机器学习领域的一个新的研究热点。字面上来理解,元学习就是学会如何学习,重点是对学习本身的理解和适应,而不仅仅是完成某个特定的学习任务。也就是说,一个元学习器需要能够评估自己的学习方法,并根据特定的学习任务对自己的学习方法进行调整。
-机器学习