一.什么是机器学习:
1.概念:
卡内基梅隆大学教授汤姆·米切尔在1997年出版的《Machine Learning》一书指出,机器学习这门学科所关注的是:计算机程序如何随着经验积累,自动提高性能。同时给出了形式化的描述:对于某类任务T和性能度量P,如果一个计算机程序在T上以P度量的性能随着经验E而自我完善,就称这个计算机在从经验E学习。
所以,机器学习是一门在没有明确编程的情况下,让计算机学习的科学,也就是计算机在没有明确编程的情况下学习的研究领域 。
2.核心要素:
数据、算法、模型
3.生活实例:
在浏览器页面(谷歌、百度)搜索如何做一份寿司,显示出的内容会自动对网页进行排名。或者当你上传图片到ins上或者Snapchat的时候,配一些文案,我想标记我的朋友,这样他们就可以看到他们的照片,这样的话,这些程序可以识别你照片中的朋友,并给他们贴上标签,也是机器学习。当你看完一部《暮光之城》电影后,流媒体服务可能会使用机器学习来推荐你可能喜欢的东西;以及每次用手机进行语音转文字等等。
二.监督学习(Supervised learning)
使用最多
1.原理:
提供学习算法示例以供学习,包括正确答案。其中正确答案是给定输入x的正确标签y,并且通过查看输入x和所需输出标签y的正确性。对学习算法最终学会只接受输入而无需输出标签,并且给出输出的合理准确的预测或猜测。
2.例:
在以下例子中,所有这些应用程序中首先得输入示例x和正确答案(即标签y)来训练模型,在这些模型中输入、输出中学习后。会采用一个全新输入x,这是之前从未见过的,并尝试产生适当的相应的输出y。
(1)输入一封电子邮件,输出这封电子邮件,无论是否为垃圾邮件,都会提供垃圾邮件过滤器;
(2)输入音频剪辑,算法工作时输出转录文本(语音识别);
(3)输入英语,输出西班牙语(机器翻译);
(4)所有大型在线广告平台都有一个学习算法,可以输入一些关于广告信息以及你的一些信息,视图弄清你是否会点击(在线广告)
(5)学习算法会将图像和来自其他传感器(如雷达或其他东西)一些信息作为输入,然后尝试输出其他汽车的位置,这样会使你的车可以安全绕过其他汽车(自动驾驶)
(6)刚下线的手机并让学习算法输出产品中,检查是否有凹痕或其他缺陷(目视检查),目的是防止其他产品有缺陷
3.回归(Regreesion):
3.1概念:
从无数可能的数字中预测一个数字
3.2例:
房价的预测:假如你想买一个750平方英尺的房子,在收集了房子面积对应价格表后,预测会花费750,000美元左右,而200,000美元属于过拟合。
4:分类算法(Classification):
4.1.乳腺癌检测例:
假设一个机器学习系统让医生有一个诊断工具来检测乳腺癌,利用病人的医疗记录,机器学习系统试图弄清楚一个肿块的肿瘤是否是恶性的,意味着癌症是危险的;如果肿瘤是良性的,意味着癌症没有那么危险。
数据集中一些肿瘤标记为良性(良性:圆,恶性:X),将数据绘制在一张表中,横轴代表肿瘤大小,纵轴只表示两个值,如下图:
也可以是输入年龄和肿瘤大小,圆圈表示肿瘤是良性的,X表示肿瘤是恶性的。所以当一个新病人进来的时候,医生可以测量患者肿瘤大小,同时记录下病人的年龄。
我们如何预测该病人的肿瘤是良性的还是恶性的?基于这样的数据集,学习算法可能要做的是找到一些边界来区分恶性肿瘤和良性肿瘤。因此,学习算法必须决定如何将边界线拟合到这些数据上,学习算法找到边界线将帮助医生诊断。因此,(如上图)在这种情况下,肿瘤可能是良性的。
【注意】与回归不同:原因是分类只试图预测一小部分可能的输出或类别
5.区分分类和回归:
(1)分类:预测的是一个小的、有限的一套可能的产出类别
- 预测算法,类别不一定是数字,也可以是一张照片是猫还是狗、肿瘤良性还是恶性等等。
(2)回归:预测无限多个可能的数字中的任意一个。
6.总结:
三.非监督学习(Unsupervised learning)
1.概念:
给定的数据与任何输出标签y无关。
1.1肿瘤例:
给定有关患者肿瘤大小和患者年龄的数据,所以数据集如下图:
我们没有被要求诊断肿瘤是良性还是恶性,因为没有给我们任何标签在数据集中。相反,我们的工作是找到一些结构/模式/只是在数据中找到一些有趣的东西,称之为无监督学习。
因为我们不试图监督算法,而是为了对每一个输入给出一些引用正确的答案。我们要求自己的房间自己弄清楚什么是有趣的,或者对于这个特定的数据集,这个数据中可能有什么模式或结构。
无监督学习算法可能会决定将数据分配给两个不同的组或两个不同的集群,所以,他会可能决定这里有一个集群组,这里又有一个集群组(上图),也就是聚类算法。
2.聚类算法(clustering):
2.1.概念:
未将标记的数据放入不同的集群中.
【示例1】新闻
goole news 就是聚类算法,它是每天更新并查看互联网上数十万篇新闻文章,并将相关故事结合在一起。
例如:一个来自谷歌新闻的样本,其中顶部文章标题是《大熊猫在日本最古老的动物园生下一对双胞胎幼崽》,你可以注意到下面内容,也许仅从头条新闻就可以开始集群可能在做什么,并且zoo这个词也出现在所有文章中,所以聚类算法正在寻找文章,当天互联网上所有数十万篇新闻文章,找到提到相似词的文章并将它们分组到集群中。
这种聚类算法会自行计算出哪些词暗示某些文章属于同一组,也就是说谷歌新闻中没有一名员工告诉算法查找包含“熊猫”一词的文章,而twins和zoo把它们放在同一个集群中;每天新闻会更新,而且有这么多新闻故事,人们每天都为所有使用封面的话题做这件事是不可行的;相反,该算法必须在没有监督的情况下自行计算出今天的新闻文章有哪些
【示例2】聚类遗传或DNA数据
此图像显示DNA为阵列数据的图片,这些看起来像电子表格的微小网格。每一个小柱子代表一个人的遗传或DNA活动。例如:这里的整个柱子都来自一个人的DNA,另一列是另一个人的,每一行代表一个特定的基因。
举个例子:也许上图的这个角色可能代表一个影响眼睛颜色的基因;或者这里的这个角色是一个影响某人身高的基因;研究人员甚至发现一个人是否不喜欢某些蔬菜(如:西蓝花、甘蓝或芦笋)的遗传联系;
因此,红色、绿色、灰色等这些颜色显示了不同个体具有或不具有特定基因活性的程度;然后,可以运行聚类算法,将个体分组到不同的类别中或者不同类型的人。像这些聚集在一起的人,我们就称这种类型为第一类、第二类、第三类;
这就是无监督学习,因为我们没有提前告诉算法有一种人具有某些特征,或具有某些特征的第二类人。而不是我们所说的这是一堆数据,我不知道不同类型的人是什么,但你能自动找到数据的结构吗?并自动找出个人的主要类型,因为我们没有提前为算法提供示例的正确答案。
【示例3】很多公司拥有庞大的客户信息数据库
您能否自动将客户分组到不同的细分市场,以便更有效地为客户服务。具体来说,深度学习一个AI团队做过一些研究,以更好的了解深度学习AI社区,以及为什么不同的人参加这些课程、订阅批量每周通讯、参加AI活动,使我们将深度学习点AI社区形象化为运行集群的人员集合。
也就是说,市场细分发现了几个不同的个人群体。一组是的主要动机是寻求知识以提高他们的技能;第二组的主要动机是寻求发展他们职业的方法;第三组是想随时了解AI如何影响他们的工作领域。由此,团队可以用来更好地为我们的社区服务集群,因为我们正在努力了解学习者的主要类别是否在更深层次的社区中。
2.2.总结:
聚类算法:是一种无监督学习,获取没有标签的数据并尝试自动将它们分组到集群中。
无监督学习中仅带有输入x而没有输出标签y,并且算法必须在数据内。聚类将相似的数据点组合起来。
3.异常检测(Anomaly detection):
3.1作用:
用于检测异常事件
3.2作用场景(常见):
事实证明,这对于金融系统中的欺诈检测非常重要,异常事件、异常交易可能都是欺诈的迹象,对于许多其他应用程序也是如此。
4.降维(Dimensionality reduction):
4.1.概念:
可以将一个大数据神奇的压缩成一个小得多的数据集,同时丢失尽可能少的信息。