一、基本概念
1、训练集(training data):也叫做训练样例,可以认为就是一些用来训练的数据,就好比人类做练习题,训练集的处理是非常重要的。
2、测试集(testing data):也叫做测试样例,用来测试最终训练出来的模型,对建立的模型进行一定的评估。
3、标记(label):实例类别的标记,实例就是一条数据。
4、特征值(feature):实例的某一个特征属性。一堆属性的集合叫做特征向量(features)。
5、监督学习(supervised learning):给定的训练集有类别标记(class label)。
6、无监督学习(unsupervised learning):给定的训练集没有类别标记。
7、半监督学习(semi-supervised learning):给定的训练集部分有类别标记,部分没有类别标记。
8、分类(classification):目标标记为类别型的数据,比如下雨和不下雨。
9、回归(regression):目标标记为连续性的数值,比如股票的预测,房价的预测。
二、概念学习
机器是怎么样进行学习的呢,其实这一点和人的学习是非常相似的,就是重复的认识某事物,建立一个概念模型,下面看一下定义。
定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
机器学习的最终结果就是通过各种算法,最终建立起一个数学函数模型,通过这个模型来判断输入的数据大概是属于哪一类的问题,最终输出最有可能的哪一类结果,所以,机器学习最终返回的也是个有概率的结果,并不是百分之百的正确。
三、机器学习的步骤和框架
1、把数据拆分为训练集和测试集;
2、用训练集和训练集的特征向量来训练算法;
3、用学习来的算法运用在测试集上来进行评估算法,可能涉及到参数的调整,最终得出最完美的模型算法。
四、例子
表格中列出了小明是否训练的一些实例,一行就是一个实例,其中天气、温度、湿度、风力、水温、预报属性就是特征值,他们结合起来就是这一个实例的特征向量,最后的享受运动就是类别标记。
这个例子就是一个分类问题,将类别分为运动和不运动两种类别。
在这个例子中,学区列是一个评分,范围在1-10之间,通过大量的面积和学区评分的数据训练,最终会得到一个函数模型,可以看出,这个问题是一个回归问题,因为目标标记(房价)为连续性的数值,不属于某一类。