笔记摘录自bilibili网课数据挖掘

分类，回归，聚类，降维

分类 Classify

分类可以看作是机器学习中的有监督学习（supervised learning）

有监督学习：是指数据是有标记，可以量化的。针对日常生活中的某一个个体的相关数据，通过数据标签可以量化出一个专属于这个个体的特性类别，我们称这样的类别是标签（lable/target），是有监督学习的体现。

一个最经典的例子：性别预测问题，这是一个典型的分类问题。针对每一个人，我们可以根据他的外表数据，行为数据，来推断出这个人是男性还是女性。我们之所以可以随机的看一个人就可以立刻辨别出他（她）的性别，是因为一些性别的专属特征已经固化在我们脑海中。

有关人的特征数据（例如身高，体重，相关行为）我们用一个向量组来表示，组中元素被称为特征元素，例如[身高（height），体重（weight），相关行为（behavior）]，我们称这是一个3维数据。

如何体现监督行为？在每一组特征元素向量数据$X$最后，会有一个特征标记$Y$，被称作标签（lable/target），是对当前向量组中数据元素的总结，如果没有这个特征标记则体现为无监督学习。

有监督学习的基本向量组的表达方式为

$$[data \mid label]$$

假设整个数据组中存在$N$个人，每个人具有$P$个特征元素，则我们可以得到一个$N \times P$ 数据矩阵，其中$N$为个数，$P$为特征数。数据元素统一用$X$来表示，label则用$Y$来表示。

图片勘误：最下方角标应该是$P \mid Y$，而不是$P$，$P$只表示竖线左侧的数据元素而不表示标签。

首先我们通过已知的1特征数据矩阵（包括特征元素和target标签）来训练模型，今儿对没有label的全新的数据元素（dew data）向量组进行标记，得出label。并且尽可能保证推断出的label标记和真实情况的label保持一致。准确性（accuracy）越高，说明模型训练得越好。

新模型中的数据维度可能与原数据不相同，虽然模型过程是数据矩阵的形式，但是本质上是对每一个数据元素向量组的推断，通过已有模型得出target label。

回归是我们最早接触的一种数据化类类型，例如我们初中就接触过的线性关系：探寻身高与体重的关系等等。

分类和回归因为目标不同，所以导致最后的label也不是一致的。分类重在对以后数据进行模型训练，进而对新的没有进行分类的数据进行推断，得出新数据的label。而回归重在对原始数据的内在联系进行分析。对于给定的特性元素向量组和标签label，通过回归来找到内在关系。

数值型变量和类别型变量的最明显区别：数值型变量可以进行比较（comparable），类别型变量不能比较（uncomparable）在类别型变量中讨论最多的就是二分类变量

$$Y = \alpha x_{1} + \beta x_{2} + … +\gamma x_{n}$$

其实就是我们常见的模型关系，上述公式表述的是数据型变量的关系，而类别型变量就是将具有某一特性类别集合的特征向量组聚合起来，找出共性关系。

写成数据矩阵的形式如下图：

聚类是无监督学习（unsupervised learning）的代表，即数据无标注（没有label）。

聚类是针对于数据本身进行的划分，相当于做了一个特征工程。其目的本质上就是为了让数据变得更“好看一点”，数据聚合可以让组内数据更加紧密，让组间数据差异尽可能更大。诸如聚类的无监督学习其实是作为有监督学习的辅助，让有监督学习可以更好地执行。

针对一个没有label的数据矩阵，对该矩阵进行标记，即使用一个已经进行过聚类的数据组来训练模型，然后让一组新的，没有进行聚类的数据进行聚类划分。得到一个一个的特征集群。

其中$X$为特征向量，$N$为组数，$P$为特征元素，可以很明显看出来聚类后特征元素被区分成不同的组（特征类群）。

降维也是无监督学习的一种，通过减少冗余特征元素的方式实现对数据的优化，一般情况下，降维之后的特征元素维度要低于降维之前，即$P > P^{`}$

如何判断一个数据矩阵是高维数据矩阵还是低维数据矩阵？
如果在一个数据矩阵中，如果$P > N$，则我们认为这个数据矩阵一般是高维度的，因为这样的数据矩阵在多元线性回归中并不能拟合出相关线性。

其实一般认为如果$N$约等于$P$也被算作高维度数据矩阵，具体要看模型效果，并不是绝对的。还有一种特殊情况，如果说在数据特征向量组中，有一组数据响亮可以通过另一组数据向量演化过来的。这样的数据被称为多重多样性，我们也认为这是高维度数据。