X={x1+x2+….xn};   xm平均数

Y={y1+y2+…..yn};  ym平均数

方差 variance=(x1-xm)^2+(x2-xm)^2+……(xn-xm)^2  表示数据的离散程度

标准差 standern variance=variance^1/2                          方差的开方根标准差均方差

协方差 衡量两个变量之间的关系:

在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况:

当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大  Y 也越大, X 越小  Y 也越小,这种情况,我们称为“正相关”。

当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。

当X, Y  的联合分布像上图那样时,我们可以看出:既不是X  越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。

怎样将这3种相关情况,用一个简单的数字表达出来呢?

在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0;

在图中的区域(2)中,有 X<EX ,Y-EY>0 ,所以(X-EX)(Y-EY)<0;

在图中的区域(3)中,有 X<EX ,Y-EY<0 ,所以(X-EX)(Y-EY)>0;

在图中的区域(4)中,有 X>EX ,Y-EY<0 ,所以(X-EX)(Y-EY)<0。

当X 正相关时,它们的分布大部分在区域(1)和(3)中,小部分在区域(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 

当 X与 Y负相关时,它们的分布大部分在区域(2)和(4)中,小部分在区域(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0 

当 X与 Y不相关时,它们在区域(1)和(3)中的分布,与在区域(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0 

所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差

cov(X, Y) = E(X-EX)(Y-EY)。

当 cov(X, Y)>0时,表明 X正相关

当 cov(X, Y)<0时,表明XY负相关;

cov(X, Y)=0时,表明XY不相关。

这就是协方差的意义。

 

相关系数P=Cov(a.b)/Sa*Sb,

 

Cov(a.b)是协方差, Sa Sb 分别是样本标准差。
从它的定义来说,叫协方差是比较合适的,表示两个标量之间协变动(comovement)的状况.

 

典型相关分析(CCA)

Canonical correlation analysis (CCA) is a way of measuring the linear relationship between two multidimensional variables. It finds two bases, one for each variable, that are optimal with respect to correlations and, at the same time, it finds the corresponding correlations. In other words, it finds the two bases in which the correlation matrix between the variables is diagonal and the correlations on the diagonal are maximized. The dimensionality of these new bases is equal to or less than the smallest dimensionality of the two variables. An important property of canonical correlations is that they are invariant with respect to affine transformations of the variables. This is the most important difference between CCA and ordinary correlation analysis which highly depend on the basis in which the variables are described.

大概就是我们之前做现线性回归的时候  确定一个y需要多个x参数    如 y=ax1+bx2+cx3……+nxn

如今有多个y和多个x之间的关系怎么解决   就是CCA干的事

如下所示:

簡單線性迴歸分析 Y(因變數) = b0 + b1X(自變數)

多元(複)迴歸分析 Y = b0 + b1X1 + b2X1 + … + bnXn

典型相關分析 a1Y1 + a2Y2 + … + amYm = b0 + b1X1 + b2X1 + … + bnXn

 

典型相关分析的基本思想是:

首先找到变量Y的一个线性组合,如为:

                                    U1=a1Y1+a2Y2…aQYQ

以及变量X的一个线性组合,如为:

                                    V1=b1X1+b2X2++bPXP

 

举个简单的例子:click me 

 

LDA

 

1. LDA是什么

线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。

基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离最小的类内距离,即模式在该空间中有最佳的可分离性。

LDA与前面介绍过的PCA都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式LDA更多的是考虑了标注即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑

下面给出一个例子,说明LDA的目标。

       可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内部点的离散程度是最小的(或者说聚集程度是最大的)。

这里还有一个LDA的例子:

 LDA 主要是实现数据样本在新投影空间有最大的类外距离 和最小的类内距离

PCA和LDA

PCA降低维度,投影到新的坐标空间,从而达到降低维度的效果

LDA降低纬度和分类的个数有关,与数据为度没有关系

一般就是一个维度,尤其是两类分类

坐标系PCA是正交的

LDA则没有限定

具体计算标准

LDA找到一向量w 使得数据在w的投影上达到最大的类

类内主要是协方差进行评估,越小越集中

 

类外  主要是均值差,

第一,为了实现投影后的两个类别的距离较远,用映射后两个类别的均值差的绝对值来度量。第二,为了实现投影后,每个类内部数据点比较聚集,用投影后每个类别的方差来度量。

参考资料 http://www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/LDA.pdf