概率论基础之均值方差协方差

数据挖掘与机器学习 fireling 9614℃

概率论是每个数据挖掘人员必修的课程,特别是对算法的理解程度,很大程度上取决于自己的功底扎实不扎实。这里,我给大家总结了一些常用的概念及其推导,包括总体和样本的关系,均值、方差、标准差、协方差等。

总体均值(期望):表示总体的平均特征。

总体方差(方差):表示总体的偏离程度。

 (1)

样本均值:表示样本的平均特征,是总体均值的无偏估计。

样本均值的期望

由上式可知,样本均值是总体均值无偏估计

样本均值的方差

样本方差:表示样本的偏离程度,是总体方差的无偏估计。

自由度(自由取值的个数),因为计算样本方差之前需要把样本均值计算出来,那么自由取值的个数为

样本方差的期望


(2)


(3)

时,


(4)

无偏估计和有偏估计:

由公式(1)和(2)可知,

是总体方差无偏估计

由公式(1)和(3)可知,

,即是总体方差有偏估计低估了总体方差

由公式(1)和(4)可知,

时,,此时是总体方差无偏估计。

样本标准差:

样本协方差:表示两个样本参数之间的相似度

协方差的结果是先求参数x”参数x的均值之间的之间的差,以及参数y”参数y的均值之间的差,表达了两个参数xy之间的差异程度。

协方差矩阵

若观测的一个系统有3个参数xyz,而协方差只能计算两个参数之间的差异程度,可以用协方差矩阵来表达参数两两之间的差异程度。

协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。

为了给大家提供更好的体验,现输出两张图片格式的总结,供大家学习下载:

MathNote1 MathNote2

转载请注明:宁哥的小站 » 概率论基础之均值方差协方差

喜欢 (13)