数理统计知识总结
BUAA-math2 数理统计复习笔记;概统复习也可参考(后来加入了一些概统的内容,数理统计特有的知识在标题后面会有“*”标记
还没写完,不想写了,打算以后填坑,你看到的TODO标记都是不想写的orz
里面有比较多的我个人的理解,如有错误,欢迎指正
基础部分
常用公式
正态
密度函数
正态总体下统计量的分布:
定理:
这个定理后面会在参数区间估计和假设检验部分有用
切比雪夫不等式
Markov不等式 *
三大抽样分布及其性质(important)
分布
定义:
性质
- 可加性
F分布
定义:
性质
(分位数)
t分布
定义:
性质
- 偶函数
- 对于 iid
,
充分统计量 *
直观解释:
这句话说得很好:统计量,是对样本信息的压缩,是为了从中提取有效信息。
例如样本的均值是统计量,我们可以从样本均值中获取关于总体均值的信息。但是压缩的效果有好有坏,对于样本
定义:
样本是一个 n 维空间中的点,确定了 t 的样本是 n-1 维空间中的点;条件分布函数与参数
无关就可以理解为不能从剩下的这 n-1 维中获取更多与 有关的信息。
用定义来证明充分统计量是很难的,有下面的定理用来判断是不是充分统计量
因子分解定理:
总体分布族为
大数定律和中心极限定理
两种收敛性
依概率收敛
可以看出来,随机变量X不能太随机,而是一个接近于单点分布的随机变量 按分布收敛
按分布收敛就是说一个随机变量列的分布函数收敛于某个函数,条件比依概率收敛弱,也称作弱收敛。
特征函数
定义
其中 X 是一个随机变量,
从分布函数转换到特征函数(傅里叶变换),从特征函数又可以还原到分布函数;这个过程信息没有损失,自变量的自由度仍然是1。
重要性质
(用定义就可以证明 if
, 则 X 的特征函数可以 l 次求导,对于 用这个性质可以求各阶矩 利用特征函数的泰勒展开可以得到近似分布
利用特征函数可以比卷积更方便的求联合分布得密度函数
可以方便证明Gamma分布的可加性
特征函数唯一决定分布函数
大数定律
大数定律直观上来说,就是当样本数增多时,某个统计量逐渐趋于一个固定的值(一般是依概率收敛)
切比雪夫大数定律
条件:
马尔科夫大数定律
条件:随机变量序列,满足
证明仍然使用切比雪夫不等式。
辛钦大数定律
条件:
这里的题目大都是让你证明什么大数定律,一般会使用切比雪夫不等式,重点就是求方差,注意判断给的随机变量是独立同分布?不相关?
可能会用到这个公式:
中心极限定理
中心极限定理研究的
当变量数量太多的时候,用卷积公式计算
独立同分布下的中心极限定理
林德伯格-莱维中心极限定理
条件:
证明:泰勒展开特征函数
二项分布的正态近似
n中伯努利实验,事件A出现的概率为 p,出现的次数为
n比较大时,
修正:
我也没搞清楚这个修正的原理是什么。
这一部分的常见题型为
- 给定n,y,求概率
- 给定n,
,求分位数 - 给定
,求样本量
参数估计
点估计
矩估计
矩估计就是用样本的中心距或者原点矩(其实两个可以互相写成线性组合,所以是等价的)去替换待估参数中的总体矩。
极大似然估计-MLE
直观解释
极大似然估计就是已知一个样本,计算让这个样本发生的“概率”(带有未知参数),求让这个概率取最大值的参数值作为参数的估计值。最后转化为一个函数求极值的问题。
(上面的“概率”一词带引号是因为对于连续型随机变量概率恒为0,对于连续型随机变量,我们用概率密度函数作为似然函数,并且忽略求概率的时候和参数无关的常数(比如二项分布忽略二项系数))
定义
似然函数
若参数空间
二级结论:
对于正态总体,均值和方差的极大似然估计为
一致最小方差无偏估计-UMVUE *
无偏估计
衡量统计量优劣的标准:均方误差-MSE
设
如果对于所有
我们希望在一定范围内找到一个最“好”的估计。
但是,如果对估计不加限制,这个最优估计是不存在的,理由如下
假设在p(x)的所有估计里面存在一个最好的估计
,和估计 相比(这个估计T不管样本值是什么,都是一个常数,是一个常数估计) 由于 是任意的,因此对于参数空间的每个 , 由此可推知,无论
取什么值, 必须准确估计,这显然不可能。
因此,我们要缩小寻找最优估计的范围,这就引入了无偏估计的定义:
无偏估计:
如果T(x)满足
在无偏估计的范围内寻找最好的估计-一致最小方差无偏估计
为方便,将参数p的无偏估计的集合记为
定义
若存在一个无偏估计
完全充分统计量
定义:
数学中,大多数定义都是有很强的目的性的,我们理解一个定义要从“我们想要一个什么样的感觉”开始,将这个感觉不断抽象化、严格化,形成定义。定义往往不是凭空想出来的,而是“我们想要什么性质,就要求他具有什么性质”,数学家是上帝,想要什么都能变出来。
这部分鸽了,太多了。[TODO]
判断定理
(上面提到的内点就是数分里面学的内点)
UMVUE的求法
- 有无偏估计
,完全充分统计量 , 是UMVUE - 有完全充分统计量
,对其进行无偏化得到 是UMVUE
信息不等式和有效估计
信息不等式给出了无偏估计的方差的下限(这个下限不一定能够被达到)。
使用下面这些式子有一个大前提就是分布族满足一定的条件,属于 Cramer-Rao 正则族(这个写起来有点麻烦,不写了,书上有)
Fisher信息量:
则
值得注意的是,这里的
二级结论:
随机变量 x,y 相互独立,x的信息量为
证明
由于相互独立,
证明的关键是求导和积分可以交换顺序(C-R正则族的性质),挺好证的(或者参考数理统计第二章课后题39),这里不写了
信息不等式:
让信息不等式取等的估计是有效估计,有效估计是UMVUE的充分条件,这也是一种证明UMVUE的方法。
区间估计
想知道某个待估计的参数会以给定概率落在哪个区间,这就是区间估计。
枢轴变量法
枢轴变脸是一个我们已知分布的随机变量,其表达式中含有我们要估计的参数和关于样本的信息,不含其他未知参数。
由枢轴变量的分布可以找到能让枢轴变量以一定概率出现的区间,代入样本的信息,进行不等式恒等变换,就得到我们要估计的参数的置信区间。
正态分布样本的区间估计
正态总体
方差已知,估计均值
枢轴变量
置信区间 方差未知,估计均值
置信区间 方差未知,均值未知,估计方差
由于卡方分布不对称,选用等尾置信区间,就是说让枢轴变量落在置信区间两边的概率都为 置信区间:
分布未知
分布未知的时候,可以用中心极限定理估计总体的分布。
茆书上给的例子是:
样本
假设检验
假设检验就是判断根据已有样本信息判断假设成不成立,但是统计上没有绝对的东西,我们只能说以某种类似于“概率”的东西接受某个假设。
判断一个假设是否成立可能有以下四种情况:
假设本来成立,判断为成立或者不成立
假设本来不成立,判断为成立或者不成立
其中我们不希望出现的是 “假设本来成立,判断为不成立”(弃真),“假设本来不成立,判断为成立”(取伪),因此要控制这两种情况出现的概率。
假设检验分为参数假设检验和非参数假设检验,参数假设检验就是已知样本的分布形式,但是不知道里面的参数(比如说已知样本服从正态分布但是不知道均值);非参数检验就是我们连样本服从什么分布都不知道,假设样本服从某个分布然后检验这个假设成不成立。概统里面学的主要是参数假设检验。
参数假设检验
定义
假设检验,首先得有一个假设:
这就产生了一个问题,为什么会有备择假设这个东西呢?而且备择假设往往不一定是原假设对应参数取值范围在参数空间中的补,备择假设有什么意义呢?
关于原假设、备择假设是什么,以及如何选择,陈希孺老师的书里面讲的很透彻,我做了一点补充,见这篇博客:假设检验:什么是原假设和备择假设
检验的p值
p值是在原假设成立的条件下参数落入刚好能接受或者拒绝这个由样本得到的检验统计量的拒绝域的概率。
本来我们判断接受还是拒绝原假设是用检验统计量和对应的分布函数的分位点做比较,这样我们如果想改变检验水平的话还得重新查分位点。我们可以直接算出能够接受这个原假设对应的最大检验水平
p值是用来和
正态总体的参数假设检验
假设检验直观来说就是寻找一个已知分布的检验统计量,然后让这个统计量在
也就是说
单个正态总体
对于均值的检验假设有这三种:
方差已知,检验均值
检验统计量:
对于a, 拒绝域
, 弃真的概率为 对于b, 拒绝域
, 弃真的概率为 对于c, 拒绝域
, 弃真的概率为 方差未知,检验均值
检验统计量:
对于a, 拒绝域
, 弃真的概率为 对于b, 拒绝域
, 弃真的概率为 对于c, 拒绝域
, 弃真的概率为
其实还有其他接受域和拒绝域的形式,比如
注意到这个相当于把a的原假设换成了
双正态总体
不写了,没意思,查书
似然比检验
想法很朴素
似然比统计量
因此拒绝域的形式为
临界值可由
检验的优良性 *
检验的势
检验的势指的是
检验的势和
最优势检验-MPT
对于假设检验问题
我们想在所有检验水平为
Norman-Person引理
引理表明对于这类假设检验问题最优势检验存在且一定是似然比检验。
一致最优势检验-UMPT
对于假设检验问题
由于
非参数假设检验 Pearson检验
非参数检验就是相对于参数检验而言的,更具有普适性,应用范围更广。非参数检验的基本方法是
Pearson检验法,也叫
总体分布的检验
在不知道分布的情况下,检验某随机变量是否服从某个分布。
这个检验只有原假设,没有备择假设
检验统计量
样本充分大时,
拒绝域的形式为
如果要检验的分布中含有
二维列联表独立性检验
为了检验两个随机变量是否相关。思路和上面差不多,就是在原假设成立的前提下计算概率,然后和实际频率作差平方作为分子。得到的结果同样符合
假设二维列联表r行s列。在检验的过程中我们需要估计的参数值有 r + s - 2
个,所以
回归分析
一元线性回归
求回归系数
回归方程为
其中
回归的显著性检验
相关系数
平方和分解
直观上讲,
也许可以通过
定义
还可以推出来
回归的显著性检验
接受
F检验
在显著性水平 下 因此拒绝域形式为 r检验
容易证明
随着 F 单调递增,把 F 检验中对 F 的范围转换为对 的范围就是r检验。将 F 检验的分位数代入上式就可以得到 r 检验的拒绝域边界。
估计与预测
这两个概念挺容易弄混的。
估计是根据样本值得到总体的一些信息。
预测是给定一个
方差分析与正交实验设计 *
// TODO不想写了,这么着吧!
判别分析 *
判别分析就是分类。给出来一个样本的观测值
距离判别
一个简单的思路是计算欧氏距离,但是由于量纲不同,计算欧氏距离的结果是依赖于量纲的。 为了消除量纲的影响,采用马氏距离:
两个样本之间的马氏距离:
样本与总体之间的马氏距离:
其中
马氏距离还可以理解为将样本标准化后求欧氏距离:
(
计算距离之后,选择距离最小的总体作为样本的归属。
特别的,对于两个总体的距离判别,如果协方差矩阵相等,可以证明
取判别函数
Fisher判别
就类似于这种感觉(不同的是,这个图为了便于画出来,是从三维到二维的投影,而Fisher判别是从n维到1维的投影),将多个总体和要多维随机变量投影到一个方向,让这个方向上的组与组之间尽可能“好区分”,类似于方差分析的思想,让投影之后的数据“组间平方和”大,“组内平方和”小。投影之后的样本和总体都是一维的,我们可以通过简单作差来判断待判别的样本距离哪一个总体最近。
相关分析 *
主成分分析
概述
有一堆随机变量,它们之间可能有错综复杂的相关关系,比如设计服装的一些指标,包括身高、腰围、胸围等等。太过复杂的数据不便于使用,如果能把这些错综复杂的随机变量化为少数几个不相关的综合指标(主成分),让这些新指标能够更多地反应原来的指标提供的信息,就能够更容易地利用信息,对于前面服装生产的栗子来说就是使用少数几个综合指标设计出大多数人适合的衣服,排除一些可能需求特别少的衣服尺码。
模型
总体
寻求
也就是说,在x变化的时候,要让
设
条件极值可以使用Lagrange乘子法或者直接放缩,略去过程,得到如下定理:
定理 8.1.1:
设协方差矩阵的特征值依次为
,其相应的单位正交特征向量为
, 在 处取得最大值 , , 在 处取得最大值
第一条用来获取第一个主成分,第二条用来获取与已有主成分相互正交的新的主成分.
只需要求协方差矩阵的特征值和特征向量就可以得到我们需要的主成分。
步骤如下:
求出
贡献率
贡献率用来定量刻画我们选择的主成分能够概括多少原始信息
定义前k个主成分的方差贡献率为
消除量纲的影响
如果不同统计量量纲差异过大,或者本来就相差悬殊,直接用协方差矩阵求主成分会导致值比较小的变量被忽略
修正的办法是将随机变量标准化:
容易发现
因此可以直接用x的相关矩阵,按照和之前一样的方法计算主成分
同时,相关矩阵有以下性质
SAS指令
princomp
因子分析
//TODO
典型相关分析
// TODO
学艺不精; 把一个抽象的东西讲清楚真的好难,我得再努力。
教材:《数理统计》- 北航出版社;《概率论与数理统计》- 茆诗松
参考书:《概率论与数理统计》-陈希孺(强烈推荐)