数理统计知识总结

BUAA-math2 数理统计复习笔记;概统复习也可参考(后来加入了一些概统的内容,数理统计特有的知识在标题后面会有“*”标记

还没写完,不想写了,打算以后填坑,你看到的TODO标记都是不想写的orz

里面有比较多的我个人的理解,如有错误,欢迎指正

基础部分

常用公式

正态

密度函数

正态总体下统计量的分布:

定理是来自正态总体的简单样本,则样本均值和样本方差相互独立, 并且

这个定理后面会在参数区间估计和假设检验部分有用

切比雪夫不等式

Markov不等式 *

三大抽样分布及其性质(important)

分布

定义:

相互独立的随机变量,,then 称为自由度为n的分布

性质

  • 可加性

F分布

定义:

性质

  • (分位数)

t分布

定义:

性质

  • 偶函数
  • 对于 iid

充分统计量 *

直观解释:

这句话说得很好:统计量,是对样本信息的压缩,是为了从中提取有效信息

例如样本的均值是统计量,我们可以从样本均值中获取关于总体均值的信息。但是压缩的效果有好有坏,对于样本 ,样本均值可以反映总体均值, 也可以反应总体均值,直觉上当然是样本均值比某个样本观测值能更好的体现均值,因为仅仅用 会损失一部分信息。我们想寻找不会损失信息的统计量,就引入了充分统计量的概念。

定义:

是来自总体 的样本,样本的函数 是统计量,如果给定 的条件下,样本 的分布函数 与参数无关(但是分布函数可能是与t有关的),则称 是参数 充分统计量

样本是一个 n 维空间中的点,确定了 t 的样本是 n-1 维空间中的点;条件分布函数与参数无关就可以理解为不能从剩下的这 n-1 维中获取更多与 有关的信息。

用定义来证明充分统计量是很难的,有下面的定理用来判断是不是充分统计量

因子分解定理:

总体分布族为 ,则统计量 是充分统计量 iff 存在 上的实值函数,以及定义在样本空间上的不依赖于 的实值函数 ,使得 (上面说的分布族就是一族分布函数,可以这么理解)

大数定律和中心极限定理

两种收敛性

  1. 依概率收敛 可以看出来,随机变量X不能太随机,而是一个接近于单点分布的随机变量

  2. 按分布收敛

    按分布收敛就是说一个随机变量列的分布函数收敛于某个函数,条件比依概率收敛弱,也称作弱收敛。

特征函数

定义

其中 X 是一个随机变量, 称为 X 的特征函数。

从分布函数转换到特征函数(傅里叶变换),从特征函数又可以还原到分布函数;这个过程信息没有损失,自变量的自由度仍然是1。

重要性质

  • (用定义就可以证明

  • if , 则 X 的特征函数可以 l 次求导,对于 用这个性质可以求各阶矩

  • 利用特征函数的泰勒展开可以得到近似分布

    利用特征函数可以比卷积更方便的求联合分布得密度函数

    可以方便证明Gamma分布的可加性

  • 特征函数唯一决定分布函数

大数定律

大数定律直观上来说,就是当样本数增多时,某个统计量逐渐趋于一个固定的值(一般是依概率收敛)

切比雪夫大数定律

条件:两两不相关,方差存在并且有公共上限 可以用切比雪夫不等式证明

马尔科夫大数定律

条件:随机变量序列,满足

证明仍然使用切比雪夫不等式。

辛钦大数定律

条件:独立同分布,数学期望存在


这里的题目大都是让你证明什么大数定律,一般会使用切比雪夫不等式,重点就是求方差,注意判断给的随机变量是独立同分布?不相关?

可能会用到这个公式:

中心极限定理

中心极限定理研究的满足一定条件时, 近似于什么分布。

当变量数量太多的时候,用卷积公式计算 的分布很麻烦,因此要近似。

独立同分布下的中心极限定理

林德伯格-莱维中心极限定理

条件: 独立同分布 存在 分布函数列弱收敛于标准正态分布

证明:泰勒展开特征函数

二项分布的正态近似

n中伯努利实验,事件A出现的概率为 p,出现的次数为 则有

n比较大时, 近似服从正态分布,这个中心极限定理是林德伯格-莱维中心极限定理的一个特例,因为比较常用所以单独学习。

修正

我也没搞清楚这个修正的原理是什么。


这一部分的常见题型为

  • 给定n,y,求概率
  • 给定n, ,求分位数
  • 给定,求样本量

参数估计

点估计

矩估计

矩估计就是用样本的中心距或者原点矩(其实两个可以互相写成线性组合,所以是等价的)去替换待估参数中的总体矩。

极大似然估计-MLE

直观解释

极大似然估计就是已知一个样本,计算让这个样本发生的“概率”(带有未知参数),求让这个概率取最大值的参数值作为参数的估计值。最后转化为一个函数求极值的问题。

(上面的“概率”一词带引号是因为对于连续型随机变量概率恒为0,对于连续型随机变量,我们用概率密度函数作为似然函数,并且忽略求概率的时候和参数无关的常数(比如二项分布忽略二项系数))

定义

似然函数 其中是分布列或者密度函数。


若参数空间中存在使得下式 为参数的极大似然估计(MLE).

二级结论

对于正态总体,均值和方差的极大似然估计为

一致最小方差无偏估计-UMVUE *

无偏估计

衡量统计量优劣的标准:均方误差-MSE

是参数的估计 均方误差可以分解为估计的方差偏差平方之和。


如果对于所有,有 说明估计T(x)比S(x)好


我们希望在一定范围内找到一个最“好”的估计。

但是,如果对估计不加限制,这个最优估计是不存在的,理由如下

假设在p(x)的所有估计里面存在一个最好的估计,和估计相比(这个估计T不管样本值是什么,都是一个常数,是一个常数估计) 由于是任意的,因此对于参数空间的每个

由此可推知,无论取什么值,必须准确估计,这显然不可能。

因此,我们要缩小寻找最优估计的范围,这就引入了无偏估计的定义:

无偏估计:

如果T(x)满足 T(x)是的无偏估计


在无偏估计的范围内寻找最好的估计-一致最小方差无偏估计

为方便,将参数p的无偏估计的集合记为

定义

若存在一个无偏估计,使得对任何 对于所有成立,则称为参数q(x)的一致最小方差无偏估计(UMVUE)。

完全充分统计量

定义:

数学中,大多数定义都是有很强的目的性的,我们理解一个定义要从“我们想要一个什么样的感觉”开始,将这个感觉不断抽象化、严格化,形成定义。定义往往不是凭空想出来的,而是“我们想要什么性质,就要求他具有什么性质”,数学家是上帝,想要什么都能变出来。

这部分鸽了,太多了。[TODO]

判断定理

是来自总体 的简单样本,总体的密度函数或者分布列为 ,样本的联合密度函数可分解为 如果 置于包含内点,则m维统计量 是完全充分的。

(上面提到的内点就是数分里面学的内点)

UMVUE的求法

  1. 有无偏估计,完全充分统计量是UMVUE
  2. 有完全充分统计量,对其进行无偏化得到是UMVUE

信息不等式和有效估计

信息不等式给出了无偏估计的方差的下限(这个下限不一定能够被达到)。

使用下面这些式子有一个大前提就是分布族满足一定的条件,属于 Cramer-Rao 正则族(这个写起来有点麻烦,不写了,书上有)

Fisher信息量: 上面这个式子一般不太容易计算。如果

值得注意的是,这里的 是总体中单个样本的信息量,如果将样本看做一个样本,它包含的信息量记为 ,则 。换句话说,就是 的信息量, 的信息量。

二级结论:

随机变量 x,y 相互独立,x的信息量为 ,y的信息量为 ,则 x,y 的信息量为

证明

由于相互独立,

证明的关键是求导和积分可以交换顺序(C-R正则族的性质),挺好证的(或者参考数理统计第二章课后题39),这里不写了

信息不等式: 如果某个估计使得信息不等式等号成立,则这个估计一定是UMVUE,反之不成立。

让信息不等式取等的估计是有效估计,有效估计是UMVUE的充分条件,这也是一种证明UMVUE的方法。

区间估计

想知道某个待估计的参数会以给定概率落在哪个区间,这就是区间估计。

枢轴变量法

枢轴变脸是一个我们已知分布的随机变量,其表达式中含有我们要估计的参数和关于样本的信息,不含其他未知参数。

由枢轴变量的分布可以找到能让枢轴变量以一定概率出现的区间,代入样本的信息,进行不等式恒等变换,就得到我们要估计的参数的置信区间。

正态分布样本的区间估计

正态总体

  1. 方差已知,估计均值

    枢轴变量 置信区间

  2. 方差未知,估计均值 置信区间

  3. 方差未知,均值未知,估计方差 由于卡方分布不对称,选用等尾置信区间,就是说让枢轴变量落在置信区间两边的概率都为

    置信区间:

分布未知

分布未知的时候,可以用中心极限定理估计总体的分布。

茆书上给的例子是:

样本 服从两点分布 b(1,p) ,现要求 p 的 置信区间。由中心极限定理 我们要估计的量是 p,可以看到,得到u的范围后要解一个一元二次方程才能得到p的范围,近似得到置信区间为: 这一部分常见的题型是给定置信度p和误差d,要让你确定样本的数量,使得样本估计值与真实值之间的误差在 d 的范围内的概率等于p。

假设检验

假设检验就是判断根据已有样本信息判断假设成不成立,但是统计上没有绝对的东西,我们只能说以某种类似于“概率”的东西接受某个假设。

判断一个假设是否成立可能有以下四种情况:

假设本来成立,判断为成立或者不成立

假设本来不成立,判断为成立或者不成立

其中我们不希望出现的是 “假设本来成立,判断为不成立”(弃真),“假设本来不成立,判断为成立”(取伪),因此要控制这两种情况出现的概率。

假设检验分为参数假设检验非参数假设检验,参数假设检验就是已知样本的分布形式,但是不知道里面的参数(比如说已知样本服从正态分布但是不知道均值);非参数检验就是我们连样本服从什么分布都不知道,假设样本服从某个分布然后检验这个假设成不成立。概统里面学的主要是参数假设检验。

参数假设检验

定义

假设检验,首先得有一个假设: 其中为原假设,也就是我们要验证的假设, 为备择假设,就是原假设不成立的时候参数落入的区域。

这就产生了一个问题,为什么会有备择假设这个东西呢?而且备择假设往往不一定是原假设对应参数取值范围在参数空间中的补,备择假设有什么意义呢?

关于原假设、备择假设是什么,以及如何选择,陈希孺老师的书里面讲的很透彻,我做了一点补充,见这篇博客:假设检验:什么是原假设和备择假设

检验的p值

p值是在原假设成立的条件下参数落入刚好能接受或者拒绝这个由样本得到的检验统计量的拒绝域的概率

本来我们判断接受还是拒绝原假设是用检验统计量和对应的分布函数的分位点做比较,这样我们如果想改变检验水平的话还得重新查分位点。我们可以直接算出能够接受这个原假设对应的最大检验水平 ,这就是 p,需要判断的时候将 p 与给定的检验水平比较。

p值是用来和 比较的, 越大,越容易拒绝,将得到的p值和 相比,如果 p 小于 就要拒绝原假设,反之可以接受原假设。

正态总体的参数假设检验

假设检验直观来说就是寻找一个已知分布的检验统计量,然后让这个统计量在 成立的条件下弃真的概率小于等于 (就是找分位点),得到对于检验统计量和分位点的不等式,这就是拒绝域。

也就是说

单个正态总体

对于均值的检验假设有这三种:

  1. 方差已知,检验均值

    检验统计量:

    对于a, 拒绝域, 弃真的概率为

    对于b, 拒绝域, 弃真的概率为

    对于c, 拒绝域, 弃真的概率为

  2. 方差未知,检验均值

    检验统计量:

    对于a, 拒绝域, 弃真的概率为

    对于b, 拒绝域, 弃真的概率为

    对于c, 拒绝域, 弃真的概率为

其实还有其他接受域和拒绝域的形式,比如

注意到这个相当于把a的原假设换成了 , 但是他的拒绝域形式是不变的。定义里面说, 是弃真概率的上界,对于小于 ,检验统计量会偏大,更容易弃真,因此 形式的接受域相比而言更不容易弃真,也就是说,满足“ 是弃真概率的上界”这个条件,因此这个检验和检验问题a拒绝域形式一样。这样解释有些繁琐,也可以结合似然比检验来理解。

双正态总体

不写了,没意思,查书

似然比检验

想法很朴素

似然比统计量 如果原假设成立, 有取较小值的趋势,如果原假设不成立, 有取较大值的趋势

因此拒绝域的形式为

临界值可由得到

检验的优良性 *

检验的势

检验的势指的是 不成立时拒绝 的概率。也就是 ( 是取伪的概率)

是拒绝域的示性函数)

检验的势和 的不同取值有关

最优势检验-MPT

对于假设检验问题

我们想在所有检验水平为 的检验中寻找势最大的检验,这就是最优势检验。

Norman-Person引理

引理表明对于这类假设检验问题最优势检验存在且一定是似然比检验

一致最优势检验-UMPT

对于假设检验问题 与最优势检验不同的是,原假设和备择假设都可以是 属于某个范围,如果存在水平为 的检验函数 ,满足对于,都有 是水平为 的一致最优势检验。

由于 取值的任意性,一致最优势检验不一定存在,书上给出了一个由分布函数判断一致最优势检验是否存在并求出来的定理(定理 3.5.1)不写了

非参数假设检验 Pearson检验

非参数检验就是相对于参数检验而言的,更具有普适性,应用范围更广。非参数检验的基本方法是 Pearson检验法,也叫 拟合方法。

总体分布的检验

在不知道分布的情况下,检验某随机变量是否服从某个分布。

这个检验只有原假设,没有备择假设

要验证某个随机变量是否服从某个分布,可以把随机试验的结果划分为 k 个不相关的小区间,随机实验结果落在每个小区间的频率已知,另外可以用待检验的分布函数算出来在这种分布下随机变量落在每个小区间的概率,如果两者相差不大,则表明可以接受原假设。

检验统计量

样本充分大时, 近似服从 分布,因此可以用 作为检验统计量。

拒绝域的形式为

如果要检验的分布中含有 个待估计的参数,先求出参数的极大似然估计, ,结论和上面类似。

二维列联表独立性检验

为了检验两个随机变量是否相关。思路和上面差不多,就是在原假设成立的前提下计算概率,然后和实际频率作差平方作为分子。得到的结果同样符合 分布。

假设二维列联表r行s列。在检验的过程中我们需要估计的参数值有 r + s - 2 个,所以 分布的自由度为

回归分析

一元线性回归

求回归系数

回归方程为

其中

回归的显著性检验

相关系数

平方和分解 :总离差平方和,数据总的离散程度

:残差平方和,反映了 和 拟合值之间的差,Q

:回归平方和,反映了拟合值偏离均值的距离,U

直观上讲, 样本总离差平方和可以分解为残差平方和与回归平方和。 反映了样本拟合的效果,也反映了样本的线性性; 反映了样本和其均值之间的差,也就是样本的离散性。

也许可以通过 在整个 中占的比例来检验样本的线性相关性,看看y的变化主要是由x的变化引起的还是由随机因素引起的。

定义 称为决定系数或者拟合优度,越大,说明拟合效果越好。

还可以推出来

回归的显著性检验

接受 代表认为回归效果不显著(也就是说 x 对 y 没有大的影响),拒绝代表回归效果显著

  1. F检验 在显著性水平 因此拒绝域形式为

  2. r检验

    容易证明 随着 F 单调递增,把 F 检验中对 F 的范围转换为对 的范围就是r检验。将 F 检验的分位数代入上式就可以得到 r 检验的拒绝域边界。

估计与预测

这两个概念挺容易弄混的。

估计是根据样本值得到总体的一些信息。 以某个置信水平落在某个置信区间指的是 ,这是抹去了变量 y 的随机性的,是对y的均值的估计。

预测是给定一个 看看这个时候随机变量 以某个概率落在某个区间,这个是考虑了 y 作为随机变量的随机性的。

方差分析与正交实验设计 *

// TODO不想写了,这么着吧!

判别分析 *

判别分析就是分类。给出来一个样本的观测值,再给出一些类的相关信息,判断这个样本最可能属于哪一个类。

距离判别

一个简单的思路是计算欧氏距离,但是由于量纲不同,计算欧氏距离的结果是依赖于量纲的。 为了消除量纲的影响,采用马氏距离:

两个样本之间的马氏距离:

样本与总体之间的马氏距离:

其中 分别为总体的均值向量和协方差阵。x,y也都是向量。

马氏距离还可以理解为将样本标准化后求欧氏距离:

(是对称矩阵才能满足相等的要求,至于正定矩阵为什么一定能被开根为对称矩阵,见这篇博客)

计算距离之后,选择距离最小的总体作为样本的归属。

特别的,对于两个总体的距离判别,如果协方差矩阵相等,可以证明

取判别函数 ,可以根据判别函数的正负判断属于哪一类。判别函数是线性的。

Fisher判别

image-20220629182103748

就类似于这种感觉(不同的是,这个图为了便于画出来,是从三维到二维的投影,而Fisher判别是从n维到1维的投影),将多个总体和要多维随机变量投影到一个方向,让这个方向上的组与组之间尽可能“好区分”,类似于方差分析的思想,让投影之后的数据“组间平方和”大,“组内平方和”小。投影之后的样本和总体都是一维的,我们可以通过简单作差来判断待判别的样本距离哪一个总体最近。

相关分析 *

主成分分析

概述

有一堆随机变量,它们之间可能有错综复杂的相关关系,比如设计服装的一些指标,包括身高、腰围、胸围等等。太过复杂的数据不便于使用,如果能把这些错综复杂的随机变量化为少数几个不相关的综合指标(主成分),让这些新指标能够更多地反应原来的指标提供的信息,就能够更容易地利用信息,对于前面服装生产的栗子来说就是使用少数几个综合指标设计出大多数人适合的衣服,排除一些可能需求特别少的衣服尺码。

模型

总体是p元总体

寻求 的线性组合,使得能尽可能多的反应x的信息。

也就是说,在x变化的时候,要让变化的程度尽可能大,也就是让的方差尽可能大。

,则,(其中是x的协方差矩阵),但是如果不给u加以限制,y的方差可以无限大,规定,在这个条件下寻求让方差最大的

条件极值可以使用Lagrange乘子法或者直接放缩,略去过程,得到如下定理:

定理 8.1.1:

设协方差矩阵的特征值依次为,其相应的单位正交特征向量为

  1. 处取得最大值
  2. 处取得最大值

第一条用来获取第一个主成分,第二条用来获取与已有主成分相互正交的新的主成分.

只需要求协方差矩阵的特征值和特征向量就可以得到我们需要的主成分。

步骤如下

求出的特征值,排序,从大到小挑选几个特征值,求这几个特征值对应的单位正交特征向量,就可以得到p个主成分,称为第k主成分,称为第k主轴。


贡献率

贡献率用来定量刻画我们选择的主成分能够概括多少原始信息

定义前k个主成分的方差贡献率为

消除量纲的影响

如果不同统计量量纲差异过大,或者本来就相差悬殊,直接用协方差矩阵求主成分会导致值比较小的变量被忽略

修正的办法是将随机变量标准化:

容易发现 R是x的相关矩阵

因此可以直接用x的相关矩阵,按照和之前一样的方法计算主成分

同时,相关矩阵有以下性质

SAS指令

princomp

因子分析

//TODO

典型相关分析

// TODO


学艺不精; 把一个抽象的东西讲清楚真的好难,我得再努力。


教材:《数理统计》- 北航出版社;《概率论与数理统计》- 茆诗松

参考书:《概率论与数理统计》-陈希孺(强烈推荐)