Skip to content

6.1 数理统计基本知识

总体和个体

  • 一般地,所研究对象的某个(或某些)数量指标的全体称为总体
  • 如果所研究的问题只有一个数量指标,就是一个随机变量,如果所研究的问题有多个数量指标,就是多维随机变量
  • 个体就是总体的每个数量指标。

样本和样本空间

  • 一般地,为研究总体的特征,从总体中抽取部分个体,称为样本

  • 若从某个总体 X 中抽取了 n 个个体, 记为 (X1,X2,,Xn), 则称其为总体 X 的一个容量为 n 的样本.

    依次对它们进行观察得到 n 个数据 (x1,x2,,xn), 称这 n 个数据 (n 维实向量) 为总体 X 的一个容量为 n样本观测值, 简称样本值

    可以将它们看作 n 维随机向量 X 的一组可能的取值, 样本 (X1,X2,,Xn) 的所有可能取值的集合称为样本空间, 记为 χ

样本与统计量

简单随机样本

若来自总体 X 的一个样本 (X1,X2,,Xn)X 的一个简单随机样本, 则其满足:

  • 独立性
  • 同分布性
放回抽样与不放回抽样

一般, 对有限总体, 放回抽样所得到的样本为简单随机样本, 但使用不方便

用不放回抽样代替 代替条件 N/n10

分布函数

总体的分布函数为 F(x), 则 (X1,X2,,Xn) 的联合分布函数为

F(x1,x2,,xn)=i=1nF(xi)

概率密度

总体的概率密度为 f(x), 则 (X1,X2,,Xn) 的联合概率密度为

f(x1,x2,,xn)=i=1nf(xi)

统计量

总体 X 的简单随机样本 (X1,X2,,Xn), 有不含除自变量之外的未知参数的实连续函数 g(r1,r2,,rn), 使随机变量 g(X1,X2,,Xn)统计量

统计量 g(X1,X2,,Xn) 的一个样本值: g(x1,x2,,xn)

常用统计量

https://teru.space/2022/09/17/概率统计笔记/#性质-4

(X1,X2,,Xn) 为总体 X 的一个容量为 n 的样本

样本均值

X¯=1ni=1nXi

样本值记为 x¯

与数学期望的区别

  • 样本均值是随机变量, 具有分布
  • 数学期望是常数
  • 依概率收敛到数学期望
样本均值与单个变量的协方差

cov(Xi,X¯)=1nk=1ncov(Xi,Xk)=1n(E(Xi2)+(n1)E(X)E(Xi)nE(Xi)E(X))=1n(E(X2)E2(X))=1nD(X).

样本方差

S2=1n1i=1n(XiX¯)2

S2 的样本值记为 s2

样本标准差

S=1n1i=1n(XiX¯)2

S 的样本值记为 s

样本均值、样本方差与期望、方差的关系

E(X¯)=E(X)D(X¯)=D(X)nE(S2)=D(X)

样本 k 阶原点矩

Mk=1ni=1nXik(k=1,2,)

Mk 的样本值记为 mk

  • M1=X¯

样本 k 阶中心矩

(CM)k=1ni=1n(XiX¯)k(k=1,2,)

(CM)k 的样本值记为 (cm)k

  • (CM)2=M2X¯2
    • 知道均值和平方的均值即可知道 2 阶中心矩
  • (CM)2=n1nS2Sn2
    • 知道 2 阶中心矩即可知道方差
样本方差 S2 与样本二阶中心矩 Sn2 的不同

  1. 关系式S2=nn1Sn2
  2. E(Sn2)=n1nσ2E(S2)=σ2
样本方差与修正的样本方差

有的书中, 为了方便, 定义 Sn2 为样本方差, 记为 S2 同时有修正的样本方差 S2=nn1Sn2=nn1S2

顺序统计量

将一组样本的样本值 (x1,x2,,xn) 从小到大排序后记为 x1x2xn,

定义 X(k)=xk,k=1,2,,n, X(k) 的取值为样本中从小到大排第 k 位的数

则称 X(1),X(2),,X(n)顺序统计量

  • 顺序统计量可能既不独立, 分布也不相同
极值的分布

Recall: 二维随机变量极值的分布

总体 X (连续型随机变量) 分布函数 F(x), 密度函数 f(x) 样本极小值 X(1) 的分布密度与分布函数为

f1(y)=n[1F(y)]n1f(y)F1(y)=1[1F(y)]n
  • 要满足样本全体大于 y

样本极大值 X(n) 的分布密度与分布函数为

fn(y)=n[F(y)]n1f(y)Fn(y)=[F(y)]n
  • 要满足样本全体都小于 y

极差

Dn=X(n)X(1)

*样本中位数

X~={X(n+12),n 为奇数 12(X(n2)+X(n2+1)),n 为偶数 

*样本经验分布函数

Fn(x)={0,x<x(1)kn,x(k)x<x(k+1)1,xx(n)k=1,2,,n1
  • n, Fn(x)np=1F(x), Fn(x) 以概率 1 一致收敛于分布函数 F(x)
直方图

对于连续型随机变量的研究, 引入 “频率直方图”

X 的分布函数和密度函数分别用 F(x),f(x) 表示,

f(x)=F(x)=limΔx0F(x+Δx)F(x)Δx=limΔx0P(x<Xx+Δx)Δx

|Δx| 很小时, f(x)P(x<Xx+Δx)Δx

密度函数在 x 处的值 f(x) 近似等于随机变量 X 落入含有 x 的小区间的概率 ֺ÷ 小区间的长度

f(x)频率密度近似相等

α 分位数

对于连续性随机变量 X, 其概率密度为 f(x),

  • 上侧 α 分位数 xα: P(X>xα)=α
    • α(0,1) 内的给定常数
  • 双侧 α 分位数 xα/2 (对于偶函数): P(|X|>xα/2)=α
    • α(0,12) 内的给定常数