更新时间:作者:小小条

统计 (Statistics):
描述统计: 核心在于整理、描述、概括数据特征。
数据收集: 普查(全体)、抽样调查(部分)。抽样方法如简单随机抽样、分层抽样、系统抽样、整群抽样,关键在于保证样本代表性。
数据整理: 频数分布表、直方图、条形图、折线图、扇形图、茎叶图、箱线图等。图表选择需匹配数据类型(分类/数值)与分析目的(分布/比较/趋势)。
数据特征量:
集中趋势: 平均数(易受极端值影响)、中位数(位置居中,抗极端值)、众数(出现最频繁)。三者关系可揭示数据分布偏态。
离散程度: 极差(粗略)、方差/标准差(核心指标,衡量数据偏离平均值的平均程度)、四分位距(箱线图核心,反映中间50%数据的离散度,抗极端值)。
推断统计: 核心在于用样本推断总体,包含不确定性。
参数估计: 点估计(如用样本均值估计总体均值)、区间估计(置信区间,如“95%置信度下总体均值在[a,b]之间”)。
假设检验: 先对总体提出假设(如H0:μ=μ0),再根据样本数据判断是否有足够证据拒绝H0(核心逻辑:小概率事件原理)。
概率 (Probability):
基础: 衡量随机事件发生可能性的数值(0 ≤ P(A) ≤ 1)。P(必然事件)=1,P(不可能事件)=0。
古典概型: 适用于样本空间有限且每个基本事件等可能的情形。P(A) = A包含的基本事件个数 / 样本空间基本事件总数。如掷骰子得偶数概率为3/6=1/2。
几何概型: 适用于样本空间为可度量的几何区域(长度、面积、体积)且每个点等可能的情形。P(A) = 构成事件A的区域度量 / 样本空间的区域度量。如在[0,1]区间随机取点,落在[0.2,0.5]的概率为0.3。
事件关系与运算:
互斥事件: A与B不可能同时发生(A∩B=∅),则P(A∪B)=P(A)+P(B)。
对立事件: A不发生的事件(Ā),P(Ā)=1-P(A),且A与Ā互斥。
相互独立事件: A发生与否不影响B发生的概率(反之亦然),则P(A∩B)=P(A)P(B)。互斥不一定独立(除非其一概率为0),独立不一定互斥。
条件概率: 在事件B已发生的条件下,事件A发生的概率。P(A|B) = P(A∩B) / P(B) (P(B)>0)。理解条件概率是理解独立性和乘法公式的关键。
乘法公式: P(A∩B)=P(A)P(B|A)=P(B)P(A|B)。用于计算交事件的概率。
全概率公式: 若事件B1,B2,...,Bn构成完备事件组(互斥且并集为样本空间),则对任意事件A:P(A) = Σ[P(Bi)P(A|Bi)]。用于计算复杂事件A的概率,将其分解到不同“原因”Bi下。
贝叶斯公式: 在全概率公式基础上,求“结果A已发生”的条件下,“原因Bi”发生的概率:P(Bi|A) = [P(Bi)P(A|Bi)] / [ΣP(Bj)P(A|Bj)]。用于逆概率推理(由果溯因)。
离散型随机变量: 取值可数的随机变量(如掷骰子点数)。
分布律: P(X=xk)=pk (k=1,2,...),清晰列出所有可能取值及其概率。
期望E(X): 所有可能取值与其概率乘积之和,E(X)=Σ[xk * pk],反映平均取值水平。具有线性性质:E(aX+b)=aE(X)+b。
方差D(X): 衡量取值偏离期望的平均程度,D(X)=E[(X-E(X))²] = E(X²) - [E(X)]²。计算常用后者。标准差σ(X)=√D(X)。具有性质:D(aX+b)=a²D(X)。
常见分布:
二项分布X~B(n,p): n重独立伯努利试验中成功次数。P(X=k)=C(n,k)p^k(1-p)^(n-k),E(X)=np,D(X)=np(1-p)。应用场景:独立重复试验(如抛硬币、产品合格率)。
超几何分布: 不放回抽样中指定类别的个数。P(X=k)=C(M,k)C(N-M,n-k)/C(N,n)。当N很大,n/N很小时,近似二项分布。
泊松分布X~P(λ): 单位时间/面积内稀有事件发生次数。P(X=k)=(λ^k e^(-λ))/k!,E(X)=λ,D(X)=λ。是二项分布n很大p很小时的近似。
连续型随机变量: 取值充满某个区间的随机变量(如灯泡寿命)。
概率密度函数f(x): 描述概率在数轴上的分布密度。f(x)≥0,且∫(-∞, +∞)f(x)dx=1。概率P(a<X≤b)=∫(a,b)f(x)dx。
分布函数F(x): F(x)=P(X≤x)=∫(-∞,x)f(t)dt。具有单调不减、右连续、F(-∞)=0, F(+∞)=1的性质。
期望E(X): E(X)=∫(-∞, +∞)x f(x)dx。
方差D(X): D(X)=∫(-∞, +∞)[x-E(X)]² f(x)dx = E(X²) - [E(X)]²。
常见分布:
均匀分布X~U(a,b): 在[a,b]上等可能取值。f(x)=1/(b-a) (a<x<b),E(X)=(a+b)/2,D(X)=(b-a)²/12。
正态分布X~N(μ,σ²): 最重要的分布!钟形曲线,对称轴x=μ,σ决定胖瘦。标准正态分布Z~N(0,1),其分布函数Φ(z)可查表。一般正态化标准:Z=(X-μ)/σ。3σ原则: P(|X-μ|<σ)≈68.3%,P(|X-μ|<2σ)≈95.4%,P(|X-μ|<3σ)≈99.7%。
版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除