Skip to content

概率论与数理统计

概率论

pre

  • 参数估计
    • 置信度:是指在进行区间估计时,总体参数落在估计区间内的概率。通常用百分数表示,比如 95%、99%等。
    • 置信区间:以样本统计量为中心,包含总体参数的可能范围。
    • 置信区间的宽度反映了估计的精度,置信度反映了估计的可靠性。
    • 区间估计比点估计提供了更全面和丰富的信息,但点估计更简洁直观。在实际应用中,需要根据具体需求和情况选择使用点估计还是区间估计。
    • 参数估计是根据从总体中抽取的样本估计总体分布,分为点估计和区间估计两种形式。

随机事件和概率(6种题型)

  • 1、无放回题目
    • 一次摸多个
      • 一个C,分子是总数往下(小)阶乘,分母是取的数阶乘;
      • 不用看书上的公式(公式是用总数和要取的东西数组合,还有阶乘来算的);
      • 用这个方法就行:C下面是总数,上面是要取的东西数。两个C相除就是结果;
    • 多个种类,一次摸多个
      • 需要有3个C,分子的两个C相乘(分子是"这类型的"总数往下(小)阶乘,分母是"这类型"取的数阶乘),分母一个C(分子是总数往下(小)阶乘,分母是取的数阶乘)
      • 公式
      • 例题:盒子里有3绿4红共7个小球,无放回的摸3个,求摸出1绿2红的概率?
  • 2、有放回题目(进行多次,每次情况一致)
    • (活动进行的次数!/(问号第一类被摸出次数!·问号第二类被摸出次数!·...))·问一类被摸出次数(n/总数)·问二类被摸出次数(n/总数),总数只在后面这个分式用到;
    • 例如:盒子里有3绿4红共7个小球,有放回的摸3次,试求摸出1绿2红的概率?
    • 例题
  • 3、事件的概率(画交集的图做)
    • 下U是并集集,U和(+)是交集
    • 字母上面有一条杠,意思是这个字母区域以外的区域;
    • P(A杠 下U B):意思是求A区域以外的区域和B区域的交集;字母上带U的求法:0.45-0.18=0.27;
    • 例题:A=0.4,B=0.45;P(A)·P(B) = 0.4×0.45 = 0.18,那这俩重合区域面积就是0.18,
  • 4、条件概率(|)和上面是一类题目
    • 在已知N发生的情况下,M发生的概率,就是条件概率,用|表示,P(A|B);
    • 例如:P(A上一条杠|B)=分子是事件的概率的结果(上面那个),分母是P(B);
  • 5、全概率公式
    • P{集体发生某事} = P{个体1出现}·P{个体1发生该事} + P{个体2出现}·P{个体2发生该事} +...
    • 例题:
      • 客车中有20%是高速客车,80%是普通客车,假设高速客车发生故障的概率是0.002,普通客车发生故障的概率是0.01。求路上有客车发生故障的概率?
      • 20%×0.002+80%×0.01 = 0.0084
  • 6、贝叶斯公式(和上面是一类题目)
    • P{发生该事的是某个体(集体中的个体)} = 分子(P{该个体出现}·P{该个体发生该事})/分母(P{集体发生该事});
    • 例题:还是上题的前缀,求该高速公路上有客车发生故障时,发生故障的是"高速客车"的概率?
    • (20%×0.002)/0.0084 = 1/21

离散型随机变量(6种题型)

  • 什么叫离散型随机变量?
    • 这些量的取值都是可以一个一个明确列举的,不是像在一段区间内可以取任意值;
    • 比如掷骰子出现的点数 1、2、3、4、5、6,班级里学生的人数,一天内接到的电话次数等等。
  • 1、求分布律里的未知数:
    • 为什么叫分布律,边缘分布律?
      • 分布律:描述了随机变量取值的概率分布规律,我们能够清楚地知道随机变量取每个可能值的概率是多少;
      • 边缘分布律:在涉及多个随机变量的联合分布中(X,Y),只考虑其中一个随机变量的概率分布时,就得到了这个随机变量的边缘分布律。
    • 1、两行(1行是随机数,1行是概率)概率行中有一列有一个未知数,求这个未知数,概率行每个数字相加=1-(概率行每个数字)=未知数;
    • 2、二维随机变量(X,Y)的联合分布律,求一个未知数,所有行和列相加等于1,和第一题的区别是不是各自行相加;
  • 2、根据 X 的分布律写 Y 的分布律
    • 已知 X 的分布律,求 Y = X² +1 的分布律,在x平方的基础上再+1咯;
  • 3、根据 (X,Y) 的分布律写 Z 的分布律
    • 已知 (X,Y) 的分布律,求 Z = XY 的分布律;
    • xy相乘=z,合并相同的数(相同的数当然是一个概率咯)
  • 4、根据 (X,Y) 的分布律写边缘分布律
    • 已知 (X,Y) 的分布律,求随机变量 X、Y 的边缘分布律;
    • x是一个数,y是另个数,有n个对应的数,列成一个二维表格,表格里面x(行)和y(列)对应数的概率数相加,也就是x或y的边缘分布律咯;
  • 5、X 与 Y 相互独立时的联合分布律(不看)
  • 6、根据分布律求期望(EX、EY)、方差(DX)
    • 已知 X 的分布律,Y 的分布律,求下列三种情况:
    • EX(Y)
      • EX(Y) = 对应列相乘再相加其它的列;
      • E(X²)、E(Y3+1),这种只是把对应位置的X或Y做了响应的变化;
    • DX = E(X²) − (EX)²,注意E在括号里面还是外面,他俩都是列相乘再相加算出来的一个值,括号里面的EX需要再平方一下;

连续型需要的积分

  • 求分段函数在确定区间的定积分
    • 画线段,确定两个积分区域,
    • 不定积分求法:
      • a的导数=b,那∫b=a+C(常数),a是b的原函数;
      • 做不定积分的两种方法:
        • 1、从不定积分式子中就能看出这个式子是那个求导得到的(原函数),就用这个式子+C;
        • 2、背上图的公式(这种方法能做出全部题型)
        • 在实际求解不定积分时,需要根据被积函数的特点,灵活选择合适的方法。
    • 定积分求法:
      • 定积分的值就是原函数在积分上限和下限的值之差;
      • ①求式子的不定积分的值(是一个式子+C),
      • ②用上一步得出的(式子在x等于在定积分上限的值)-(式子在x等于在定积分下限的值)=定积分的答案;
  • 求分段函数在−∞到未知数的定积分
  • 求简单的二重积分
  • 求 f(x,y) 的二重积分

一维连续型随机变量(这些都和积分有关)

二维连续型随机变量(和二重积分有关)

常见的分布

随机变量的数字特征和极限定理

数理统计

数理统计基础

  • 求样本均值、样本方差、样本标准差
    • 样本均值(X上有一条线):就是样本平均值,相加/总数=样本均值,读作(X)拔。可以用求和符号sigma表示1/n∑;
    • 样本方差:(X1−样本均值)²+(Xn−样本均值)²/(总数-1) = S²
    • 样本标准差:根号S²
  • 求统计量的期望和方差
    • 把样本均值和样本方差作为参数,可以求出期望和方差;
    • 期望和方差
  • 已知服从三大分布,求某东西
    • 已知随机变量 M~χ2(3),求 DM? DM = 2×3 = 6
    • 设随机变量 M~t(n),且 P{M>c} = α,则 P{M<−c} =多少?
  • 判断服从啥分布(某个式子或某个随机变量)
    • 根据随机变量的取值特征:
      • 分析随机变量的取值是“离散的”还是“连续的”。
      • 离散型随机变量常见的有二项分布、泊松分布等;
      • 连续型随机变量常见的有正态分布等。
    • 概率规律:
      • 观察随机变量取值的概率分布是否具有特定的规律。
      • 比如正态分布具有对称性和特定的概率集中区间;
      • 二项分布中每次试验只有两种结果且概率固定等。
    • 与已知分布的对比:将式子与常见分布的定义和特征进行对比,看是否符合某种已知分布的模式。
  • 总体服从正态分布的小题

参数估计

  • 矩估计法
    • 设总体 X 的概率分布为:一个矩阵,包括X和X对应的概率值,概率值中有未知参数;
    • 求概率值中有未知参数的矩估计?为什么叫矩估计?
  • 最大似然估计法
    • 和上题一样,也是概率值中有未知参数,求未知参数(θ)的最大似然估计值?
  • 区间估计
    • 求μ值
      • X服从正态分布,方差已知;
      • X服从正态分布,方差未知;
    • 求σ(小写的Sigma):X服从正态分布,均值未知;
    • 求μx-μy(下列3种已知的情况)
      • X 服从正态分布,方差已知;
      • Y 服从正态分布,方差已知;
      • X 服从正态分布,Y 服从正态分布,仅知他俩方差相等
  • 求 σ 的置信度为 0.95 的置信区间?
    • 设总体 X 服从正态分布 N(μ, σ2) ,从总体中抽取容量为 36 的一个样本,样本均值 X = 3.5,样本方差S² = 4;
    • 置信度:可以理解为对自己估计结果有多大把握是正确的程度,通常用百分数表示,比如 90%、95%。
    • 置信区间:是根据样本数据计算出来的一个范围,有一定的把握(置信度)认为这个范围内包含了总体的真实参数值。
    • 例如:估计某个班级学生的平均身高,
      • 说有 95%的把握认为平均身高在 160 厘米到 170 厘米之间,
      • 这里“95%”就是置信度,“160 厘米到 170 厘米”就是置信区间。
    • 置信区间的宽度取决于样本量、数据的变异性以及所选择的置信度水平。一般来说,样本量越大、数据变异性越小、置信度越低,置信区间就越窄。

假设检验

  • 假设检验

    • 已知总体的方差σ²0;
    • 只知样本数据,不知总体方差;
    • 已知X、Y总体的方差;
    • 只知X、Y总体的方差相等;
    • 只知道俩样本容量相同,即nX = nY;
    • 拒绝域:
      • 是根据一定的规则划定的,用来决定是否拒绝原假设的范围。拒绝域就好比是一个“警报范围”。
      • 在假设检验里,我们先对总体情况做一个假设(原假设)。然后根据样本数据算一个值(检验统计量)。
      • 拒绝域就是事先设定好的一个数值范围,如果算出来的这个值落在了这个范围内,那就说明“原假设可能不对”,要拒绝原假设;
      • 要是没在这个范围内,就先暂时接受原假设。拒绝域就好比是一个“警报范围”。
    • 问某包装机包装葡萄糖的机器是否正常?
      • 袋装糖的净重是一个"正态随机变量",其"标准差"为 0.015kg,且长期实践表明标准差稳定不变,机器正常时均值为 0.5kg。
      • 某日开工后随机地抽取该机器所包装的糖 9 袋,称得净重平均值为 0.511kg,问机器是否正常?(α=0.05,z0.025=1.96)
  • 假设检验的小题

回归分析

  • 线性回归
    • 研究某一化学反应过程中温度x (℃) 对产品得率y (%) 的影响,测得数据如下表。求 y关于 x 的线性回归方程,并求 σ²的无偏估计;
    • “线性回归”这个名称包含了两个关键概念:“线性”和“回归”。
    • “线性”指的是模型中自变量和因变量之间的关系是通过线性组合来描述的。
    • 后代的身高有向平均身高“回归”的趋势。后来“回归”这个词被广泛用于表示通过研究变量之间的关系,来预测或估计某个变量的值。
    • 综合起来,“线性回归”就是通过线性的数学模型来研究和描述变量之间的这种回归关系。

查表

  • 查表Φ(?)、 z?
    • 从表中找两个数据进行加或减咯,很简单;
    • 查 Φ(−1.86)
    • 查 z0.025
  • 查表 —— χ2、t、F
    • 查 χ20.05(24)

名词解释

在概率论和统计学中的一些重要的分布

  • 正态分布(Normal Distribution):许多自然现象和社会现象都近似服从正态分布。例如,人群的身高、体重,学生的考试成绩等;特点是均值、中位数;
  • 二项分布(Binomial Distribution):用于描述在n次独立重复试验中,成功次数的概率分布。例如抛硬币n次正面朝上的次数。每次试验只有两种可能的结果;
  • 泊松分布(Poisson Distribution):常用来描述在一定时间或空间内,某事件发生的次数。比如单位时间内某网站的访问量。
  • 均匀分布(Uniform Distribution):在一个区间内,概率密度函数是常数,表示在该区间内任何值出现的可能性相同。例如:从区间[a, b]中随机抽取一个数。
  • 指数分布(Exponential Distribution):描述独立随机事件发生的时间间隔。例如,电子元件的寿命。

三个重要分布

  • 正态分布、二项分布、泊松分布;
  • 服从某一分布,可用相应分布的概率公式来计算随机变量取不同值的概率;

数据的离散程度

  • 数据点相对于平均值或中心趋势的分散程度。

    • 离散程度越大,说明数据越分散,差异越大;
    • 离散程度越小,说明数据越集中,差异越小。
  • 一些用于衡量数据离散程度的指标包括极差、方差、标准差等。

    • 极差:样本中最大数减最小数,例如 18 - 10 = 8,数据的极差更大,离散程度更高。
    • 方差和标准差:
      • 通过更复杂的计算综合考虑了每个数据点与平均值的偏离情况。
      • 通常情况下,标准差越大,数据的离散程度越高。
      • “D 上面一条横杠”通常读作“D 拔”,它表示随机变量 D 的方差。
    • 标准差:
      • 是用来衡量一组数据离散程度或分布的宽度的统计量,它反映了数据相对于平均值的分散程度。
      • 标准差越大,说明数据越分散;标准差越小,说明数据越集中在平均值附近。
      • 计算方法是先求出这组数据的平均值,然后计算每个数据与平均值的差值,将这些差值平方后求平均值,再对这个平均值开平方。
  • 什么是是截距?

    • 在直线方程的情境下,截距指的是直线与坐标轴交点的坐标值。
    • 对于直线方程y=kx+b,其中b就是截距。
    • 当直线与y轴相交时,交点的纵坐标就是y轴截距。例如,直线y=2x+3,3就是y轴截距。