概率论与数理统计

概率论

pre

参数估计
- 置信度：是指在进行区间估计时，总体参数落在估计区间内的概率。通常用百分数表示，比如 95%、99%等。
- 置信区间：以样本统计量为中心，包含总体参数的可能范围。
- 置信区间的宽度反映了估计的精度，置信度反映了估计的可靠性。
- 区间估计比点估计提供了更全面和丰富的信息，但点估计更简洁直观。在实际应用中，需要根据具体需求和情况选择使用点估计还是区间估计。
- 参数估计是根据从总体中抽取的样本估计总体分布，分为点估计和区间估计两种形式。

随机事件和概率(6种题型)

1、无放回题目
- 一次摸多个
  - 一个C，分子是总数往下(小)阶乘，分母是取的数阶乘；
  - 不用看书上的公式(公式是用总数和要取的东西数组合，还有阶乘来算的)；
  - 用这个方法就行：C下面是总数，上面是要取的东西数。两个C相除就是结果；
- 多个种类，一次摸多个
  - 需要有3个C，分子的两个C相乘(分子是"这类型的"总数往下(小)阶乘，分母是"这类型"取的数阶乘)，分母一个C(分子是总数往下(小)阶乘，分母是取的数阶乘)
  - 例题：盒子里有3绿4红共7个小球，无放回的摸3个，求摸出1绿2红的概率？
2、有放回题目(进行多次，每次情况一致)
- (活动进行的次数!/(问号第一类被摸出次数!·问号第二类被摸出次数!·...))·问一类被摸出次数(n/总数)·问二类被摸出次数(n/总数)，总数只在后面这个分式用到；
- 例如：盒子里有3绿4红共7个小球，有放回的摸3次，试求摸出1绿2红的概率？
3、事件的概率(画交集的图做)
- 下U是并集集，U和(+)是交集
- 字母上面有一条杠，意思是这个字母区域以外的区域；
- P(A杠下U B)：意思是求A区域以外的区域和B区域的交集；字母上带U的求法：0.45-0.18=0.27；
- 例题：A=0.4，B=0.45；P(A)·P(B) = 0.4×0.45 = 0.18，那这俩重合区域面积就是0.18，
4、条件概率(|)和上面是一类题目
- 在已知N发生的情况下，M发生的概率，就是条件概率，用|表示，P(A|B)；
- 例如：P(A上一条杠|B)=分子是事件的概率的结果(上面那个)，分母是P(B);
5、全概率公式
- P{集体发生某事} = P{个体1出现}·P{个体1发生该事} + P{个体2出现}·P{个体2发生该事} +...
- 例题：
  - 客车中有20%是高速客车，80%是普通客车，假设高速客车发生故障的概率是0.002，普通客车发生故障的概率是0.01。求路上有客车发生故障的概率？
  - 20%×0.002+80%×0.01 = 0.0084
6、贝叶斯公式(和上面是一类题目)
- P{发生该事的是某个体(集体中的个体)} = 分子(P{该个体出现}·P{该个体发生该事})/分母(P{集体发生该事});
- 例题：还是上题的前缀，求该高速公路上有客车发生故障时，发生故障的是"高速客车"的概率?
- (20％×0.002)/0.0084 = 1/21

离散型随机变量(6种题型)

什么叫离散型随机变量？
- 这些量的取值都是可以一个一个明确列举的，不是像在一段区间内可以取任意值；
- 比如掷骰子出现的点数 1、2、3、4、5、6，班级里学生的人数，一天内接到的电话次数等等。
1、求分布律里的未知数：
- 为什么叫分布律，边缘分布律？
  - 分布律：描述了随机变量取值的概率分布规律，我们能够清楚地知道随机变量取每个可能值的概率是多少；
  - 边缘分布律：在涉及多个随机变量的联合分布中（X，Y），只考虑其中一个随机变量的概率分布时，就得到了这个随机变量的边缘分布律。
- 1、两行(1行是随机数，1行是概率)概率行中有一列有一个未知数，求这个未知数，概率行每个数字相加=1-(概率行每个数字)=未知数；
- 2、二维随机变量(X,Y)的联合分布律，求一个未知数，所有行和列相加等于1，和第一题的区别是不是各自行相加；
2、根据 X 的分布律写 Y 的分布律
- 已知 X 的分布律，求 Y = X² +1 的分布律，在x平方的基础上再＋1咯；
3、根据 (X,Y) 的分布律写 Z 的分布律
- 已知 (X,Y) 的分布律，求 Z = XY 的分布律；
- xy相乘=z，合并相同的数(相同的数当然是一个概率咯)
4、根据 (X,Y) 的分布律写边缘分布律
- 已知 (X,Y) 的分布律，求随机变量 X、Y 的边缘分布律；
- x是一个数，y是另个数，有n个对应的数，列成一个二维表格，表格里面x(行)和y(列)对应数的概率数相加，也就是x或y的边缘分布律咯；
5、X 与 Y 相互独立时的联合分布律(不看)
6、根据分布律求期望(EX、EY)、方差(DX)
- 已知 X 的分布律，Y 的分布律，求下列三种情况：
- EX(Y)
  - EX(Y) = 对应列相乘再相加其它的列；
  - E(X²)、E(Y3+1)，这种只是把对应位置的X或Y做了响应的变化；
- DX = E(X²) − (EX)²，注意E在括号里面还是外面，他俩都是列相乘再相加算出来的一个值，括号里面的EX需要再平方一下；

连续型需要的积分

求分段函数在确定区间的定积分
- 画线段，确定两个积分区域，
- 不定积分求法：
  - a的导数=b，那∫b=a+C(常数)，a是b的原函数；
  - 做不定积分的两种方法：
    - 1、从不定积分式子中就能看出这个式子是那个求导得到的(原函数)，就用这个式子+C；
    - 2、背上图的公式（这种方法能做出全部题型）
    - 在实际求解不定积分时，需要根据被积函数的特点，灵活选择合适的方法。
- 定积分求法：
  - 定积分的值就是原函数在积分上限和下限的值之差；
  - ①求式子的不定积分的值(是一个式子+C)，
  - ②用上一步得出的(式子在x等于在定积分上限的值)-(式子在x等于在定积分下限的值)=定积分的答案；
求分段函数在−∞到未知数的定积分
求简单的二重积分
求 f(x,y) 的二重积分

一维连续型随机变量(这些都和积分有关)

二维连续型随机变量(和二重积分有关)

常见的分布

随机变量的数字特征和极限定理

数理统计

数理统计基础

求样本均值、样本方差、样本标准差
- 样本均值(X上有一条线)：就是样本平均值，相加/总数=样本均值，读作(X)拔。可以用求和符号sigma表示1/n∑;
- 样本方差：(X1−样本均值)²+(Xn−样本均值)²/(总数-1) = S²
- 样本标准差：根号S²
求统计量的期望和方差
- 把样本均值和样本方差作为参数，可以求出期望和方差；
已知服从三大分布，求某东西
- 已知随机变量 M~χ2(3)，求 DM？ DM = 2×3 = 6
- 设随机变量 M~t(n)，且 P{M>c} = α，则 P{M<−c} =多少？
判断服从啥分布(某个式子或某个随机变量)
- 根据随机变量的取值特征：
  - 分析随机变量的取值是“离散的”还是“连续的”。
  - 离散型随机变量常见的有二项分布、泊松分布等；
  - 连续型随机变量常见的有正态分布等。
- 概率规律：
  - 观察随机变量取值的概率分布是否具有特定的规律。
  - 比如正态分布具有对称性和特定的概率集中区间；
  - 二项分布中每次试验只有两种结果且概率固定等。
- 与已知分布的对比：将式子与常见分布的定义和特征进行对比，看是否符合某种已知分布的模式。
总体服从正态分布的小题

参数估计

矩估计法
- 设总体 X 的概率分布为：一个矩阵，包括X和X对应的概率值，概率值中有未知参数；
- 求概率值中有未知参数的矩估计？为什么叫矩估计？
最大似然估计法
- 和上题一样，也是概率值中有未知参数，求未知参数(θ)的最大似然估计值？
区间估计
- 求μ值
  - X服从正态分布，方差已知；
  - X服从正态分布，方差未知；
- 求σ(小写的Sigma)：X服从正态分布，均值未知；
- 求μx-μy(下列3种已知的情况)
  - X 服从正态分布，方差已知；
  - Y 服从正态分布，方差已知；
  - X 服从正态分布，Y 服从正态分布，仅知他俩方差相等
求 σ 的置信度为 0.95 的置信区间？
- 设总体 X 服从正态分布 N(μ, σ2) ，从总体中抽取容量为 36 的一个样本，样本均值 X = 3.5，样本方差S² = 4；
- 置信度：可以理解为对自己估计结果有多大把握是正确的程度，通常用百分数表示，比如 90%、95%。
- 置信区间：是根据样本数据计算出来的一个范围，有一定的把握（置信度）认为这个范围内包含了总体的真实参数值。
- 例如：估计某个班级学生的平均身高，
  - 说有 95%的把握认为平均身高在 160 厘米到 170 厘米之间，
  - 这里“95%”就是置信度，“160 厘米到 170 厘米”就是置信区间。
- 置信区间的宽度取决于样本量、数据的变异性以及所选择的置信度水平。一般来说，样本量越大、数据变异性越小、置信度越低，置信区间就越窄。

假设检验

假设检验
- 已知总体的方差σ²0；
- 只知样本数据，不知总体方差；
- 已知X、Y总体的方差；
- 只知X、Y总体的方差相等；
- 只知道俩样本容量相同，即nX = nY；
- 拒绝域：
  - 是根据一定的规则划定的，用来决定是否拒绝原假设的范围。拒绝域就好比是一个“警报范围”。
  - 在假设检验里，我们先对总体情况做一个假设（原假设）。然后根据样本数据算一个值（检验统计量）。
  - 拒绝域就是事先设定好的一个数值范围，如果算出来的这个值落在了这个范围内，那就说明“原假设可能不对”，要拒绝原假设；
  - 要是没在这个范围内，就先暂时接受原假设。拒绝域就好比是一个“警报范围”。
- 问某包装机包装葡萄糖的机器是否正常？
  - 袋装糖的净重是一个"正态随机变量"，其"标准差"为 0.015kg，且长期实践表明标准差稳定不变，机器正常时均值为 0.5kg。
  - 某日开工后随机地抽取该机器所包装的糖 9 袋，称得净重平均值为 0.511kg，问机器是否正常？(α=0.05，z0.025=1.96)
假设检验的小题

回归分析

线性回归
- 研究某一化学反应过程中温度x (℃) 对产品得率y (%) 的影响，测得数据如下表。求 y关于 x 的线性回归方程，并求 σ²的无偏估计；
- “线性回归”这个名称包含了两个关键概念：“线性”和“回归”。
- “线性”指的是模型中自变量和因变量之间的关系是通过线性组合来描述的。
- 后代的身高有向平均身高“回归”的趋势。后来“回归”这个词被广泛用于表示通过研究变量之间的关系，来预测或估计某个变量的值。
- 综合起来，“线性回归”就是通过线性的数学模型来研究和描述变量之间的这种回归关系。

查表

查表Φ(?)、 z?
- 从表中找两个数据进行加或减咯，很简单；
- 查 Φ(−1.86)
- 查 z0.025
查表 —— χ2、t、F
- 查 χ20.05(24)

名词解释

在概率论和统计学中的一些重要的分布

正态分布（Normal Distribution）：许多自然现象和社会现象都近似服从正态分布。例如，人群的身高、体重，学生的考试成绩等；特点是均值、中位数；
二项分布（Binomial Distribution）：用于描述在n次独立重复试验中，成功次数的概率分布。例如抛硬币n次正面朝上的次数。每次试验只有两种可能的结果；
泊松分布（Poisson Distribution）：常用来描述在一定时间或空间内，某事件发生的次数。比如单位时间内某网站的访问量。
均匀分布（Uniform Distribution）：在一个区间内，概率密度函数是常数，表示在该区间内任何值出现的可能性相同。例如：从区间[a, b]中随机抽取一个数。
指数分布（Exponential Distribution）：描述独立随机事件发生的时间间隔。例如，电子元件的寿命。

三个重要分布

正态分布、二项分布、泊松分布；
服从某一分布，可用相应分布的概率公式来计算随机变量取不同值的概率；

数据的离散程度

数据点相对于平均值或中心趋势的分散程度。
- 离散程度越大，说明数据越分散，差异越大；
- 离散程度越小，说明数据越集中，差异越小。
一些用于衡量数据离散程度的指标包括极差、方差、标准差等。
- 极差：样本中最大数减最小数，例如 18 - 10 = 8，数据的极差更大，离散程度更高。
- 方差和标准差：
  - 通过更复杂的计算综合考虑了每个数据点与平均值的偏离情况。
  - 通常情况下，标准差越大，数据的离散程度越高。
  - “D 上面一条横杠”通常读作“D 拔”，它表示随机变量 D 的方差。
- 标准差：
  - 是用来衡量一组数据离散程度或分布的宽度的统计量，它反映了数据相对于平均值的分散程度。
  - 标准差越大，说明数据越分散；标准差越小，说明数据越集中在平均值附近。
  - 计算方法是先求出这组数据的平均值，然后计算每个数据与平均值的差值，将这些差值平方后求平均值，再对这个平均值开平方。
什么是是截距?
- 在直线方程的情境下，截距指的是直线与坐标轴交点的坐标值。
- 对于直线方程y=kx+b，其中b就是截距。
- 当直线与y轴相交时，交点的纵坐标就是y轴截距。例如，直线y=2x+3，3就是y轴截距。

概率论与数理统计 ​

概率论 ​

pre ​

随机事件和概率(6种题型) ​

离散型随机变量(6种题型) ​

连续型需要的积分 ​

一维连续型随机变量(这些都和积分有关) ​

二维连续型随机变量(和二重积分有关) ​

常见的分布 ​

随机变量的数字特征和极限定理 ​

数理统计 ​

数理统计基础 ​

参数估计 ​

假设检验 ​

回归分析 ​

查表 ​

名词解释 ​

在概率论和统计学中的一些重要的分布 ​

三个重要分布 ​

数据的离散程度 ​

概率论与数理统计

概率论

pre

随机事件和概率(6种题型)

离散型随机变量(6种题型)

连续型需要的积分

一维连续型随机变量(这些都和积分有关)

二维连续型随机变量(和二重积分有关)

常见的分布

随机变量的数字特征和极限定理

数理统计

数理统计基础

参数估计

假设检验

回归分析

查表

名词解释

在概率论和统计学中的一些重要的分布

三个重要分布

数据的离散程度