Appearance
概率论与数理统计
概率论
pre
- 参数估计
- 置信度:是指在进行区间估计时,总体参数落在估计区间内的概率。通常用百分数表示,比如 95%、99%等。
- 置信区间:以样本统计量为中心,包含总体参数的可能范围。
- 置信区间的宽度反映了估计的精度,置信度反映了估计的可靠性。
- 区间估计比点估计提供了更全面和丰富的信息,但点估计更简洁直观。在实际应用中,需要根据具体需求和情况选择使用点估计还是区间估计。
- 参数估计是根据从总体中抽取的样本估计总体分布,分为点估计和区间估计两种形式。
随机事件和概率(6种题型)
- 1、无放回题目
- 一次摸多个
- 一个C,分子是总数往下(小)阶乘,分母是取的数阶乘;
- 不用看书上的公式(公式是用总数和要取的东西数组合,还有阶乘来算的);
- 用这个方法就行:C下面是总数,上面是要取的东西数。两个C相除就是结果;
- 多个种类,一次摸多个
- 需要有3个C,分子的两个C相乘(分子是"这类型的"总数往下(小)阶乘,分母是"这类型"取的数阶乘),分母一个C(分子是总数往下(小)阶乘,分母是取的数阶乘)

- 例题:盒子里有3绿4红共7个小球,无放回的摸3个,求摸出1绿2红的概率?
- 一次摸多个
- 2、有放回题目(进行多次,每次情况一致)
- (活动进行的次数!/(问号第一类被摸出次数!·问号第二类被摸出次数!·...))·问一类被摸出次数(n/总数)·问二类被摸出次数(n/总数),总数只在后面这个分式用到;
- 例如:盒子里有3绿4红共7个小球,有放回的摸3次,试求摸出1绿2红的概率?

- 3、事件的概率(画交集的图做)
- 下U是并集集,U和(+)是交集
- 字母上面有一条杠,意思是这个字母区域以外的区域;
- P(A杠 下U B):意思是求A区域以外的区域和B区域的交集;字母上带U的求法:0.45-0.18=0.27;
- 例题:A=0.4,B=0.45;P(A)·P(B) = 0.4×0.45 = 0.18,那这俩重合区域面积就是0.18,
- 4、条件概率(|)和上面是一类题目
- 在已知N发生的情况下,M发生的概率,就是条件概率,用|表示,P(A|B);
- 例如:P(A上一条杠|B)=分子是事件的概率的结果(上面那个),分母是P(B);
- 5、全概率公式
- P{集体发生某事} = P{个体1出现}·P{个体1发生该事} + P{个体2出现}·P{个体2发生该事} +...
- 例题:
- 客车中有20%是高速客车,80%是普通客车,假设高速客车发生故障的概率是0.002,普通客车发生故障的概率是0.01。求路上有客车发生故障的概率?
- 20%×0.002+80%×0.01 = 0.0084
- 6、贝叶斯公式(和上面是一类题目)
- P{发生该事的是某个体(集体中的个体)} = 分子(P{该个体出现}·P{该个体发生该事})/分母(P{集体发生该事});
- 例题:还是上题的前缀,求该高速公路上有客车发生故障时,发生故障的是"高速客车"的概率?
- (20%×0.002)/0.0084 = 1/21
离散型随机变量(6种题型)
- 什么叫离散型随机变量?
- 这些量的取值都是可以一个一个明确列举的,不是像在一段区间内可以取任意值;
- 比如掷骰子出现的点数 1、2、3、4、5、6,班级里学生的人数,一天内接到的电话次数等等。
- 1、求分布律里的未知数:
- 为什么叫分布律,边缘分布律?
- 分布律:描述了随机变量取值的概率分布规律,我们能够清楚地知道随机变量取每个可能值的概率是多少;
- 边缘分布律:在涉及多个随机变量的联合分布中(X,Y),只考虑其中一个随机变量的概率分布时,就得到了这个随机变量的边缘分布律。
- 1、两行(1行是随机数,1行是概率)概率行中有一列有一个未知数,求这个未知数,概率行每个数字相加=1-(概率行每个数字)=未知数;
- 2、二维随机变量(X,Y)的联合分布律,求一个未知数,所有行和列相加等于1,和第一题的区别是不是各自行相加;
- 为什么叫分布律,边缘分布律?
- 2、根据 X 的分布律写 Y 的分布律
- 已知 X 的分布律,求 Y = X² +1 的分布律,在x平方的基础上再+1咯;
- 3、根据 (X,Y) 的分布律写 Z 的分布律
- 已知 (X,Y) 的分布律,求 Z = XY 的分布律;
- xy相乘=z,合并相同的数(相同的数当然是一个概率咯)
- 4、根据 (X,Y) 的分布律写边缘分布律
- 已知 (X,Y) 的分布律,求随机变量 X、Y 的边缘分布律;
- x是一个数,y是另个数,有n个对应的数,列成一个二维表格,表格里面x(行)和y(列)对应数的概率数相加,也就是x或y的边缘分布律咯;
- 5、X 与 Y 相互独立时的联合分布律(不看)
- 6、根据分布律求期望(EX、EY)、方差(DX)
- 已知 X 的分布律,Y 的分布律,求下列三种情况:
- EX(Y)
- EX(Y) = 对应列相乘再相加其它的列;
- E(X²)、E(Y3+1),这种只是把对应位置的X或Y做了响应的变化;
- DX = E(X²) − (EX)²,注意E在括号里面还是外面,他俩都是列相乘再相加算出来的一个值,括号里面的EX需要再平方一下;
连续型需要的积分
- 求分段函数在确定区间的定积分
- 画线段,确定两个积分区域,
- 不定积分求法:
- a的导数=b,那∫b=a+C(常数),a是b的原函数;
- 做不定积分的两种方法:
- 1、从不定积分式子中就能看出这个式子是那个求导得到的(原函数),就用这个式子+C;
- 2、背上图的公式(这种方法能做出全部题型)
- 在实际求解不定积分时,需要根据被积函数的特点,灵活选择合适的方法。
- 定积分求法:
- 定积分的值就是原函数在积分上限和下限的值之差;
- ①求式子的不定积分的值(是一个式子+C),
- ②用上一步得出的(式子在x等于在定积分上限的值)-(式子在x等于在定积分下限的值)=定积分的答案;
- 求分段函数在−∞到未知数的定积分
- 求简单的二重积分
- 求 f(x,y) 的二重积分
一维连续型随机变量(这些都和积分有关)
二维连续型随机变量(和二重积分有关)
常见的分布
随机变量的数字特征和极限定理
数理统计
数理统计基础
- 求样本均值、样本方差、样本标准差
- 样本均值(X上有一条线):就是样本平均值,相加/总数=样本均值,读作(X)拔。可以用求和符号sigma表示1/n∑;
- 样本方差:(X1−样本均值)²+(Xn−样本均值)²/(总数-1) = S²
- 样本标准差:根号S²
- 求统计量的期望和方差
- 把样本均值和样本方差作为参数,可以求出期望和方差;

- 已知服从三大分布,求某东西
- 已知随机变量 M~χ2(3),求 DM? DM = 2×3 = 6
- 设随机变量 M~t(n),且 P{M>c} = α,则 P{M<−c} =多少?
- 判断服从啥分布(某个式子或某个随机变量)
- 根据随机变量的取值特征:
- 分析随机变量的取值是“离散的”还是“连续的”。
- 离散型随机变量常见的有二项分布、泊松分布等;
- 连续型随机变量常见的有正态分布等。
- 概率规律:
- 观察随机变量取值的概率分布是否具有特定的规律。
- 比如正态分布具有对称性和特定的概率集中区间;
- 二项分布中每次试验只有两种结果且概率固定等。
- 与已知分布的对比:将式子与常见分布的定义和特征进行对比,看是否符合某种已知分布的模式。
- 根据随机变量的取值特征:
- 总体服从正态分布的小题
参数估计
- 矩估计法
- 设总体 X 的概率分布为:一个矩阵,包括X和X对应的概率值,概率值中有未知参数;
- 求概率值中有未知参数的矩估计?为什么叫矩估计?
- 最大似然估计法
- 和上题一样,也是概率值中有未知参数,求未知参数(θ)的最大似然估计值?
- 区间估计
- 求μ值
- X服从正态分布,方差已知;
- X服从正态分布,方差未知;
- 求σ(小写的Sigma):X服从正态分布,均值未知;
- 求μx-μy(下列3种已知的情况)
- X 服从正态分布,方差已知;
- Y 服从正态分布,方差已知;
- X 服从正态分布,Y 服从正态分布,仅知他俩方差相等
- 求μ值
- 求 σ 的置信度为 0.95 的置信区间?
- 设总体 X 服从正态分布 N(μ, σ2) ,从总体中抽取容量为 36 的一个样本,样本均值 X = 3.5,样本方差S² = 4;
- 置信度:可以理解为对自己估计结果有多大把握是正确的程度,通常用百分数表示,比如 90%、95%。
- 置信区间:是根据样本数据计算出来的一个范围,有一定的把握(置信度)认为这个范围内包含了总体的真实参数值。
- 例如:估计某个班级学生的平均身高,
- 说有 95%的把握认为平均身高在 160 厘米到 170 厘米之间,
- 这里“95%”就是置信度,“160 厘米到 170 厘米”就是置信区间。
- 置信区间的宽度取决于样本量、数据的变异性以及所选择的置信度水平。一般来说,样本量越大、数据变异性越小、置信度越低,置信区间就越窄。
假设检验
假设检验
- 已知总体的方差σ²0;
- 只知样本数据,不知总体方差;
- 已知X、Y总体的方差;
- 只知X、Y总体的方差相等;
- 只知道俩样本容量相同,即nX = nY;
- 拒绝域:
- 是根据一定的规则划定的,用来决定是否拒绝原假设的范围。拒绝域就好比是一个“警报范围”。
- 在假设检验里,我们先对总体情况做一个假设(原假设)。然后根据样本数据算一个值(检验统计量)。
- 拒绝域就是事先设定好的一个数值范围,如果算出来的这个值落在了这个范围内,那就说明“原假设可能不对”,要拒绝原假设;
- 要是没在这个范围内,就先暂时接受原假设。拒绝域就好比是一个“警报范围”。
- 问某包装机包装葡萄糖的机器是否正常?
- 袋装糖的净重是一个"正态随机变量",其"标准差"为 0.015kg,且长期实践表明标准差稳定不变,机器正常时均值为 0.5kg。
- 某日开工后随机地抽取该机器所包装的糖 9 袋,称得净重平均值为 0.511kg,问机器是否正常?(α=0.05,z0.025=1.96)
假设检验的小题
回归分析
- 线性回归
- 研究某一化学反应过程中温度x (℃) 对产品得率y (%) 的影响,测得数据如下表。求 y关于 x 的线性回归方程,并求 σ²的无偏估计;
- “线性回归”这个名称包含了两个关键概念:“线性”和“回归”。
- “线性”指的是模型中自变量和因变量之间的关系是通过线性组合来描述的。
- 后代的身高有向平均身高“回归”的趋势。后来“回归”这个词被广泛用于表示通过研究变量之间的关系,来预测或估计某个变量的值。
- 综合起来,“线性回归”就是通过线性的数学模型来研究和描述变量之间的这种回归关系。
查表
- 查表Φ(?)、 z?
- 从表中找两个数据进行加或减咯,很简单;
- 查 Φ(−1.86)
- 查 z0.025
- 查表 —— χ2、t、F
- 查 χ20.05(24)
名词解释
在概率论和统计学中的一些重要的分布
- 正态分布(Normal Distribution):许多自然现象和社会现象都近似服从正态分布。例如,人群的身高、体重,学生的考试成绩等;特点是均值、中位数;
- 二项分布(Binomial Distribution):用于描述在n次独立重复试验中,成功次数的概率分布。例如抛硬币n次正面朝上的次数。每次试验只有两种可能的结果;
- 泊松分布(Poisson Distribution):常用来描述在一定时间或空间内,某事件发生的次数。比如单位时间内某网站的访问量。
- 均匀分布(Uniform Distribution):在一个区间内,概率密度函数是常数,表示在该区间内任何值出现的可能性相同。例如:从区间[a, b]中随机抽取一个数。
- 指数分布(Exponential Distribution):描述独立随机事件发生的时间间隔。例如,电子元件的寿命。
三个重要分布
- 正态分布、二项分布、泊松分布;
- 服从某一分布,可用相应分布的概率公式来计算随机变量取不同值的概率;
数据的离散程度
数据点相对于平均值或中心趋势的分散程度。
- 离散程度越大,说明数据越分散,差异越大;
- 离散程度越小,说明数据越集中,差异越小。
一些用于衡量数据离散程度的指标包括极差、方差、标准差等。
- 极差:样本中最大数减最小数,例如 18 - 10 = 8,数据的极差更大,离散程度更高。
- 方差和标准差:
- 通过更复杂的计算综合考虑了每个数据点与平均值的偏离情况。
- 通常情况下,标准差越大,数据的离散程度越高。
- “D 上面一条横杠”通常读作“D 拔”,它表示随机变量 D 的方差。
- 标准差:
- 是用来衡量一组数据离散程度或分布的宽度的统计量,它反映了数据相对于平均值的分散程度。
- 标准差越大,说明数据越分散;标准差越小,说明数据越集中在平均值附近。
- 计算方法是先求出这组数据的平均值,然后计算每个数据与平均值的差值,将这些差值平方后求平均值,再对这个平均值开平方。
什么是是截距?
- 在直线方程的情境下,截距指的是直线与坐标轴交点的坐标值。
- 对于直线方程y=kx+b,其中b就是截距。
- 当直线与y轴相交时,交点的纵坐标就是y轴截距。例如,直线y=2x+3,3就是y轴截距。