单位文秘网 2020-07-10 14:22:27 点击: 次
第八章 假设检验 一、假设检验的基本思想和概念 1、基本思想 我们以教材例 8-1 来说明假设检验的基本思想和概念。
例:味精厂用一台包装机自动包装味精,已知袋装味精的重量 X~N( ,0.0125 )。机器正常时,其均值 =0.5 公斤,某日开工后,随机抽取 9 袋味精,其净重(公斤)为:
0.497,0.506,0.518,0.524,0.498,0.511,0.520,0.515,0.512 问这台包装机是否正常? 此例随机抽样取的 9 袋味精重量都不是正好 0.5 公斤,这种实际重量和标准重量不一致的现象,在实际中是经常出现的。造成这种差异不外乎有两种原因:一是偶然因素影响,如电压波动,金属部件热胀冷缩,称量仪器误差等,称为随机误差,随机误差是无法避免的;二是条件因素影响,如机器缺陷,部件损耗等,称为条件误差,那是我们要设法解决的。如果我们断定标准重量已不是 0.5 公斤,那么原因很可能是第二种原因造成的包装机器工作不正常。
问题就是如何根据样本观测值推断 “ =0.5”是否为真? 我们不妨先假设包装机是正常的,在统计中用如下符号表示:
0H : ==0.5,
1H : 5 . 0
其中0H 为待检验的假设,称为原假设;1H 是与原假设相对立的假设,称为备择假设。我们的任务就是要依据样本观测值在这两对立的假设中作出选择。
由于样本均值 x 是 的一个很好的估计,故当0H 为真时,| x -0.5|应很小,
如果| x -0.5|过分大,我们应怀疑0H 不正确而拒绝0H 接受1H 。现在的问题①究竟| x -0.5|取值在什么范围才算“比较大?”②“| x -0.5|比较大”这个事件概率有多少? 如果概率很小可以认为是“不可能”发生的。
我们的办法是构造一个适当的统计量,这里我们构造 u=nx/00 当0H 为真时, u~N(0,1),对于给定的很小的数 1 0 ,例如取 =0.05 P{|u|> }2u P{|nx/0 |>2u }=
{|nx/0 |>2u }是一个小概率事件,小概率事件在一次试验中几乎是不可能
发生的。
当 =0.05 我们查附表得2u =025 . 0u =1.96,又 n=9, =0.015,由样本计算得 x =0.511
|u|=|nx/0 |=|3 / 015 . 05 . 0 511 . 0 |=2.2>1.96 小概率事件居然发生了,这与“0H : =0 =0.5”的推断矛盾,于是拒绝0H ,而认为这台包装机不正常。(类似于反证法)
2、统计假设的概念 在许多实际问题中,常需要根据理论与经验对总体 X 的分布函数或其所含的一些参数作出某种假设0H ,这种假设0H 称为统计假设。
“|u|>2u ”这个事件虽是小概率事件,但小概率事件它仍然可能发生(发生的概率 ) ,因此若根据| u|>2u 就拒绝0H 也有可能犯错误,就是犯错误的概率很小,仅为 ,换句话说当| u|>2u
时,拒绝0H 这一判断可信度是 1-α 这里我们称 u=nx/0 为检验统计量,而称区域 W={uu2| | }为拒绝域。
W={uu2| | }=( ,- u2 )u2( , )
在假设检验中,小概率α 常取 0.05,0.01,或 0.1, α 称为显著性水平。如在上例中可以说包装机的包装规格与 0.5 公斤有显著差异,而显著性水平为 0.05。作为拒绝域的边界数值,称为临界值,如 W={uu2| | }时,临界值为- u2 与 u2 ;当α=0.05,临界值为-1.96 与 1.96。
3、两类错误 数理统计的任务是用样本去推断总体,即从局部去推断整体,当然有可能犯错误。
一类错误是:在0H 成立的情况下,样本落入了拒绝域 W,因而0H 被拒绝,称这种错误为第一类错误,又称拒真错误,一般记犯第一类错误的概率为α。
另一类错误是:在0H 不成立的情况下,样本未落入拒绝域 W,因而0H 被接受,称这种错误为第二类错误,又称取伪错误,并记犯第二类错误的概率为β. 我们借用条件概率的表示方法简单如下:
第一类错误(拒真)
P{拒绝0 0| H H 为真}=α 第二类错误(取伪)
P{接受0 0| H H 不真}=β 二、正态总体均值的假设检验 1、u 检验(重点)
(1)方差已知,单个正态总体均值检验 设nx x x 2 1 ,,是从总体 N( ) ,20 中抽取的一个样本,0 是已知常数,假设:
0H : =0 ,
1H :0
其中0 为已知数 构造检验统计量 u=nx/00 在假设0H 成立时 u~N(0,1),拒绝域 W=( ,- u2 )u2( , ),若样本算出的 u 值落在 W 内,则作出拒绝0H ,否则认为与0H 相容。
(2)方差已知时,两个正态总体均值的检验(了解)
设 X~( ) ,21 1 ,Y~N( ) ,22 2 , 其中21 ,22 为已知常数,mx x x 2 1 ,和ny y y 2 1 ,分别是取自 X 和 Y 的样本,且互相独立。假设:
0H :1 =2 ,
1H :1 2 检验假设
1=2 ,等价于假设 02 1 ,而 y x 是2 1 的好的估计量,且当0H为真时,有 u=n my x2221 ~N(0,1) 于是对于给定显著水平α,查表可得临界值 u2使 P{|u|> u2}=α 从而得拒绝域 W= (- , u2 ) ( u2 ,+ ).再由样本计算 u 的观测值 若 u W,则拒绝0H ,否则就认为0H 与相容. 2、t 检验(重点)
(1)方差未知时,单个正态总体的均值检验
设nx x x 2 1 ,,是从总体 N( ) ,2 中抽取的一个样本,其中2 是未知,假设:
0H : =0 ,
1H :0
其中0 为已知数 由于2 是未知,故不能用 u=nx/00 进行检验,这时最自然的想法就是用样本方差 s 2 替代总体方差2 ,因而构造检验统计量 t=n sx/0 前已经知道,当0H 为真时 t~t(n-1),于是对于给定显著性水平α,查 t 分布表可得 ) 1 (2 nt 使得 P{|t|> ) 1 (2 nt }=α 即得拒绝域 W=(- ,- ) 1 (2 nt ) ( ) 1 (2 nt ,+ )
通过样本观测值计算检验统计量 t,若 t W,则拒绝0H ,否则就认为0H 与相容 P172 例 8-2 (2)方差未知时,两个正态总体均值的检验(略)
三、正态总体方差的假设检验(了解)
1、2 检验 设nx x x 2 1 ,,是从总体 N( ) ,2 中抽取的一个样本,2 未知,假设:
0H :202 ,
1H :202
其中20 为已知常数 自然想到看2 的无偏估计 s 2 ,当0H 为真时,s 2 应在20 周围波动,如果 s 2 /20很大或很小,则应拒绝0H ,因此构造检验统计量 2 =202) 1 (s n 前已知,在假设0H 成立时2 ~2 (n-1),于是给定显著性水平α,查2 表可得 22(n-1)与 221(n-1),使 P{2 221(n-1)}= P{2 > 22(n-1)}=α/2
从而可得拒绝域 W=(0, 221(n-1)) ( 22(n-1),+ ) 若由样本观测值计算出2 的值,2 W,则拒绝0H ,否则认为与1H 相容 。
2、F 检验(了解)
检验两个独立正态总体的未知方差是否相等,用 F 检验 设 X~( ) ,21 1 ,Y~N( ) ,22 2 ,mx x x 2 1 ,和ny y y 2 1 ,分别是取自 X 和 Y的样本,且互相独立。假设:
0H :1 =2 ,
1H :1 2 由于 s 1 是1的无偏估计, s 2 是2的无偏估计,当0H为真时,自然想到 s21 与s22 应该差不多,其比值 2221ss不会太大或太小,前已知,在假设0H成立时
F= ) 1 , 1 ( ~2221 n m Fss 这样我们取 F 为检验统计量,对于给定显著性水平 ,查表确定临界值 ) 1 , 1 (2 n m F ,) 1 , 1 (21 n m F 使 P{F≤) 1 , 1 (21 n m F}= P{F>) 1 , 1 (2 n m F }=2 取得拒绝域 W=(0,) 1 , 1 (21 n m F) () 1 , 1 (2 n m F ,+) 若由样本观测值计算得 F 值,当 F∈W 时则拒绝0H ,即认为两总体的方差有显著差异,否则认为与1H 相容,即认为两总体的方差无显著差异。
第九章
回归分析 在现实世界中,不少变量之间是存在着一定关系的,这种关系大体分为两类,一类是确定性的关系,即函数关系,例如,电学中的电压 V,电流 I,电阻三者之间有 I=V/R 的函数关系;另一类是非确定性的,这类变量之间有一定关系却又并不完全确定,例如人的血压与年龄有关,农作物的产量与施肥量有关,这些变量之间有一定联系,但又不能用普通函数关系式表达。事实上,这些变量是或至少有
一个是随机变量,这种非确定的函数关系称为相关关系。回归分析是研究相关关系的一种数学工具,是数理统计中常用的统计方法之一,在生产实践和科学研究中有广泛的应用。
一、 回归直线方程的建立 我们以教材例 9-1 为例,说明线性回归分析中最简单的一元线性回归分析 某种合金的抗拉强度 y(kg,mm 2 )与其中的含碳量 x(%)有关,现测 12 对数据如表所示:
x 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23y 42.0 43.5 45.0 45.5 45.0 47.5 49.0 53.0 50.0 55.0 55.0 60.0为了了解其相关关系的表达形式,在坐标上以(i iy x , )为点,i=1,2,……,12为点画出散点图,这些点大致散布在某条直线附近,又不完全在一条直线上,从而可认为 y 与 x 的关系基本上是线性的,而这些点与直线的偏离是其它一切随机因素影响造成的。一般来说,含碳量 x 是一个可测的或可控制的普通变量,而对任意含碳量 x,相应的抗拉强度 Y 是一个随机变量,实际观测值 y 是 Y 的一个可能取值,随着 x 变化的 Y 观测值线性变化的趋势可表示为: Y= x1 0 其中 x1 0 表示 Y 随 x 变化的线性部分, 是一切随机因素影响的总和 一般地,将 x 取一组不同的值nx x x , ,2 1 ,通过试验得到对应 Y 的值ny y y , , ,2 1 ,这样就得到 n 对观测值(i iy x , ),i=1,2,……,n。
由 Y= x1 0,可以认为i iy x , 之间有如下关系:
i i ix y 1 0(i=1,2,…,n)
i )
, ( 1 0 ~ N
此式就是一元线性回归的数学模型
回归分析的基本问题是依据样本(i iy x , ),i=1,2,…,n 解决如下问题:
(1)
求出未知参数1 0 , 的点估计值0 ,1 ,称 y =0 +1 x 为 y 关于 x 的一元线性回归方程,其图像(直线)称为回归直线,1 称为回归系数,0 称为回归常数。
(2)回归方程显著性检验.实际问题中 Y,X 之间是否存在线性关系y =0 +1 x是要经过检验的。
(3)利用回归方程进行预测和控制 二、最小二乘法 要求出 y =0 +1 x 就是要求出1 0 , 的点估计0 ,1 ,而求出此估计一个自然又直观的想法便是希望对一切ix ,观测值iy 与回归值i ix y1 0 的偏离最小。即选取0 ,1 使21) (nii iy y =211 0) - (niix y 最小,此法称为最小二乘法,它涉及高等数学内容,这里直接给出由最小二乘法得出的计算0 ,1 公式。
由数据(i iy x , ),i=1,2,…,n 计算 ninii xxx n x x x Li1 122 2) (
nni i i i xyx y x x L1) )( ( = nii iy x n y x1 则最小二乘估计为:
xxxyLL1
,
x y 1 0
本例根据样本计算得: xxL =0.0186
xyL =2.4292
yyL =335.2292 xxxyLL1 =130.6022
0 =28.5340 所以:y =28.5340+130.6022x y =28.5340+130.6022x 即抗拉强度 y 与含碳量 x 的线性回归方程。
三、 回归方程的显著性检验 由上面的讨论可知,即使观测数据(i iy x , ),i=1,2,…,n,不存在线性关系,也可以由最小二乘法计算得到线性回归方程,但这样的方程是没有实际意义的。因此需要对 y 和 x 是否真的具有线性关系作统计检验。
常采用的有 F 检验法和 t 检验法. 因为若 y 和 x 之间不存在线性关系,一次项系数1 =0,反之1 0,因此 检验采用设为: 0 :1 0 H
0 :1 1 H
(具体略)
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-204-7278-1.html
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用