伤城文章网 > 数学 > 3.2 独立性检验的基本思想及其初步应用

3.2 独立性检验的基本思想及其初步应用


3.2 独立性检验的基本思想及其初步应用

分类变量:变量的不同”值”表示个体所属的不同 类别. 如:性别,是否吸烟,宗教信仰,国籍等 在日常生活中,我们常常关心两个分类变量之间 是否具有关系.例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等

为调查吸烟是否对患肺癌有影响,某肿瘤研究所 随机地调查了9965人,得到如下结果(单位:人)
吸烟与患肺癌列联表 不患肺癌 7775 不吸烟 2099 吸烟 9874 总计 患肺癌 42 49 91 总计 7817 2148 9965

那么吸烟是否对患肺癌有影响? 列联表:列出两个分类变量的频数表

粗略估计:在不吸烟者中,有0.54%患有肺癌;在吸烟 者中,有2.28%患有肺癌.因此,直观上得到结论: 吸烟者和不吸烟者患肺癌的可能性存在差异

等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟

患肺癌 不患肺癌

上面我们通过分析数据和图形,得到的直观印象 是吸烟和患肺癌有关,那么事实是否真的如此呢?

能够以多大的把握认为”吸烟与患肺癌有关”,假设 H0:吸烟与患肺癌没有关系,看看能推出什么结论
把前表中的数字用字母代替,得到如下用字母表示的列联表: 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d

不吸烟 吸烟 总计

不吸烟 吸烟 总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

如果”吸烟与患肺癌没有关系”,则在吸烟者中不患肺癌 的比例应该与不吸烟者中相应的比例差不多,即

a c ? ? a ? c ? d ? ? c ? a ? b ? ? ad ? bc ? 0 a?b c?d
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强;

为了使不同样本容量的数据有统一的评判标准, 基于上述分析,我们构造一个随机变量:

n ? ad ? bc ? K ? ? a ? b ?? c ? d ?? a ? c ?? b ? d ?
2 2

其中n ? a ? b ? c ? d为样本容量
若H 0成立,即"吸烟与患肺癌没有关系", 则K 2应该很小.

不吸烟 吸烟 总计

不患肺癌 7775 2099 9874

患肺癌 42 49 91

总计 7817 2148 9965

利用公式计算得K2的观测值为:

9965 ? 7775 ? 49 ? 42 ? 2099 ? k? ? 56.632 7817 ? 2148 ? 9874 ? 91
2

这个值是不是很大呢?

在H0成立的情况下,统计学家估算出如下的概率:

P ? K ? 6.635? ? 0.01
2

即在H0成立的情况下,K2的值大于6.635的概率 非常小,近似于0.01. 也就是说,在H0成立的情况下对随机变量K2进行 多次观测,观测值超过6.635的频率约为0.01 如果K 2 ? 6.635, 就判定H 0不成立, 这种判断出错的
可能性有多大 ?

只有1%,因此我们有99%的把握认为H0不成立, 即有99%的把握认为”吸烟与患肺癌有关系”

上面这种利用随机变量K2来确定在多大程度上 可以认为”两个分类变量有关系”的方法称为两个 分类变量的独立性检验 独立性检验的基本思想类似于数学上的反证法. 要确认”两个分类变量有关系”这一结论成立 的可信程度,首先假设该结论不成立,即假设结论” 两个分类变量没有关系”成立.在该假设下我们 构造的随机变量K2应该很小,如果由观测数据计 算得到的K2的观测值k很大,则在一定程度上说 明假设不合理.

P ( K 2 ? k0 )

0.50

0.40

0.25

0.15

0.10

0.05

0.025 0.010 0.005

0.001

k0

0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828

(1)如果k ? 10.828, 就有99.9%的把握认为" X 与Y 有关系" (2)如果k ? 7.879, 就有99.5%的把握认为" X 与Y 有关系" (3)如果k ? 6.635, 就有99%的把握认为" X 与Y 有关系" (4)如果k ? 5.024, 就有97.5%的把握认为" X 与Y 有关系" (5)如果k ? 3.841, 就有95%的把握认为" X 与Y 有关系" (6)如果k ? 2.706, 就有90%的把握认为" X 与Y 有关系" (7)如果k ? 2.706, 就认为没有充分的证据显示 " X 与Y
有关系"

1.利用独立性检验来考察两个分类变量是否有关系, 并且能较精确地给出这种判断的可靠程度. 具体做法是: 根据观测数据计算由

n ? ad ? bc ? K ? ? a ? b ?? c ? d ?? a ? c ?? b ? d ?
2 2

其中n ? a ? b ? c ? d为样本容量

给出的随机变量K2的值k,其值越大,说明”X与Y有关系” 成立的可能性越大.当得到的观测数据a,b,c,d都不小于 5时,可以通过查表来断言”X与Y有关系”的可信程度

例1.在某医院,因为患心脏病而住院的665名男性病人中, 有214人秃顶;而另外772名不是因为患心脏病而住院的 男性病人中有175人秃顶. (1)利用图形判断秃顶与患心脏病是否有关系? (2)能否在犯错误的概率不超过0.01的前提下认为秃顶 与患心脏病有关系? 解:根据题目所得数据得到列联表:
秃顶与患心脏病列联表
患心脏病 214 451 665 患其他病 175 597 772 总计 389 1048 1437

秃顶 不秃顶 总计

秃顶 不秃顶 总计
2

患心脏病 214 451 665

患其他病 175 597 772
2

总计 389 1048 1437

n ? ad ? bc ? K ? ? a ? b ?? c ? d ?? a ? c ??b ? d ? 其中n ? a ? b ? c ? d 为样本容量

根据列联表中的数据, 得K 的观测值为 1437 ? ? 214 ? 597 ? 175 ? 451? k? ? 16.373 ? 6.635 389 ?1048 ? 665 ? 772
2

2

所以有99%的把握认为”秃顶与患心脏病有关”

练习:

1.为考察高中生的性别与是否喜欢数学课程之间的 关系,在某城市的某校高中生中随机抽取300名学生, 得到如下列联表:
喜欢数学课程 37 35 72 不喜欢数学课程 85 143 228 总计 122 178 300

性别与喜欢数学课程列联表: 男 女 总计

由表中数字计算K2的观测值,在多大程度上可以认为 高中生的性别与是否喜欢数学课程之间有关系? 为什么? k≈4.513

有95%的把握认为”性别与是否喜欢数学课程之间有关系

2.在研究某种新药对小白兔的防治效果时,得到下表 数据:
未用新药 用新药

总计

存活数 101 129 230

死亡数 38 20 58

总计 139 149 288

试分析新药对防治小白兔是否有效?

288 ? ?101? 20 ? 38 ?129 ? k? ? 8.658 ? 7.879 139 ?149 ? 230 ? 58
2

99.5%的把握判定新药对防治小白兔是有效的.

3. 用独立性检验来考察两个变量x与y是否有关系,当统计量K2 的值( )? ?A.越大,“x与y是有关系的”成立可能性越小? ?B.越大,“x与y是有关系的”成立可能性越大? ?C.越小,“x与y是没有关系的”成立可能性越小? ?D.与“x与y有关系”成立的可能性无关 答案是:B


搜索更多“3.2 独立性检验的基本思想及其初步应用”

网站地图

All rights reserved Powered by 伤城文章网 5xts.com

copyright ©right 2010-2021。
伤城文章网内容来自网络,如有侵犯请联系客服。zhit325@126.com