0467.cC
海量文库 文档专家
当前位置:首页 >> >>

高考数学大一轮复习 9.4变量间的相关关系、统计案例课件 理_图文

必考部分

第九章 算法初步、统计与统计案例

第四节 变量间的相关关系、统计案例

主干知识·整合 热点命题·突破

课堂实效·检测 课时作业

主干知识·整合 01
要点梳理 追根求源

两个变量的相关关系
1.相关关系的分类
(1)正相关:从散点图上看,点散布在从 左下角 到 右上角 的区域内;
(2)负相关:从散点图上看,点散布在从左上角到 右下角 的区域内.

2.线性相关关系 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这条直 线叫 回归直线 .

相关关系和函数关系有何异同点? 提示:(1)相同点:两者均是指两个变量的关系. (2)不同点:①函数关系是一种确定的关系,而相关关系 是一种非确定的关系;②函数关系是一种因果关系,而相关 关系不一定是因果关系,也可能是伴随关系.

1.判一判 (1)正方体的棱长与体积是相关关系.( ) (2)日照时间与水稻的亩产量是相关关系.( ) (3)相关关系与函数关系都是一种确定性的关系,也是一 种因果关系.( ) (4)利用样本点的散点图可以直观判断两个变量的关系 是否可以用线性关系去表示.( ) 答案:(1)× (2)√ (3)× (4)√

回归分析
1.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的 距离的平方和 最小的方法叫最小二乘法.

(2)回归方程:两个具有线性相关关系的变量的一组数 据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为y^ =b^ x

n

n

xi- x yi- y xiyi-n x y

i=1
+a^,则b^ =

i=1


,a^= y -b^ x ,

n
xi- x 2

n
x2i -n x 2

i=1

i=1

其中,b^是回归方程的__斜__率___,a^是在 y 轴上的截距.

2.样本相关系数

n
xi- x yi- y

i=1

r=

,用它来衡量两个变量间

n

n

xi- x 2 yi- y 2

i=1

i=1

的线性相关关系的强弱.

(1)当 r>0 时,表明两个变量 正相关 ; (2)当 r<0 时,表明两个变量 负相关 ; (3)r 的绝对值越接近 1,表明两个变量的线性相关性 越强 ;r 的绝对值越接近于 0,表明两个变量之间几乎 不存在线性相关关系.通常当|r|>0.75 时,认为两个变量有很 强的线性相关关系.

2.(2014·湖北卷)根据如下样本数据:

x3 4 5 6 7 8

y 4.0 2.5 -0.5 0.5 -2.0 -3.0

得到的回归方程为y^ =b^ x+a^,则( )

A.a^>0,b^ >0

B.a^>0,b^ <0

C.a^<0,b^ >0

D.a^<0,b^ <0

解析:由样本数据可知 y 值总体上是随 x 值的增大而减 少的.故b^ <0,又回归直线过第一象限,故纵截距^a>0.故选 B.
答案:B

3.一位母亲记录了自己儿子 3~9 岁的身高数据(略), 由此建立的身高与年龄的回归模型为y^=7.19x+73.93,用这 个模型预测这个孩子 10 岁时的身高,则正确的叙述是( )
A.身高一定是 145.83 cm B.身高在 145.83 cm 以上 C.身高在 145.83 cm 左右 D.身高在 145.83 cm 以下

解析:用回归模型y^=7.19x+73.93,只能作预测,其结 果不一定是一个确定值.
答案:C

独立性检验 1.分类变量:变量的不同“值”表示个体所属的 不同类型 ,像这类变量称为分类变量. 2.列联表:列出两个分类变量的 频数表 ,称为列联 表.假设有两个分类变量 X 和 Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为

2×2 列联表

y1

y2

x1

a

b

总计 a+b

x2

c

d

c+d

总计 a+c b+d a+b+c+d

K2=a+ban+adc-bb+cd2 c+d(其中 n= a+b+c+d

为样本容量),则利用独立性检验判断表来判断“X 与 Y 的

关系”.

4.下面是一个 2×2 列联表

y1

y2

合计

x1

a 21

73

x2

2 25

27

合计 b 46

则表中 a、b 处的值分别为__________.

解析:∵a+21=73,∴a=52. 又∵a+2=b,∴b=54.
答案:52、54

5.在性别与吃零食这两个分类变量的计算中,下列说 法正确的是________.
①若 K2 的观测值为 k=6.635,我们有 99%的把握认为 吃零食与性别有关系,那么在 100 个吃零食的人中必有 99 人是女性;
②从独立性检验可知有 99%的把握认为吃零食与性别 有关系时,我们说某人吃零食,那么此人是女性的可能性为 99%;
③若从统计量中求出有 99%的把握认为吃零食与性别 有关系,是指有 1%的可能性使得出的判断出现错误.

解析:由独立性检验的基本思想可得,只有③正确. 答案:③

1.相关关系的判定和线性回归方程的求法 (1)函数关系是一种理想的关系模型,而相关关系是一种 更为一般的情况. (2)如果两个变量不具有线性相关关系,即使求出回归直 线方程也毫无意义,而且用其进行估计和预测也是不可信 的.

(3)回归直线方程只适用于我们所研究的样本的总体.样 本的取值范围一般不超过回归直线方程的适用范围,否则就 没有实用价值.

2.独立性检验思想的理解 独立性检验的思想类似于反证法,即要确定“两个变量 X 和 Y 有关系”这一结论成立的可信度,首先假设结论不成 立,即它们之间没关系,也就是它们是相互独立的,利用概 率的乘法公式可推知,(ad-bc)接近于零,也就是随机变量 K2=a+bcn+add-ab+cc2b+d应该很小,如果计算出的 K2 的 观测值 k 不是很小,通过查表 P(K2≥k)的概率很小.又根据 小概率事件不可能发生,由此判断假设不成立,从而可以肯 定地断言 X 与 Y 之间有关系.

热点命题·突破 02
考点突破 解码命题

相关关系的判断
【例 1】 x 和 y 的散点图如图所示,则下列说法中 所有正确命题的序号为________.

①x,y 是负相关关系; ②在该相关关系中,若用 y=c1ec2x 拟合时的相关指数 为 R21,用y^=b^ x+a^ 拟合时的相关指数为 R22,则 R21>R22; ③x、y 之间不能建立回归直线方程.

【解析】 ①显然正确;由散点图知,用 y=c1ec2x 拟 合的效果比用y^=b^ x+a^拟合的效果要好,故②正确;x,y 之 间能建立回归直线方程,只不过预报精度不高,故③不正确.
【答案】 ①②

判断变量之间有无相关关系,一种简便 可行的方法就是绘制散点图,根据散点图很容易看出两个变 量之间是否具有相关性,是不是存在线性相关关系,是正相 关还是负相关,相关关系是强还是弱.

(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2, x1,x2,…,xn 不全相等)的散点图中,若所有样本点(xi,yi)(i =1,2,…,n)都在直线 y=12x+1 上,则这组样本数据的样

本相关系数为( )

A.-1

B.0

1 C.2

D.1

(2)四名同学根据各自的样本数据研究变量 x,y 之间的

相关关系,并求得回归直线方程,分别得到以下四个结论:

①y 与 x 负相关且y^=2.347x-6.423;

②y 与 x 负相关且y^=-3.476x+5.648;

③y 与 x 正相关且y^=5.437x+8.493;

④y 与 x 正相关且y^=-4.326x-4.578.

其中一定不正确的结论的序号是( )

A.①②

B.②③

C.③④

D.①④

解析:(1)因为所有的点都在直线上,所以它就是确定的 函数关系,所以相关系数为 1.
(2)①中 y 与 x 负相关而斜率为正,不正确;④中 y 与 x 正相关而斜率为负,不正确.故选 D.
答案:(1)D (2)D

线性回归方程及应用
【例 2】 (2014·新课标全国卷Ⅱ)某地区 2007 年至 2013 年农村居民家庭人均纯收入 y(单位:千元)的数据如 下表:

年份

2007 2008 2009 2010 2011 2012 2013

年份代号 t 1 2 3 4 5 6 7

人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9

(1)求 y 关于 t 的线性回归方程; (2)利用(1)中的回归方程,分析 2007 年至 2013 年该地 区农村居民家庭人均纯收入的变化情况,并预测该地区 2015 年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘法估计公式分别 为:

n

ti- t yi- y

i=1
b^ =

,a^ = y -b^ t .

n
ti- t 2

i=1

【解】 (1)由所给数据计算得 t =17(1+2+3+4+5+6+7)=4, y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
7
(ti- t )2=9+4+1+0+1+4+9=28,
i=1

7
(ti- t )(yi- y )=(-3)×(-1.4)+(-2)×(-1)+(-
i=1

1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,

7

ti- t yi- y

i=1
b^ =
7
ti- t 2

=1248=0.5,

i=1

a^= y -b^ t =4.3-0.5×4=2.3. 所求回归方程为y^=0.5t+2.3.

(2)由(1)知,b^ =0.5>0,故 2007 年至 2013 年该地区农村 居民家庭人均纯收入逐年增加,平均每年增加 0.5 千元.
将 2015 年的年份代号 t=9 代入(1)中的回归方程,得y^= 0.5×9+2.3=6.8,
故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元.

(1)回归直线y^=b^x+a^必过样本点的中心( x , y ).
(2)在分析两个变量的相关关系时,可根据样本数据作出 散点图来确定两个变量之间是否具有相关关系,若具有线性 相关关系,则可通过线性回归方程估计和预测变量的值.

(1)(2014·重庆卷)已知变量 x 与 y 正相关,且由观测数据 算得样本平均数 x =3, y =3.5,则由该观测数据算得的线 性回归方程可能是( )
A.y^=0.4x+2.3 B.y^=2x-2.4 C.y^=-2x+9.5 D.y^=-0.3x+4.4

(2)为了解篮球爱好者小李的投篮命中率与打篮球时间 之间的关系,下表记录了小李某月 1 号到 5 号每天打篮球时 间 x(单位:小时)与当天投篮命中率 y 之间的关系:
时间 x 1 2 3 4 5 命中率 y 0.4 0.5 0.6 0.6 0.4 小李这 5 天的平均投篮命中率为________;用线性回归 分析的方法,预测小李该月 6 号打 6 小时篮球的投篮命中率 为________.

解析:(1)由变量 x 与 y 正相关,可知 x 的系数为正,排 除 C,D.而所有的回归直线必经过点( x , y ),由此排除 B, 故选 A.
(2)小李这 5 天的平均投篮命中率 y =0.4+0.5+05.6+0.6+0.4=0.5,可求得小李这 5 天 的平均打篮球时间 x =3.根据表中数据可求得b^ =0.01,a^ = 0.47,故线性回归方程为y^=0.47+0.01x,将 x=6 代入得 6 号打 6 小时篮球的投篮命中率约为 0.53. 答案:(1)A (2)0.5 0.53

独立性检验
【例 3】 某学生对其 30 位亲属的饮食习惯进行了 一次调查,并用茎叶图表示 30 人的饮食指数.说明:如 图中饮食指数低于 70 的人,饮食以蔬菜为主;饮食指数 高于 70 的人,饮食以肉类为主.

(1)根据茎叶图,帮助这位同学说明其亲属 30 人的饮食 习惯;
(2)根据以上数据完成如下表所示的 2×2 列联表: 主食蔬菜 主食肉类 合计
50 岁以下 50 岁以上
合计 (3)能否有 99%的把握认为其亲属的饮食习惯与年龄有 关,并写出简要分析.

【解】 (1)30 位亲属中 50 岁以上的人多以食蔬菜为主,

50 岁以下的人多以食肉为主.

(2)2×2 列联表如下表所示.

主食蔬菜 主食肉类 合计

50 岁以下

4

8

12

50 岁以上

16

2

18

合计

20

10

30

(3)K2=1230××188×-2102×8120=1320××1182×0× 201×2010 =10>6.635. 所以有 99%的把握认为其亲属的饮食习惯与年龄有关.

1.独立性检验的步骤: (1)根据样本数据制成 2×2 列联表. (2)根据公式 K2=a+bcn+add-ab+cc2b+d计算 K2 的观 测值. (3)比较 K2 与临界值的大小关系作统计推断.

2.另外,还可利用图形来判断两个变量之间是否有关 系,可以画出等高条形图,从图形上只可以粗略地估计两个 分类变量的关系,可以结合所求数值来进行比较,作图时应 注意单位统一,图形准确.

某班主任对全班 50 名学生进行了作业量多少的调

查.数据如下表:

认为作业多 认为作业不多 合计

喜欢玩游戏

18

9

不喜欢玩游戏

8

15

合计

(1)请完善上表中所缺的有关数据; (2)试通过计算说明在犯错误的概率不超过多少的前提 下认为喜欢玩游戏与作业量的多少有关系?

解:(1)

认为作业多 认为作业不多 合计

喜欢玩游戏

18

9

27

不喜欢玩游戏

8

15

23

合计

26

24

50

(2)将表中的数据代入公式

K2=a+bcn+add-ab+cc2b+d

得到

K2 的 观 测 值

k



50×18×15-8×92 26×24×27×23

≈5.059>5.024,查表知 P(K2≥5.024)=0.025,即说明在犯错

误的概率不超过 0.025 的前提下认为喜欢玩游戏与作业量的

多少有关系.

热点微专题之解答题增分系列(八) 统计知识与概率的综合应用
【典例】 (2014·安徽卷)某高校共有学生 15 000 人,其 中男生 10 500 人,女生 4 500 人,为调查该校学生每周平均 体育运动时间的情况,采用分层抽样的方法,收集 300 位学 生每周平均体育运动时间的样本数据(单位:小时).

(1)应收集多少位女生的样本数据? (2)根据这 300 个样本数据,得到学生每周平均体育运动 时间的频率分布直方图(如图所示),其中样本数据的分组区 间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校 学生每周平均体育运动时间超过 4 小时的概率;

(3)在样本数据中,有 60 位女生的每周平均体育运动时

间超过 4 小时,请完成每周平均体育运动时间与性别列联

表,并判断是否有 95%的把握认为“该校学生的每周平均

体育运动时间与性别有关”.

附:K2=a+bcn+add-ab+cc2b+d

P(K2≥k0) 0.10 0.05 0.010 0.005

k0

2.706 3.841 6.635 7.879

【规范解答】 (1)300×145500000=90,所以应收集 90 位 女生的样本数据.
(2)由频率分布直方图得 1-2×(0.025+0.100)=0.75, 所以该校学生每周平均体育运动时间超过 4 小时的概率的 估计值为 0.75.

(3)由(2)知,300 位学生中有 300×0.75=225(人)的每周 平均体育运动时间超过 4 小时,75 人的每周平均体育运动 时间不超过 4 小时.又因为样本数据中有 210 份是关于男生 的,90 份是关于女生的,所以每周平均体育运动时间与性 别列联表如下:
每周平均体育运动时间与性别列联表

男生 女生 总计

每周平均体育运动时间不

超过 4 小时

45 30 75

每周平均体育运动时间超

过 4 小时

165 60 225

总计

210 90 300

结合列联表可算得 K2=3007×5×452×256×0-21106×5×90302=12010 ≈4.762>3.841.
所以,有 95%的把握认为“该校学生的每周平均体育 运动时间与性别有关”.

名师点评 解决概率与统计综合问题的一般步骤: (1)弄清题意,理顺条件和结论找到关键数量的关系. (2)把图形语言转化为数字,将图表中的数字转化为公式 中的字母. (3)找准公式,找到数量关系或据图表代入公式计算数 值. (4)依据数据,借助数表作出正确判断.

某城市随机抽取一年(365 天)内 100 天的空气质量指 数 AQI 的监测数据,结果统计如下:

(50, (100, (150, (200, (250,

AQI [0,50]

>300

100] 150] 200] 250] 300]

空气 优
质量

中重

轻微 轻度 中度

重度





污染 污染 污染

污染

污染

天数 4 13 18 30 9 11 15

(1)若某企业每天由空气污染造成的经济损失 S(单位:

元)与空气质量指数 AQI(记为 w)的关系式为 S=

0,0≤w≤100, 4w-400,100<w≤300, 2 000,w>300,

试估计在本年度内随机抽

取一天,该天经济损失 S 大于 200 元且不超过 600 元的概率;

(2)若本次抽取的样本数据有 30 天是在供暖季,其中有

8 天为重度污染.完成下面 2×2 列联表,并判断能否有 95%

的把握认为该市本年空气重度污染与供暖有关?

非重度污染 重度污染 合计

供暖季

非供暖季

合计

100

解:(1)设“在本年内随机抽取一天,该天经济损失 S 大于 200 元且不超过 600 元”为事件 A,由 200<S≤600,得 150<w≤250,频数为 39,所以 P(A)=13090.

(2)根据以上数据得到如下列联表:

非重度污染 重度污染 合计

供暖季

22

8

30

非供暖季

63

7

70

合计

85

15

100

K2











100×63×8-22×72 85×15×30×70

≈4.575>3.841.



以有 95%的把握认为空气重度污染与供暖有关.

课堂实效·检测 03
当堂检验 小试牛刀

1.下列两个变量之间的关系是相关关系的是( ) A.速度一定时,位移与时间 B.单位面积的产量为常数时,土地面积与总产量 C.身高与体重 D.电压一定时,电流与电阻 解析:A、B、D 中两个变量间的关系都是确定的,所 以是函数关系;C 中的两个变量间是相关关系,对于身高一 样的人,体重仍可以不同,故选 C.
答案:C

2.某校为了研究学生的性别和对待某一活动的态度(支

持与不支持)的关系,运用 2×2 列联表进行独立性检验,经

计算 K2=7.069,则有多大把握认为“学生性别与支持该活

动有关系”.( )

附:

P(K2≥k0) 0.100 0.050 0.025 0.010 0.001

k0 A.0.1%

2.706 3.841 5.024 6.635 10.828 B.1%

C.99%

D.99.9%

解析:因为 K2=7.069>6.635,所以 P(K2>6.635)=0.010, 所以说有 99%的把握认为“学生性别与支持该活动有关 系”.
答案:C

3.为了均衡教育资源,加大对偏远地区的教育投入, 调查了某地若干户家庭的年收入 x(单位:万元)和年教育支 出 y(单元:万元),调查显示年收入 x 与年教育支出 y 具有 线性相关关系,并由调查数据得到 y 对 x 的回归直线方程: y^=0.15x+0.2.由回归直线方程可知,家庭年收入每增加 1 万元,年教育支出平均增加________万元.

解析:回归直线的斜率为 0.15,所以家庭年收入每增加 1 万元,年教育支出平均增加 0.15 万元.
答案:0.15

4.为了判断高中三年级学生是否选修文科与性别的关

系,现随机抽取 50 名学生,得到如下 2×2 列联表:

理科 文科

男 13

10



7

20

已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.

根据表中数据,得到 K2=50×23×132×7×202-0×103×072≈4.844.

则认为选修文科与性别有关系出错的可能性为________.

解析:∵K2≈4.844,根据假设检验的基本原理,应该 断定“是否选修文科与性别之间有关系”成立,并且这种判 断出错的可能性约为 5%.
答案:5%

5.某企业上半年产品产量与单位成本资料如下:

月份 产量(千件) 单位成本(元)

1

2

73

2

3

72

3

4

71

4

3

73

5

4

69

6

5

68

且已知产量 x 与单位成本 y 具有线性相关关系. (1)求出线性回归方程; (2)指出产量每增加 1 000 件时,单位成本平均变动多 少? (3)假定产量为 6 000 件时,单位成本为多少元?

6

6

解:(1)n=6,x =3.5,y =71,x2i =79,xiyi=1 481,

i=1

i=1

6

xiyi-6 x y

i=1
b^ =
6

=1 48719--66××33..55×2 71≈-1.82.

x2i -6 x 2

i=1

a^= y -b^ x =71+1.82×3.5=77.37, 则线性回归方程为y^=b^ x+a^=-1.82x+77.37.

(2)因为单位成本平均变动b^=-1.82<0,且产量 x 的计 量单位是千件,所以根据回归系数b^ 的意义有产量每增加一 个单位即 1 000 件时,单位成本平均减少 1.82 元.
(3)当产量为 6 000 件,即 x=6 时,代入线性回归方程, 得y^=77.37-1.82×6=66.45(元).
即当产量为 6 000 元时,单位成本大约为 66.45 元.


网站首页 | 网站地图
All rights reserved Powered by 0467资源网 0467.cc
copyright ©right 2014-2019。
文档资料库内容来自网络,如有侵犯请联系客服。liunxqq@126.com