对回归分析的认识、体会和思考

回归分析的认识、体会和思考
市第一中学    潘峰
一、教材分析
1.容编排
散点图、最小二乘估计的基本思想、最小二乘估计的计算公式、建立回归方程并进行预报等回归分析的部分容在《数学3(必修)》中已经出现过。在此基础上,本章通过现实生活中遇到的问题“女大学生身高和体重的关系”进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因,并从相关系数的角度研究了两个变量间线性相关关系的强弱,从而让学生了解在什么情况下可以考虑使用线性回归模型。教材介绍了一元线性回归模型的残差平方和分解的思想,从而给出相关指数的含义,即相关指数越大,模型拟合的效果越好。从残差分析的角度研究所选用的回归模型是否合适,引导学生初步体会检验模型的思想。为提高学生解决应用问题的能力,教材还强调了用解释变量(自变量)估计预报变量(因变量)时需要注意的问题(这点总结得非常的好,帮助学生思考),总结建立回归模型的基本步骤。作为
线性回归模型的一个应用,教材还给出了一个处理非线性相关关系的例子,并通过相关指数比较不同模型对同一样本数据集的拟合效果。这里所涉及的非线性相关关系可以通过变换转化成线性相关关系,从而可以用线性回归模型进行研究。这个例子没有增加难度,但能开阔学生的思路,使学生了解虽然任何数据对都可以用线性回归模型来拟合,但其拟合的效果并不一定最好,可以探讨用其他形式的回归模型来拟合观测数据。
2.学习价值:
.数理统计已成为人们的常识,它几乎渗透到每一学科中,哪里有试验,哪里有数据,哪里就少不了数理统计,不懂数理统计,就无法应付大量信息;
.现代社会是信息社会,学会搜集、测量、评价信息做出决策是一个人成功必备的素质。
3.教材处理的优点:
⑴.总以一些生动活泼的、丰富的实际情境引入,激发学生的兴趣和学习激情;
⑵.以恰时恰点的问题引导学生思考,培养问题意识,孕育创新精神;(这点对我们教师的思考也是一种帮助)
⑶.螺旋上升地安排核心概念和数学思想,加强数学思想方法的渗透与概括;
⑷.对高等知识点到即止,强调类比、推广、特殊化、化归等思想方法的运用,开阔视野,提高数学思维能力,培育理性精神。
4.重点和难点
重点:了解线性回归模型与函数模型的差异;了解判断刻画模型拟合效果的方法—相关指数和残差分析。
难点:解释残差变量的含义;了解偏差平方和分解的思想。
5.目标定位:
⑴.了解随机误差、残差、残差分析等概念;明确掌握相关关系,回归方程,散点图等定义;
⑵.了解回归分析的基本思想,会求回归直线方程,并会用回归直线方程进行预报;
第一课标掌握建立回归模型的一般步骤;
⑷.会用残差分析、判断线性回归模型的拟合效果;
⑸.卷积积分了解相关系数、会用相关系数判断相关关系的强弱;
划线更正法
5.方法指引:
⑴.对于回归分析只通过案例了解方法即可,不论是线性回归方程或者非线性回归方程,都只是模拟而已,是不确定中的确定性;
⑵.了解最小乘法的思想方法,理解回归方程与一般函数的差别与联系;
⑶.会用书中介绍的方法搜集资料、分析资料,感兴趣的同学可从互联网上查询相关资料。
二、 教材中的要点精析
1. 相关关系:自然界中,大量存在着一些变量,它们之间相互联系、相互依存,关系密切。大致分为两类:一类是函数关系,又叫确定性关系;一类是相关关系,又叫不确定性关系、统计相关关系。
2. 回归分析:是对具有相关关系的两变量进行统计分析的一种常用方法。通俗地讲,回归分析就是寻相关关系中非确定性关系的某种确定性。其步骤为画散点图,求回归直线方程,并用回归直线方程进行预报。
3. 回归函数,也叫回归方程。形如散点图的各个点大致分布在一条直线附近,这种分析就叫线性回归分析,直线方程叫做回归直线方程。不是形如的回归方程,我们称之为非线性回归方程,具体选择何种类型,由经验判断,再分析差是否异常,确定选的好与坏。
回归直线:对于一组线性相关关系的数据 ,其回归直线方程的斜率截距的最小乘法估计公式分别为:
              (1)          (2)
其中 称为样本点的中心,回归直线过样本点的中心。
线性回归模型:与函数关系不同,在回归模型973计划中的的值是由和随机因素共同确定的,即只能解释部分的变化,因此把为解释变量,把称为预报变量,其中为模型的未知参数,之间的误差。通常为随机变量,称为随机误差,它的均值。线性回归模型的完整表达式为 ,其中随机误差的方差 越小,通过回归直线预报真实值的精确度越高。随机误差是引起预报值与真实值之间误差的原因之一,其大小取决于随机误差的方差。再者由于公式(1)、(2)中的分别为截距和斜率的估计值,与真实值之间也有误差,这也是引起预报值与真实值之间误差的另一个原因。
4. 残差分析
因为随机误差是随机变量,因此可以通过这个变量的数字特征来刻画它的一些总体特征。均值是反映随机变量取值平均水平的数字特征,方差反映随机变量集中于均值程度的数字特征,而随机误差的均值0,因此可以用方差来衡量随机误差的大小。为了衡量预报的精度,需要估计的值,通过样本方差来估计总体方差。解决问题的途径是通过样本的估计值来估计的值。
根据截距和斜率的估计公式(1)(2),可以建立回归方程,其中的估计量,的估计量。对于样本点而言,相应于它们的随机误差为 ,其估计值为, 称为相应于数据点的残差。类比样本方差估计总体方差的思想,可用作为的估计量,其中是由公式(1)、(2)给出的成为残差平方和。可以用残差平方和衡量回归方程的预报精度。通常残差平方和越小,预报精度越高。
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据。然后可以通过残差京剧空城计唱词来判断模型拟合的效果,判断原始数据中是否存在可数据这方面的分析工作称为残差分析。
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计等,这样作出的图形称为残差图。
5.散点图
表示相关关系的两个变量的一组数据,作为点的坐标,直角坐标系中描出来得到的图形叫散点图。散点图使相关关系具有直观性。
6.回归分析的解题规律:
a) 在解具体问题过程中,通常是先进行相关检验,通过检验确认两个变量具有线性相关关系时,再求其线性回归方程;
b) 相关性检验有几种方法,教材用的是相关系数和相关指数,两者在教材中具有平方关系(在只有一个解释变量的线性模型中恰好等于相关系数的平方)时,表明两个变量正相关时,表明两个变量负相关。当越接近于1,表示相关程度越好,表明两个变量的线性相关性越强,越接近于0,表示相关程度越差,表明两个变量之间几乎不存在线性相关关系;同样 取值越大,意味着残差平方和越小,模型的拟和效果越好,回归方程的预报精度越高。在线性回归模型中,表示解释变量对于预报变量变化的贡献率,越接近1,表示回归的效果越好。
c) 相关程度的强弱,除相关系数的大小之外,与选取的数据个数多少有关,还有一个问题是显著性临界值的选取,教材中点到即止,没有往下高通滤波交待;
d) 回归分析计算量大,现在一般用计算机解决,学习中只要求明白原理即可;
e) 教材中直接选取对数变换是选取比较简单的函数演示而已,还可以做其他函数模拟;
f) 回归分析中,通常先观察散点图,若分布在一条直线附近,经验证线性相关,则选一次函数,否则选取其他函数模拟;
g) 判断两个变量的相关程度通常有:其一相关系数 ,相关系数的绝对值越接近于1,相关程度越高;相关指数,与类似的值越大残差平方和越小,拟合越精确。
h) 判断模拟精确的尺度为:(或残差平方和)的大小。
7.建立回归模型的一般的基本步骤:
 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);
 由经验确定回归方程的类型(如观察到的数据呈现性关系,则选用线性回归方程);
 按一定规则估计回归方程中的参数(如最小二乘法);
 得出的结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。

本文发布于:2024-09-23 05:23:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/208192.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:回归   模型   分析   相关   变量   关系   残差
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议