首页 > 学术百科

莱文《商务统计学(第7版)》完整学习笔记

电脑迷

《商务统计学（第7版）》笔记

⾸先要学的重要内容

1 统计学是⼀种思维⽅式

统计学是关于有效处理数据的⽅法，这些⽅法代表了⼀种可以帮助你更好地做出决策的思维⽅式。

想要最好地理解统计学是⼀种思维⽅式，你需要⼀个框架把统计学的各项任务组织起来。DCOVA框架（DCOVA framework）就是这样的思维框架。

DCOVA框架包括以下任务：

定义（define）为解决某个问题或者实现某个⽬标⽽要研究的数据。

从适当的来源收集（collect）数据。企业年度检验办法>德隆系

通过创建表格对收集的数据进⾏整理（organize）。

通过创建图形使收集到的数据更加可视化（visualize）。

分析（analyze）收集到的数据以便得出结论并演示结果。

借助DCOVA框架有利于在商务活动的以下四个领域中应⽤统计学⽅法：

概括商务数据并使其可视化；

从数据分析中得出结论；

对商务活动做出可靠的预测；

改进商务管理的运营过程。

康熙年间2 数据：应该如何定义

数据（data）是“有助于辨认事物发⽣的某个特质或者属性的值”。

变量（variable）⽤来表示与数据数值相关的事物特质或属性。

变量就是物体或个⼈的特征。

数据就是与变量相关的各个值的集合。

统计学

统计学（statistics），定义为将数据转化为对决策有⽤的信息的⽅法。

在统计学中，统计描述（descriptive statistics）主要⽤来概括和展示数据。统计推断（inferential statistics）则利⽤从⼩体收集的数据来得出有关⼤体的结论。

3 统计学正在改变⾯貌

商务分析学

商务分析学（business analytics）将传统的统计⽅法与管理科学和信息科学⽅法结合在⼀起，形成了⼀套跨学科的分析⼯具，⽤来⽀持以事实为依据的管理决策。商务分析学能够帮助你：

应⽤统计⽅法分析和探讨数据，出此前⼈们⽆法预料的事物间的关联关系。

应⽤管理科学的⽅法开发优化模型，改进从战略制定到各个层⾯的⽇常运营管理。

使⽤信息系统的⽅法来收集和处理不同容量的数据集，包括那些原本难以开展有效研究的容量巨⼤的收据集。

"⼤数据"

⼤数据（big data）是⽤传统⽅法不易浏览或分析的数据集合。数据量很⼤，数据产⽣的速度很快，⽽且数据形式多种多样，并不限于数据处理记录、⽂件和表格等传统结构化数据。

"⼤量、快速和多样"（volumne, velocity, variety）

⼤数据为企业获得新的管理理念或者从数据资源中获取价值提供了机会。

软件在统计学中的整合作⽤

⼯作簿（worksheets）以表格形式排列数据，⾏和列的交差点形成单元格（cells），⽤来输⼊内容。通常⽤列来输⼊变量的数值，每⼀列为⼀个变量。

4 统计学：商学教育中的重要组成部分

在当前数据导向的商务环境中，你需要具备常⽤的分析技能，以便正确处理数据、解释分析结论并把结果融合到各领域的决策过程中。

你的决策过程越来越依靠数据⽽不是基于个⼈经历的直觉或灵感。数据导向已被实践证明是成功的，研究表明那些常⽤统计分析学帮助决策的公司在⽣产率、创新和竞争⼒⽅⾯都有所提升。

第1章数据定义与收集

1.1 定义变量

对于每个感兴趣的变量，你必须提供⼀个可操作定义（operational definition），即对所有与该分析相关的⼈⽽⾔很明显是普遍接受的含义。

划分变量类型

当你对变量给出可操作定义时，必须把变量区分为属性变量或者数值变量。属性变量（categorical variables）⼜称为定性变量（qualitative variables），它的取值是分类的不同类别。数值变量（numerical variables）⼜称为定量变量（quantitative variables），它的取值代表通过计数或测量得到的数值。分类也会影响变量的可操作定义。此外，由于某些统计⽅法可以正确地应⽤于⼀种或多种类型的

变量，⽽其他统计⽅法则仅限于特定的变量类型，因此正确的变量划分很重要。

属性变量可以是答案为“是”或“否”的问题的结果；或者描述⼀个具有多种类别的树形或者特征。在定义⼀个属性变量的时候，必须提供允许的类别，还必须对每个类别给出明确的定义。

数值数据的可操作定义取决于该变量被定义为离散的还是连续的。离散变量（discrete variables）是计数过程得出的结果。连续变量（continuous vaiiables）是测量过程得出的数值，⽽且这些数值取决

于使⽤的测量⼯具的精确程度。度量单位和精确程度应当是连续变量的可操作定义的⼀部分。

1.2 收集数据

数据来源

数据来源可分为原始数据来源（primary data sources）和⼆⼿数据来源（secondary data sources）。如果你⽤⾃⼰收集的数据进⾏分析，你就是在使⽤原始数据。如果你的分析使⽤数据是其他⼈收集的，你就在使⽤⼆⼿数据。

你可以通过下⾯任何⼀种⽅式收集数据：

组织或个⼈公布的数据；

设计的实验的结果；冰片霜

调差问卷的回答；

执⾏观察研究的结果；

通过正在进⾏的上午活动所收集的数据。

总体与样本

总体（population）包括你想要获得结论所涉及的全部物品或个⼈。在分析⼀个总体数据时，你要计算参数（parameters）。

样本（sample）是从总体中挑选出来⽤于分析的⼀部分。分析⼀个样本的结果可以⽤来估计总体的特征。在分析来⾃样本的数据时，你要计算统计量（statistics）。

当以下任⼀情形适⽤时，你就应当从样本中收集数据：

选取样本⽐选取总体中全部个体更节省时间；

选取样本⽐选取总体中全部个体成本更低；

分析样本⽐分析整个总体更省事并且使⽤。

结构化与⾮结构化数据

你所收集的数据可能有多种格式，⼀些格式没有或者只有很少重复的结构，这些就是⾮结构化数据（unstructured data）。

电⼦格式与再编码

同样形式的数据可以以不同的电⼦格式存在，某些格式更好⽤。

数据也可以通过多种⽅式编码。不同的编码可能影响连续变量数值记录的精确程度并导致不那么精确的数值或者显示精确程度错误。

数据清理

对于属性变量⽽⾔，未定义的值就是不代表该变量所定义的任何属性的值。对于数值数据⽽⾔，不可能的值就是该变量所定义的可能值的范围以外的值。异常值（outlier），就是那些看起来和其他⼤多数值⾮常不同的值。这些值可能是错的，也可能不是错的，但都需要再进⾏检查。

缺失值（missing value）是未能被收集到的值（因此不能被分析）。

变量重新编码

收集数据之后，你可能发现你需要重新考虑你为⼀个属性变量所定义的类别，或者需要通过对数值数据分组来把数值变量转化成属性变量。在上述情形中，你可以在数据分析过程中定义⼀个重新编码的变量（reoded variable）来补充或者替代初始的变量。

对变量重新编码要明确定义类别并使每个数据的值只能被分配的⼀个类别，这种特性称为互斥（mutually exclusive）。此外，还要确保你为重新编码的变量建⽴的⼀组类别包括全部记录数据的值，这个特性称为完备（collectively exhausitive）。

当对数值数据重新编码时，要特别注意你为重新编码的变量划分的类别的可操作定义，尤其是当类别没有明确范围的时候。

1.3 抽样⽅法的类型

抽样过程从定义抽样框（frame）开始。抽样框是对组成总体的⼀系列条⽬的全部或部分列举，样本就是从总体中抽取⽽来的。

选取抽样框以后，再从抽样框⾥抽取⾮概率样本或概率样本。在⾮概率样本（nonprobability sample）中，我们选择条⽬或者个⼈组成样本，但并不知道选择概率是多少。在概率样本（probability sample）中，我们基于已知的概率来抽取样本。但凡有可能，我们都应该使⽤概率样本，因为概率样本允许我们对感兴趣的总体作出统计推断。

在收集便利样本（convenience sample）时，我们选择那些简单、低成本并且⽅便获取的条⽬作为样本。

在判断样本（judgement sample）中，我们收集预先选好的专家就主题发表的意⻅。

简单随机样本

在简单随机样本（simple random sample）中，抽样框⾥的每个条⽬都有同等的机会被选中。⽽且，每组同样⼤⼩的样本都有同等的概率被选中。它的结果通常⽐其他抽样⽅法有更⼤的波动。

长沙铁道学院学报要使⽤简单随机抽样，⽤n代表样本容量，N代表抽样框的⼤⼩，对抽样框中的每个条⽬进⾏编号（从1到N）。在第⼀次选择中，从抽样框中选取某个特定成员的概率是。

可重复抽样（sampling with replacement，⼜译作可放回抽样）表明选择了某个条⽬之后再把它放回抽样框，它再次被选中的概率仍然相同。

不重复抽样（sampling without replacement，⼜译作⽆放回抽样）表示⼀旦选择某个条⽬，就不可以再选。

随机数表（table of random numbers）由⼀系列按照随机顺序排列的个位数字构成。使⽤随机数表抽样时，我们⾸先为抽样框中的每个个体表上号码，然后读取表格⾥的随机数，把抽样框中所标数字和表中数字相对应的条⽬选出来就可以构成⼀个随机样本。

系统样本

在系统样本⾥（systematic sample）⾥，我们把抽样框中的N个条⽬分成n组，每组包含k个条⽬，其中

将k四舍五⼊取整。若要选出系统样本，我们⾸先从抽样框的第⼀组k个条⽬中随机选取⼀个作为样本的第⼀个条⽬。接下来，按顺序每数到第k个数就抽取⼀个条⽬，直到把样本所需的其他个条⽬都抽⻬。

简单抽样和系统抽样通常都需要较⼤的样本容量。此外，使⽤系统样本时，如果在抽样框中存在某种

模式，就会出现选择性偏差。

分层样本

在分层样本（stratified sample）中，我们⾸先把抽样框中的N个条⽬分成彼此分开的亚体，⼜称为层（strata）。层是由⼀些常⻅的特征来划分的。我们在每个层中选择简单随机样本，然后加以合并。由于保证了样本对整个总体的代表性，因此分层抽样⽐简单随机抽样和系统抽样效率更⾼。各层中的个体条⽬的同质性也使得总体参数估计有更⾼的精确度。

聚类样本

在聚类样本（cluster sample）中，我们把抽样框中的N个条⽬分成若⼲聚类，每个聚类包含若⼲条⽬。这些聚类（clusters）通常是⾃然形成的表示。然后选择包括⼀个或多个聚类的简单随机样本，研究选择的聚类中的所有条⽬。

本文发布于:2024-09-22 10:35:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/53577.html

上一篇：统计学和数学的关系

下一篇：02867卫生统计学试题学习(一)