大数据时代转变统计数据生产方式问题思考

“大数据时代”转变统计数据生产方式问题思考
----“大数据”在经济统计中的应用
韩晓明
摘要:“大数据时代”的政府统计数据生产方式必须改变。本文仅在方法论范畴,主要讨论以业务核算、会计核算和统计核算的一些基本规律为前提,引入大数据概念及“联机分析处理”与“合作整合”数据处理方式,尝试改变政府统计数据生产方式的基本统计指标体系设计思路及数据加工方式。与现行统计及核算制度不同,旨在从“大数据”中挖掘统计指标数据,简曰:“先有数据后有指标”。案举改变工业总产值、工业增加值、固定资产投资额、建筑业总产值、商品销售额等总量统计指标(数据)加工方法;概要讨论GDP核算在大数据背景下倒逼机制的设计、服务业及文化产业统计的大数据挖掘思路,以及CPI、PPI、PMI 和城镇化率等统计指数指标大数据生产方式。所涉及内容是理论与实践相结合的经验归集,为“大数据时代”改变政府统计数据生产方式提供一点儿思路和方法借鉴。
关键词:大数据核算规律统计生产方式
引言
顺应“大数据时代”潮流,各个领域的研究与应用都开始进入了一系列量化过程,努力抢占制高点,经济蛇胆汁
统计领域不能例外。在市场经济制度建立和完善过程中,充分利用信息技术进步的成果,全面、迫切改变现行(传统)统计数据生产方式,是统计界有识之士的共识。海量数据采集遵循大数据形成规律,数据分析处理以大数据挖掘和再利用为主,虽然过去的经验值得专门总结[1],但是,没有系统性的研究和实践,不具有普遍现实指导意义。本文将在方法论范畴,试图在大数据背景下,依据基本经济核算规律,引入数据分析处理技术中的“联机分析处理”和“合作整合营销”等大数据分析概念及方式,围绕建立业已形成的行政记录、基本业务核算和会计核算等数据库体系与统计核算之间的联系,案举比估计推断方法(冯士雍倪加勋周邹国华,1998),探讨适应“大数据时代”的统计制度设计思路及数据加工方法,希望可为转变统计数据生产方式和控制数据质量提供一点儿有益借鉴。限于本文意旨,关于诸如“客户关系管理(AIC CRM)”、交互式“联机分析处理(OLAP)”或“合作整合营销(CLM)”等大数据分析方式及工具等技术问题,读者可查阅笔者提供的专业技术文献资料,此不赘述。
1、转变统计数据生产方式的“大数据”思路
1.1、大数据概念及大数据分析处理方式概述
“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(麦肯锡咨询公司)。指数化增长的数
据,从TB级别跃升到PB级别;结构化和非结构化且主要是非结构化数据类型的来源及分析处理,数字化地囊括了所有现象或事务;体量巨大的数据中,对你有价值的或只是极小部分;与传统数据挖掘有本质区别的实时分析处理“1秒定律”,使快速获得有价值信息成为可能等,概括了大数据概念与传统数据概念的本质差别。即:体量(Volume)大、多样(Variety)性、价值(Value)大密度低和速度(Velocity)快,简称大数据的“4V特征”。这,就是“大数据时代”----海量数据+方法论([英]维克托·迈尔·舍恩伯格、肯尼斯·库克耶,2012)。海量数据以结构化和非结构化数据库分布于全社会各个领域之中,形成不同类型的数据仓库,除了行政管理、经营业务和社会交往等过程必须形成外,不针对任何具体统计指标及其分析研究目的(没有专门指向)的数据生产是数据再利用的备用过程。
矿仪器海量、高增长率和多样化的大数据分析处理的对象是业已存在于各领域各行业
三自由度摇摆台各单位的各种类型的数据库,突出体现在分析、挖掘、预测或推断上。与传统经济统计数据分析处理方式比较,突破了关系型数据库“联机事务处理(On-LineTransactionProcessing, OLTP)”分析和SQL查询模式,面对更庞大繁杂的多种类型的数据量(仓库),提出多维数据库及其多维分析处理概念,表现出更具决策力、洞见力和流程优化能力。在大数据分析处理方式中,交互式存储分析处理多维数据库技术是其最鲜明的特点之一。并且,其中的交互式“联机分析处理(On-Line Analytical Processing,OLAP)”,是一套以多维度方式分析数据,弹性地提供积存(Roll-up)、下钻(Drill-down)和枢纽分析(pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。
其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持(廖开际,2011);“合作整合”则借用“合作整合营销(CLM)”概念及模式,充分利用跨界数据库进行有目标的整合处理。这两种方式在解决结构化数据上,几乎没有技术障碍。众所周知,在经济统计数据中,绝大多数都以结构化数据类型采集和存储,少数非结构化的图象数据经过简单转换即能以结构化数据类型存储。所以,尽管目前尚缺少虚拟化数据中心及交互式分析处理统计数据的专门软件[2]支持,但是,在论及转变统计数据生产方式上,积极引入交互式“联机分析处理”和“合作整合”概念及方式是十分必要的,实践上还是能够做一些可操作的有益尝试。且只是大数据分析处理对象的极小、极简单方面。
“如果自然界中的事件完全不可预测地随机发生,我们的生活将是无法忍受的。而与此相反,如果每一件事都是确定的、完全可以预测的,则生活将是无趣的。”。利用因果关系解释观测到的现象或预测未来存在逻辑和实际的困难。在逻辑上,我们所得到的结果处在复杂的因果关系链上,要在某个阶段寻原因会变得非常困难;在实践中,引起一个结果的原因往往是大量甚至是无限的([美]C·R 劳,2004)。例如,经济演变的解释变量之多,以致使经济学家不得不耗费精力和技术筛选变量,结果却仁者见仁智者见智。与传统比较,大数据分析处理的核心就是预测或推断;根本变革在于,不刻意追求因果关系,而更多注重相关关系。通俗说只要知道“是什么”,而不必知道“为什么”([英]维克托·迈尔·舍恩伯格、肯尼斯·库克耶2012)。它颠覆了千百年来人类思维方式和习惯,挑战我们认知和与世界交流的方式。这就是“大数据时代”潮流,“这是一场革命,庞大的数据资源使得各个领域开始了量化进
程,无论学术界、商界还是政府,所有领域都将开始这种进程。”(哈佛大学社会学教授加里·金)。在大数据概念中,舍恩伯格同时认为,“大数据时代的来临使人类第一次有机会和条件在非常多的和非常深入的层次获得和使用全面数据、完整数据和系统数据。”(简曰:“样本=总体”),这就颠覆了抽样推断的统计数据分析处理观念和方法,也避免方差大小所导致的分析结果具有不确定性[3]而差之毫厘谬以千里。从而倒逼统计领域转变观念,探索研究新方法。
1.2、转变统计数据生产方式的基本思路
政府统计似有被裹挟着“卷入”这个不可抗拒的时代潮流。传统及现行统计数据生产方式主要是以GDP核算为核心目标的国民经济核算,是通过设计统计指标体系和统计及核算方法,通过专业统计报表制度或普查方案(形式)收集和采集基本统计数据,并遵循基本核算原则来实现的(简曰“先有指标后又数据”)。近年来,抽样调查技术在一定范围和程度上的应用,使统计及核算有了一些现代气息。但是,仍然没有跳出事必躬亲和基于因果律逻辑的局限。“大数据时代”的到来,统计能力和统计公信力面临前所未有的挑战,最根本的当属广泛而多元化的数据分布,大数据分析处理结果直接或间接挑战政府统计数据的规模、完整、质量、效率和公信力,政府统计数据或被边缘化。因此,转变政府统计数据生产方式势所必然。在统计制度上,遵循简单、效能、综合和快速的原则,由传统的自上而下的设计统计指标(体系)--收集数据—实证分析转向自下而上的数据挖掘上必须有所突破;在统计方法上,
采集、处理、分析和挖掘必须遵循大数据规律。尤其是,对于结构化数据以行政登记、业务核算和会计核算过程产生的数据为基本数据,对于非结构化数据转换为结构化数据或直接处理(简曰“先有数据后有指标”);在调查方式上,除非必要(普查、抽样调查、重点调查),不直接面向总体单位收集数据,最大限度缩小直接面向对象的调查范围,减轻调查单位和统计机构负担。同时,把政府统计转向统计管理、统计指标数据加工和国民经济核算及经济统计分析(统称为统计数据生产)上来。从而,也彻底改变政府统计机构疲于应对诸多直接调查而浪费了社会海量经济信息资源的现状。
必然性于偶然性之中是统计学的认识基础。统计数据是描述与推断的科学理论与实践相结合的技术产物,是在偶然性中发现必然,概率的反映客观规律。正如C·R 劳所说,“在理性的基础上,所有的判断都是统计学”,经济统计不能例外。既然是推断,就不是“1+1=2”,而主要是利用即有社会经济数据资源或大样本数据的统计描述基础上,采用科学的统计推断方法生产统计数据;既然是反映客观规律,就要充分利用数据或数据库间本已存在的客观规律,建立数据或数据库间的联系去发现新的规律。大数据分析处理虽然不刻意追求因果关系,但是,数据或数据库间业已存在着的客观规律使看似复杂的不同事物或现象间通过相关分析而联系了起来,才使我们抽身于复杂的因果关系而取向系统内外相关关系的研究。因此,引入大数据概念及数据库间交互式分析处理方式,把经济中基本经济核算规律及核算方法、统计推断理论和方法有机结合,构成经济统计数据生产方式的灵魂,应该是“大数据时代”政府统计数据生产方式转变中制度(方案)设计思路与设计方法的出发点和归宿。
1.3、引入大数概念转变统计数据生产方式的意义
传统及现行统计数据生产方式在制度设计规范下,与物质产品生产一样,对应于物质产品生产要素“采购----产品加工----产品销售,统计产品生产过程同样包括采集基本数据----统计指标加工(数据产品)----提供统计数据(统计服务)”。大数据背景下,引入大数据概念及分析处理方式后,遵循基本核算规律的交互式分布数据库统计分析及预测(推断)方法,将改变传统及现行统计数据生产方式及流程。特别是数据采集和数据加工变成了“联机分析处理”与“合作整合”的有机结合,提供统计服务也将是高效率的实时并发。同时,高质量的数据和卓有成效的数据管理,在学术研究、应用技术开发、商业营销应用和在政府决策等领域,能够确保分析结果的真实、可靠和利用价值。所以,引入大数据概念及分析处理方式,不仅是转变统计数据生产方式,又能够大大增强判断反映客观规律的统计数据真实和可靠与否的能力,是通过控制过程控制及提高统计数据质量的有力工具。
2、基本经济核算规律的再认识
大数据概念及分析处理方式不能离开经济现象内在的基本联系和规律。在经济统计过程中,要建立起数据之间的相关关系,除了大样本处理必要的统计检验之外,所依存的经济规律和理论背景可以帮助我们预判数据间相关性程度或性质,是统计数据生产不可或缺的。其中所遵循一些基本核算规律,也是我们通过控制统计工作质量,实现统计数据生产及对统计数据质量实施有效控制的重要依据。行政
登记、业务核算和会计核算这三方面海量数据信息溶于社会各领域中。行政登记资料是分散于政府行政管理部门的既成事实,分为原始登记资料和综合汇总资料。政府统计及核算中应用这些行政和业务登记资料简单快捷、可控性强,并可达到事半功倍的效果。经济核算广泛而深入,其数据源自业务和会计原始记录、统计原始记录,由这些原始数据所形成的多维数据库是统计数据生产最重要的依据。并且,这些数据库间遵循既定的经济核算规律。经济核算一般分为三种,业务核算、会计核算和统计核算,下面从数据库角度分别概要讨论这三种经济核算基本规律。
2.1、业务核算基本规律唐成良
采购、供应、生产、销售等业务核算是企业的基本核算,是会计核算和统计核算的基础。实物资产和货币资产运营业务都会在生产、购进、消耗、销售和库管等业务过程产生原始记
录,并由这些原始记录形成数据库体系。反映这些数据库间业已存在的客观联系,是业务核算的一般规律。包括:
生产企业:
期初库存+本期生产-本期销售=期末库存+盘存盈亏(1)
期初库存+本期购进-本期消耗=期末库存+盘存盈亏(2)营销企业:
期初库存+本期购进-本期销售=期末库存+盘存盈亏[4] (3)从统计学上看,如果不考虑其它外生变量时,式(1)逻辑“锁定”了生产;式(2)逻辑“锁定”了消耗。式(3)逻辑“锁定”了销售。因此,统计量化过程及对统计数据进行有效控制或严格审核,遏制虚报、瞒报或减少错报就不仅仅是简单的逻辑运算,还表现一种相关性。
2.2、会计核算基本规律
cf清钢会计核算是经营主体核算,也是微观核算。它是根据原始记录,基于因果关系的会计核算原理生成的次级数据,也是大数据基本来源。虽然会计核算基于因果关系,却是统计数据生产方转变的认识起点,其核算的一般规律,是我们建立会计数据与统计数据之间的相关关系的客观依据,也为统计数据生产提供了方便的分析方法。其核算可分为:
资产核算:
资产=负债+所有者权益(4)资产运营:
因为:
所有者权益=资本+(收入-费用)(5)所以,式(4)为:
资产-负债=资本+(收入-费用)(6)又因为:
资产=流动资产+非流动资产(7)
负债=流动负债+长期负债(8)所以,式(6)又为:
(流动资产+非流动资产)-(流动负债+长期负债)=资本+(收入-费用)[5](9)业务运营:
主营业务营业成本=制造成本+(产成品期初库存-产成品期末库存)(10)营业收入=营业性流动资产×营业性流动资产周转次数(11)
(营业性流动资产=流动资产-交易性金融资产-年内到期非流动资产-其它预付账款)资产负债记录形成一个多维数据库,各科目数据间已然存在式(4)到式(9)的客观联系,是资产负债核算所遵循一般规律(财政部,2006);成本是资产耗费,生产和库存记录形成相应的独立数据库,式(10)把二者联系起来;收入是资产运营结果的记录,形成独立数据库,与不确定性的资产及周转速度间存在式(11)的关系,是“费雪公式”[6]的微观形态。资产增值是资本和负债运营的结果,说到底,天下没有免费的午餐,企业运营就是资产运营([美]简R.威廉姆斯、苏珊F.哈卡、马克S.贝特纳等,2010),收入和费用规模决定于流动资产,一定期间企业生产(营业)规模取决于流动资产多少及运营效率。所以,非流动资产尤其是固定资产不变状态下,流动资产“锁定”了生产规模。
因此,在管理层面,有行政登记数据;在企业层面,有业务核算和会计核算过程产生的数据库及其表现的客观规律,是统计核算及统计数据生产的基本数据和客观依据。
2.3、统计核算基本规律
统计核算基于概率论的描述与推断,是宏观(总体)核算。所以,立足于宏观地看,微
观(个体)行政记录、业务和会计核算产生的数据记录不过是统计核算的原材料,由此形成的数据库体系,具有体量大(Volume)、多样性(Variety)、速度快(Velocity)和价值(Value)大密度低的大数据特征。“大数据时代”的统计核算应在这些大数据基础上,遵循一些基本的统计核算规律,对这些“原材料”主要在宏观层面采用交互式的包括“联机分析处理”和“合作整合”方式进行数据挖掘(加工),而不再“纠缠”于微观对象。统计核算规律体现在财富创造(生产)和财富分配两个方面,我们分别概述如下:
财富创造:
增加值=净产出+固定资产折旧=总产出-中间投入+应交增值税(12)因为:
中间投入=中间物质投入+中间非物质投入(13)
应交增值税=产品销项税-应税进项税(14)(包括货物和劳务。暂不考虑进项转出和退税影响)
所以:
增加值=【总产出】+【产品销项税】-【中间物质消耗】+【材料进项税】-【中间非物质消耗】+【劳务进项税】(加“【】”强调数据源自相应数据库。下同)(15)
或:增加值=【总产出】-【中间物质消耗+中间非物质消耗】+【应交增值税】(16)财富分配:
增加值=分配国家+分配投资者+分配劳动者+分配企业[7]    (17)
国民财富分配分为一次分配和再分配。因为,分配包括经营成果和固定资产消耗补偿,前者属于净产出,后者属于固定资产耗费准备。所以,严格意义上,分配的是前者。
营业利润前:
分配国家=【应交增值税+营业利润前各种税-补贴收入】=生产税净额(18)
分配劳动者=【成本和期间费用中的劳动者所得】=劳动者报酬(19)
“分配企业”=【固定资产耗费准备】=生产性固定资产折旧(20)
回归热螺旋体营业利润后:
分配国家=【所得税(收入调节税)】(21)
分配投资者=【分配股东利润】(22)
分配企业=【营业利润】-【分配股东利润-分配国家(所得税)】+【其它盈余(暂不考虑投资收益和营业外收支)】(23)
【分配国家(所得税)+分配投资者+分配企业】=营业盈余(24)
所以,根据式(17)----式(24):
增加值=【分配国家】+【分配投资者】+【分配劳动者】+【分配企业】故:
增加值=【应交增值税+营业利润前各种税-补贴收入+所得税】+【分配股东利润】+【成本和期间费用中的劳动者所得】+(【营业利润】-【所得税-分配股东利润】+【其它盈余】+【生产性固定资产折旧】)(25)生产是投入与产出的控制(关系调整),分配就是切分生产的“蛋糕”(分配关系调整)。业已存在的式(15)到式(25)构成了国民经济核算的基本关系式,反映了统计核算的一般规律。在大数据概念下,式(16)和式(25)构成多维数据库体系,统一的会计制度(财政部,2006)为采用“联机分析处理”与“合作整合”方式提供了方便,通过数据挖掘,可以生产包括GDP在内的大量统计核算指标数据和判断统计数据质量。
在统计学意义上,基于经济核算规律的再认识,行政登记、业务核算和会计核算数据库与统计核算指
标数据库间建立“是什么”的关联分析,除了制度和体制上尚存在障碍外,技术上已经有了重大突破----虚拟化数据中心,在结构化数据库处理上相对也比较成熟。虽

本文发布于:2024-09-20 13:41:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/559881.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   统计   统计数据   核算   处理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议