高健
(南京师范大学统计(金融)系,南京)
摘要
本文在数据的基础上通过统计方法对《红楼梦》前80回与后40回作了比较分析。在写作风格方面,运用两个独立样本的假设检验得出前80回与后40回在写作风格上有着较大的差异。在人物方面,通过K-S检验方法,这几个主要人物人在前后的出场规律有着巨大差异。在情景分析方面,运用聚类分析,得出在前80回中主要情感彩是“欢快”的,都大多数情感彩“沉重”的回合集中在后40回。 数理统计法
关键字 两个独立样本的假设检验 K-S检验方法 聚类分析
(一)引言
《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引
入红学研究是很自然的。华裔学者陈炳藻教授(见[1],[2])在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上曾发表了通过统计学方法算出相关用词的相关程度,发现前80回与后40回均为曹雪芹一人所作.我国华东师范大学陈大康教授得出了迥异的结论(1987,[3]),它将红楼梦分成3组,通过分析各组之间用词句式,作出推论:后40回非曹雪芹所作(但含有少量残稿)2014年国际工程科技大会.复旦大学李贤平教授的也通过对于虚词运用多元统分析(主成份分析、典型相关分析、聚类分析等),提出了新观点(1987,[4]):《红楼梦》前80回是曹雪芹根据《石头记》增删而成;而后40回则是曹家亲友搜集整理原稿加工补写而成。东南大学韦博成通过运用各回合对于情景的关注程度(2009,[5]),分析前80回和后40回合的不同。
以上几位学者对于前80回和后40回的不同之处分析主要集中在写作之人写作手法的不同,没有考虑到《红楼梦》这部巨作本身的故事也决定了其前后两部分的不同。本文基于前面几位学者,不仅从写作风格方面做了简要分析,同时从故事的本身进行的不同异同分析。在分析写作风格方面,通过多元分析中的两个独立样本的建设检验对于使用虚词的规律进行分析,从霍特林统计量的值我们看出,写作风格有着较大的不同。在人物的出场率方面,通过K-S检验方法,比较人物在前后的出场规律的不同,分析前80回和后40回在故事情节上的变化。在情景方面,运用有别于[5]中使用的方法,从另一个角度分析通过对每回合情景指标出现频率的不同,通过聚类的方法来对各回合进行分析。本文第二部分是通过计算机对《红楼梦》中的字词进行统计,为第三部分做数据准备。第三部分是分析《红楼梦》的写作风格,人物出场规律和情景。
(二)数据准备
《红楼梦》正文总共有874592个字,如果采用人工统计方法不仅工作量大,而且容易出错。而计算机有着计算速度快而且精确这两个特点,采用计算机进行统计是一个自然结果。李瑞芳(2009,[6])等通过Java编程对于《红楼梦》中的字进行统计,其中包括了这
样一个结论:频次在700以上的共有189个字,这189t5003个字一共用了498630次,这些字覆盖了全56.0887%的内容,在4401个单字中,这189个字是频次最高的一,依频次自高向低排出,这189个字是:了、不、的、一、来、道、人、是、说、我、这、你、去、也、着、玉、有、儿、宝、个、子、又、贾、里、们、见、只、得、那、太、便、好、在、笑、他、家、上、她、么、大、、头、听、就、出、回、知、要、日、下、都、心、二、事、老、过、还、话、起、自、如、看、没、叫、两、到、母、些、时、之、今、小、问、因、奶、等、凤、娘、可、什、呢、忙、想、夫、面、爷、才、中、王、打、此、进、罢、倒、样、吃、和、姑、正、后、无、几、黛、天、然、为、前、再、意、别、门、外、走、三、丫、袭、怎、妹、众、多、方、生、作、明、已、将、身、以、把、气、何、钗、给、亲、拿、手、与、年、十、坐、若、用、请、房、且、命、发、春、薛、政、原、妈、姨、花、所、处、先、准、平、己、瞧、边、住、管、琏、内、女、送、死、连、会、至、告、东、早、西、香、往、月、喜、却、安、能、放、分、当、未、从、带。
本文中写作风格和情景分析的所用字词主要从这189个中选取,并且添加一些的重要的字词,再结合matlab编程统计处在每回合出现的频数。对于一些人物的分析,本文主要对于
出场率较高的人物进行编程汇总。由于篇幅的原因,本文中对于这些数据的统计不再列出。
(三)前80回和后40回的分析
1.写作风格
通过数据准备我们提炼出以下常用虚词:了、的、着、也、么、之、呢。
将这些虚词出现的规律记为一个随机变量,且。前80回虚词规律记为,后40回记为。做假设检验
,
作为一元情况下两样本t检验统计量的推广,用似然比方法可以求得霍特林统计量
其中:,分别是对应的样本协方差矩阵。
当原假设为真的时候,统计量
对于实现给定的显著性水平,拒绝规则为:
其中:
计算可得:,所以拒绝原假设,认为它们的均值是不同的。
通过上述的分析,认为前80回和后40回的作者在写作风格上发生了变化。而实际中一个人在一定时期对于虚词的用法是服从一定的规律的,这样的事实说明了在前80回和后40回中作者本身要么发生了重大变化,要么其后面的作品并非完全由自己完成。
2.人物
红楼梦中设计人物众多,光是女性就分成金陵十二钗正榜,副榜,又副榜,三副榜,......,八副榜,外副榜等等。如此众多的人物,在前80回和后40回中出现的规律随着自身的命运也出现了变化。如果把每个人物在各回合中出现的频率看成服从一种分布,那么我们就可以通过人物规律发生的变化进行分析。
本文采用两个独立样本的K-S检验方法([7]),要求假设
;
提出的检验统计量是
定理:设两个总体分布函数连续且相等,则
其中为的分布函数,。
由此可见,当足够大时,选择为统计量,对应的拒绝域为
,是对应的分位数。
考虑到秦可卿这个人物虽列位于正榜,但是犹豫特殊原因,使其在前几回就退出了这个舞台。其次,除了正榜中的女性之中,一些有地位的丫鬟如:袭人,晴雯,平儿等,在故事中也有着鲜明的个性特征,所以同时把她们计入考察的对象。再次,在这个“女儿王国中”,也能看到各各样的男子,如主人公贾宝玉,其父贾政,贾琏等等一些有着省份地位的人。
最后限于篇幅,本文对如下的人物80回前后的每回出现频率做了K-S检验,结果如下表:
人名 | 最极端差别 | K-S统计量 | 渐近显著 性(双侧) |
绝对值 | 正 | 负 |
黛玉 | .175 | .088 | -.175 | .904 | .388 |
宝钗 | .188 | .188 | -.050 | .968 | .306 |
元春 | .088 | .000 | -.088 | .452 | .987 |
探春 | 甲基是什么 .088 | .025 | -.088 | .452 | .987 |
湘云 | .175 | .000 | -.175 | .904 | .388 |
妙玉 | .225 | .225 | .000 | 1.162 | .134 |
迎春 | .300 | .000 | -.300 | 1.549 | .016 |
惜春 | .225 | .225 | -.013 | 1.162 | .134 |
国际会计 熙凤 | .188 | .025 | -.188 | .968 | .306 |
巧 | .313 | .313 | .000 | 1.614 | .011 |
李纨 | .050 | .038 | -.050 | .258 | 1.000 |
晴雯 | .200 | .000 | -.200 | 1.033 | .236 |
袭人 | .138 | .138 | -.087 | .710 | .694 |
鸳鸯 | .100 | .100 | -.025 | .516 | .952 |
平儿 | .075 | .038 | -.075 | .387 | .998 |
紫鹃 | .338 | .338 | -.013 | 1.743 | .005 智能材料与结构 |
麝月 | .100 | .100 | -.038 | .516 | .952 |
香菱 | .050 | .025 | -.050 | .258 | 1.000 |
| | | | | |