关于红楼梦的统计学

    《红楼梦》前80回与后40回某些文风差异的统计分析
韦博成
一、引言
    在统计学应用的诸多领域中,文学著作的统计分析是一个饶有兴趣的分支。美国斯坦福大学教授Efron(19761987)和他的学生曾经对莎士比亚的著作进行过相当深入的统计分析(见[1][2]),并指出:1985年发现的一篇“无名氏”诗稿(仅9429字)确为莎士比亚所著。Efron是当今国际上最著名的顶级统计学家之一,他们的工作在当时引起很大反响,另一位国际顶级统计学家Rao誉之为“一曲统计学的赞歌”(见[3])。
    《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引入红学研究是很自然的。早在1980年,在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上,该校华裔学者陈炳藻教授首次报告了他在这方面的研究工作(见[4][5]),此后还出版了专著(见[6])。陈教授将《红楼梦》120回分为三组,每组40回,并将《儿女英雄传》作为对照组进行比较研究。他从每组中任取8万字,挑出名词、动词、形
容词、副词、虚词这5种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现: 《红楼梦》前80回与后40回所用词汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用词汇的相关程度,并由此推断:前80回与后40回均为曹雪芹一人所作。
    但是,我国华东师范大学陈大康教授得出了迥异的结论(1987[7])。他也把《红楼梦》120回分成三组,每组40回,并统计了其中所含词、字、句等88个项目。他发现,这些词在前两组出现的规律相同,而与后40回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后40回则迥异。由此推断:后40回非曹雪芹所作(但含有少量残稿)。
    同时,复旦大学李贤平教授又提出“成书新说”(1987[8])。李教授选择了47个虚字为识别特征,诸如:“之、其、或、亦、了、的、不、把、别、好”等等,利用各种统计方法(主成份分析、典型相关分析、聚类分析等),对它们在书中各回的出现频率进行统计分析,探索各回写作风格的接近程度,并用三个层次的聚类方法对各回进行分类。由此提出了成书过程新观点:《红楼梦》前80回是曹雪芹根据《石头记》增删而成;而后40哈勃太空望远镜回则是曹家亲友搜集整理原稿加工补写而成。
    李贤平教授的观点也受到质疑,例如,陈大康教授(1988[9])认为其“成书新说”难以成
立。台湾成功大学王三庆教授也提出若干不同意见(1994[10])
    以上三位学者都是从《红楼梦》的词语结构出发进行统计分析,他们按照词语的一定规则进行量化,得到数据集,从而应用统计方法推断前80回与后40回之间的差异。这方面的研究已经比较充分,本文拟从另一种观点出发研究前80回与后40回之间的差异。其主要特点是分析《红楼梦》中着力描写的若干情景,通过量化得到数据集,然后应用统计方法推断前80回与后40回之间的差异。具体来说,我们选择了花卉、树木、饮食、医药与诗词这5个情景指标,统计出它们在前80回与后40回中出现的频数,并应用统计学中的“等价性检验”方法来检验二者的差异。由此得出结论:《红楼梦》前80回与后40回在饮食和花卉的描写上确实存在非常显著的差异,其可信概率不低于98%;同时在树木的描写上也存在明显差异,其可信概率不低于95%。这样,我们就依据统计学原理提供了一个强有力的证据,说明《红楼梦》前80回与后40回在某些重要的情景描写上确实存在非常显著的差异。至于导致这些差异的原因,还涉及到人文和社会方面的诸多因素,仅用统计学方法可能是无法解释清楚的,因此本文未有讨论。
    本文第一节列举了《红楼梦》中着力描写的5个情景指标,并经过量化得到相应的数据
集;第二节对这5个数据集进行等价性检验,计算出相应的p-值,并指出《红楼梦》前80回与后40回在某些文风上所存在的显著性差异,从而得到本文的本要结果;第4节结束语对本文的研究作若干注记;附录简要说明了数据集的生成过程。
    一、情景指标的数据集
    20071010日南京“现代快报”报道(见[11]),南京林业大学汤庚国教授另辟蹊径,从海棠文化出发,分析《红楼梦》前80回与后40回的差异。汤教授主要是从人文花卉方面进行分析,但是他们也提供了一组数据,即《红楼梦》前80回有16回涉及海棠,而后40回仅有4回涉及海棠,以此说明前后差距明显。对于场教授提供的这组数据,统计学者还是能够有所作为的。事实上,我们可以对此做一个等价性假设检验:
    原假设:“前80回与后40回对于海棠花的关注程度相同”;
    对立假设:“前80王连笑回对于海棠花的关注程度大于后40回对于海棠花的关注程度”。
    经渐近正态公式计算,有将近92%的“把握”认为“前80回对于海棠花的关注程度大于后40回对于海棠花的关注程度”。
    受此启发,本文进一步推广和发展了这一数据分析方法。我们对《红楼梦》中若干重要的情景描写进行量化,得到相应的数据集。有了数据集即可通过数理统计方法,比较前80回与后40回在文风上的差异。事实上,在《红楼梦》中,对于许多情景都有非常深入的刻画和描写,例如饮食菜肴,全书有40多回涉及到饮食文化的许多方面(其中最著名的是41回关于“茄鲞”的描写;75回还提到“风腌果子狸”)。我们不考虑人文社会方面的问题,而致力于数据的收集与分析,并以此为基础,应用数理统计方法来研究其前80回与后40回在文风上的差异。根据我们的统计,《红楼梦》在前80回中有34回涉及饮食方面的描写;后40回仅有8回涉及饮食方面的描写(见表1)。根据这一数据,我们可考虑以下等价性假设检验问题(记为等价性检验(A)):
    原假设:“前80回与后40回对于‘饮食描写’关注程度相同”;
    对立假设:“前80回对于‘饮食描写’的关注程度大于后40回对于‘饮食描写’的关注程度”。
   
    类似地,我们亦可选择其他情景指标,设法得到相应的数据,并考虑类似的假设检验问
题。本文选择了《红楼梦》中着力描写的5个情景指标,即花卉、树木、饮食、医药与诗词,统计出它们在前80回与后40回中出现的频数。如表1所示(数据集的具体收集过程见附录)。对于上述每一个情景指标,我们都可以考虑类似的等价性检验,以便比较前80回与后40回对它们在关注程度方面的差异。
    二、统计分析——等价性检验
    有了数据表1,《红楼梦》前80鲁棒性回与后40回在文风上的差异分析就可以化为数理统计学的问题。今以等价性检验(A)(即关于饮食的描写)为例说明其统计模型及其求解方法。这一检验问题可化为两个相互独立的二项总体的等价性检验,这时
   
    否定原假设就意味着“前80回对于‘饮食描写’的关注程度大于后40回对于‘饮食描写’的关注程度”(以一定的检验水平)。对于这个假设检验问题,不少著作都有论述,例如可参见韦博成(2006[12]p.267-270)。通常有两种检验方法,即Fisher精确条件检验(Lehmann1986[13]p.154,或韦博成,2006[12]p.269)和渐近正态检验(韦
博成,2006[12]p.270,或何书元,2006[14]p.263)。我们用这两种方法都进行了计算,得到检验的p-值,即否定原假设而犯错误的概率。后者比较简单,其检验统计量为
   
    2给出了各个情景指标的检验结果。
    2 两种方法对于各个情景指标的检验结果(前80回与后40回的比较)
   
    为了得到Fisher精确条件检验,可应用韦博成(2006[12]p.268-269)的有关公式。检验的p-值可表示为
   
    其中表示成立时的概率。相应的计算结果也列在表2中。这些结果表明,Fisher精确条件检验的p-值比渐近正态检验的p-值稍为偏大一点,这显然是合理的。但是二者相差很少,科尔曼
而且大小次序相同,说明两种方法的计算结果有很好的一致性。精确条件检验是UMPUT,即一致最优的无偏检验,但是也比较保守,它要求对一切满的都有最优的功效,这往往是不必要的。
    这些结果都很清楚明确。由表2可以看出,饮食与花卉的显著性最高,即我们有充分的理由认为,前80回与后40回在饮食与花卉的描写上有很显著的差异,即使按最保守的Fisher精确条件检验的标准来进行统计推断,其判错的概率(即p-值)也不到0.02,因而判对的概率超过98%。对于树木数据,其检验的p-值也小于通常的0.05,因此我们也有比较充分的理由认为,前80回与后40回在树木的描写上有很显著的差异,其判错的概率不到0.05,因而判对的概率超过95%。至于医药和诗词这两个指标,可作为比较对照之用。如果按渐近正态检验的结果来看,我们还是有超过92%以上的概率认为,前80回与后40回在医药和诗词的描写上有差异。但是,若按比较保守的Fisher精确条件检验的标准来判断,则没有充分理由认为前80回与后40回在医药和诗词的描写上有显著性差异。不过,这对本文关于饮食、花卉和树木数据的主要结果并无影响。事实上,前80回与后40回只要在一个指标上有非常显著的差异,则说明二者在文风上确有差异(如果前80回与后40书录解题回在23个指标上都有显著性差异,则我们结论的可信概率只会大大增加)。
    同时,我们也对前80回的第二个40回与后40回进行了比较,其检验结果如表3所示。其相应的p-值依次略有减小,但是花卉与饮食的显著性仍然很高。即我们有充分的理由认为,前80回的第二个40回与紧挨着的后40回在花卉与饮食的描写上有很显著的差异,按照比较保守的Fisher精确条件检验的标准来推断,其判错的概率不到0.03,因而判对的概率超过97%。同时也有超过93%以上的概率认为,前80冷窝回的第二个40回与紧挨着的后40回在树木的描写上有显著差异。而对于医药和诗词这两个指标,我们没有充分理由认为有显著性差异。另外,由表1可以明显的看出,对于花卉、树木、饮食和医药这4组数据,前80回的第一个40回与第二个40回几乎没有区别,两者高度一致。我们也可以对它们进行等价性检验,得到的p-值都非常大(计算从略)。
    3 两种方法对于各个情景指标的检验结果(前80回的第二个40回与后40回的比较)
   
    综上所述,本文以数据分析为基础,以统计学中“两个独立二项总体的等价性检验”为基本方法,很清楚明确地证明:《红楼梦》前80回与后40回在饮食与花卉的描写上确实存在非常显著的差异;在树木的描写上也存在明显差异。不过,这种差异还不能说明《红楼梦》
80回与后40回出自不同的作者,因为统计学方法并不能分析导致这种差异的原因,这还涉及到许多人文与社会方面的问题(例如,书中情节发展的变化也可能会导致情景描写上的若干变化)。但是,本文毕竟提供一个强有力的证据,说明《红楼梦》前80回与后40回在某些文风上确实存在非常显著的差异,供有兴趣者参考。
    另外,从统计学观点来看,本文表1对应于一个“具有5对二项总体”的模型,要研究其“比较与检验问题”。二项总体的比较一直是生物统计中的一个重要问题(例如可参见Tangetal2003[15]Schouten2007[16]),其解法也很丰富多彩。除了本文的经典方法外,唐年胜教授还建议采用“中位p-值法”和“近似非条件p-值法”(因为Fisher精确条件检验比较保守),其结果与本文表2U检验完全一致。特别,旅英学者鲁国斌教授应用Bayes方法,基于固定效应模型,对表1进行了深入的分析。他应用MCMC方法和WinBUGS软件,计算了假设成立(即前80回与后40回有显著差异)的后验概率(相当于1-p值),其结果也与本文表2完全一致。

本文发布于:2024-09-21 01:27:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/508441.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检验   差异   方法   描写   进行   数据   饮食   概率
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议