基于语料库的翻译汉语词汇特征研究

R    3.66    2.9    3.4
3.77STTR 71.84 70.79
66.95  70.87STTR标准差29.00
28.28  32.34  30.17平均词长(字数)1.28    1.32    1.55    1.46词长标准差
1 0.55 0.73 0.67
氟醇
ds精神表1列举了反映词语变化的各项指标。总体特征是:文学语料与非文学语料的表现呈相反趋势——汉语文学语料中翻译汉语的TTR和STTR小于原创汉语;而非文学语料库翻译汉语TTR与STTR大于原创汉语。这意味着:文学语料的词语变化趋势支持“简略化”的假设,即汉语文学翻译语料显示使用较少的词汇,而原创文学倾向于使用较多的词汇。词语变化特征表明:汉语文学翻译语料支持“简化”共性假设(Laviosa,1998,2002;胡显耀,2007),而汉语非文学翻译语料似乎不支持这一假设。关于后者,我们分析是所用语料库中非文学原创汉语语料的选材稍显单一,主要为政府文件类语料(共199个文件);而翻译汉语则涉及科技、经济、法律、医疗等各个领域(共400个文件)。两个语料库的规模和选材有差距,因而可比性略差。尽管文学语料的词语变化度支持翻译简化的假设,但由于语料库之间的
类符形符比的差距并不特别悬殊,这些差异还可能受语料库工具的精度和语料取样范围的影响,所以它所能说明词语简化的程度有限。
2.2 词类频率分布
本文所使用的四个语料库都做过词性赋码,我们得以对各子语料库的各类词性进行全面的统计分析。我们用PowerGrep3.0检索了语料库中全部43个POS标记的频次,并依据各子语料库的实际形符标准化了各种词类的每百万词频率(注:本文的某一词类包括该POS的全部赋码,例如:形容词包括POS=a,ad,ag,an;名词包括POS=n,ng,nr,ns,nt,nx,nz等等。全部词性赋码标记集
zgnc
(Tagset)参看《北大汉语文本词性标注标记集》。)(见表2)。为了分别统计实词和虚词的频率,本文在表中用“-”表示虚词。鉴于代词属实词或虚词还存在争议,及代词在翻译汉语中的特殊表现,本文用“*”单列表示。以下分别从词汇密度、虚词形符比、代词形符比三个方面具体分析翻译汉语的词类频率分布特征。
表2:各子语料库词类频次比较(每百万词)
文学非文学原创汉语
翻译汉语原创汉语翻译汉语动词 206851 200358 212206 203975名词 175609 151910 240423
232432副词 85898  75695 52778  57232形容词44232  41687 41843  40492数词 30895
29768 35130  34966量词 25297  23942
17319  20427代词*74307 *101141 *41856广州塔模型
*53154助词-70697  -83437 -75005 -84320介词
-26064  -37692 -37545 -45807连词-17359  -21950 -28944 -33594语气词-14450  -11876  -4044  -2673叹词 -1808 -1710  -93 -138合计773467  781166 787188 809210
(1)词汇密度(Lexical Density)
词汇密度有两种计算方法。一种是以TTR值作为词汇密度(杨惠中,2002:168)。一般认为,这种词汇密度高于60-70%为密度较高,低于40-50%为密度较低。这种词汇密度将词语的变化性等同于词汇密度,但如上所述,TTR对语料库容量和选材十分敏感,不能真实反映词语变化度。另一方面,STTR也不能完全反映篇章的信息量,原因是STTR统计的类符包括实义词和功能词,过度修饰的篇章由于功能词的增加也可能提高STTR值,但并不意味着该语篇
信息量的增加。
另一种是J.Ure(1971)和Michael Stubbs(1986)提出的方法,即统计实词形符在总形符数中的比例。英语的实义词(lexical word或content word)指具有稳定词义的词语,包括名词、动词、形容词和副词等词类。与之相对的是功能词(function word),指不具备稳定词义或意义模糊而主要起语法功能作用的词语,包括介词、连词、冠
词、助动词等词类。汉语词类划分和实词与虚词的区分至今还存在争议(注:汉语实词与虚词和各种词类的划分存在不同的划分标准和类型。如《马氏文通》把汉语分为实词和虚词两大类,“凡字有事理可解者,曰实字,无解而惟以助实字之情态者,曰虚字。”虚字分“介字、连字、助字、叹字”四类。黎锦熙《新著国文语法》将词分五大类:实体词、述说词、区别词、关系词、情态词。其中虚词是指关系词和情态词。王力《中国现代语法》认为词分为理解成分和语法成分,理解成分即实词包括:名词、数词、形容词、动词;语法成分包括半实词(副词)、半虚词(代词、系词)和虚词(联结词和语气词)。吕叔湘和朱德熙《语法修辞讲话》则把名词、动词和形容词归为实词,把代词、副词、连词、语气词、象声词等归为虚词。可见,争议最大的词类是副词和代词,究竟这两类词属于虚词还是实词,是汉语语言学家争论不休的问题之一。本文无意讨论汉语词类划分的问题,但由于在研究翻译文本与非翻译文本差异性时,不可避免地涉及汉语的词类问题,因此本文综合各家意见,主要采取了王力、吕叔湘与朱德熙先生看法,将名词、动词、形容词三类词归为实词;而将副词、代词、介词、连词、助词和叹词等归为虚词。)。本文用前一种方法词汇密度来考察和比较翻译汉语与原创汉语在
信息量上的差异和难易度,同时也采取第二种方法,即在具体统计中把名词、动词、形容词、副词、数、量词等六个“具有稳定词义”的词类作为实词。将汉语中起语法功能的助词、介词、连词、语气词、叹词等视为虚词。而“半虚词”代词(王力,1990)的意义必须依靠与其同指的名词才能确定,本文认为它不应算作具有“稳定的词义”。但是,我们在对各词类频率及比例的统计中发现,汉语文学翻译中代词的使用与非翻译语料具有显著的区别,故本文对代词单列统计并专门讨论。表3中列举了三类词的频率在各子语料库中的比例。触指
表3:各子语料库词汇密度对比
文学非文学原创汉语
翻译汉语原创汉语翻译汉语实词61.40% 57.30%
64.50%  63.10%代词 7.43% 10.11%    4.19%
5.32%虚词13.04% 15.67% 14.56%  1
6.65%标点
17.00% 15.80% 15.23%  13.27%其它    1.12%
1.06%    1.51%    1.62%
纪实摄影论文
表3中实词的比例即本文所说的词汇密度。可以看到,无论是文学语料还是非文学语料在词汇密度上表现趋于一致:翻译汉语的词汇密度低于原创汉语,即相同长度的翻译汉语语料中使用的实词少于原创汉语,或换言之,相同长度的翻译汉语语料中可能使用了更多的功能词,词汇密度低反映信息量和文本难易度相对降低。因此,词汇密度在各子语料库中的表现支持翻译文本的“简略化”假设——即汉语翻译文本具有通过降低实词所提供的信息量来降低译文的难度,从而提高其可接受性的总体趋势。
(2)虚词明晰化
上文考察了实词的比例,那么虚词在翻译汉语中表现如何?从表3中可以看到,汉语文学和非文学语料具有共同趋势:翻译汉语的虚词比例高于原创汉语。也就是说,翻译汉语语料中起语法功能的介词、连词、助词等词类使用频率比原创汉语文本高,我们把这种现象称为“虚词显化”(或语法显化)。由于汉语总体而言趋向语法标记内隐(意合),而翻译汉语在语法标记上则出现了外显(形合)的特征,我们认为,这一特征支持翻译汉语显化共性的假设。不过,虚词在语料库中的具体表现如何?造成翻译汉语虚词明晰化的原因是什么呢?为了回答这些问题,我们对语料库中具体词类进行了更深入的分析。
图1是文学语料中原创汉语和翻译汉语的各主要词类每百万次频率比较。从中可以更直观地看到文学
语料中:(1)原创汉语的全部实词频率均高于翻译汉语,其中以名词频率差异较为显著;(2)原创汉语的全部虚词频率均低于翻译汉语,其中助词、介词、连词均有较大差异;(3)原创汉语的代词使用频率明显低于翻译汉语。
图1:原创汉语和翻译汉语文学语料词类频率对比
图2:原创汉语和翻译汉语非文学词类频率对比图2是非文学语料中原创汉语和翻译汉语的主要词类频率比较。从该图可以看到汉语文学语料与非文学语料的差异:总体而言,文学语料的实词频率更低而虚词频率更高;文学语料中频次最高的词类是动词,而非文学语料中

本文发布于:2024-09-21 04:34:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/118183.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:翻译   文学   语料
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议