藏文自动分词技术研究综述

1藏文自动分词的主要意义
分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
远程医疗系统在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2国内藏文自动分词的研究现状
迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1];2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];
才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。
而由于标注语料资源的限制,采用机器学习方法在最近三年才逐渐受到重视。其中,刘汇丹、李亚超各自采用基于条件随机场的音节标注方法,把分词看成判断音节在词中位置的过程,并取得了很好的效果,该方法基于统计机器学习模型,是藏文分词研究的最新研究成果[4]。3藏文自动分词的基本步骤
藏语是黏着性语言,藏语句子的组织过程就是在词与词、短语与短语之间添加格助词并与句末动词有效地结合的过程。因此,藏文分词的关键是如何结合藏语字、词、句各类形式特征来确定格助词及其接续特征规则的识别算法。
藏语句子的各个功能性成分主要是词和格助词及其接续特征词的结合体,同时还有一些则是短语或子
句与格助词组成的连续结合体,统一称之为块。由短语或子句组成的句节内词的切分必须借助词典和接续特征规则。句节内无法切分的“堆块”以及由属格格助词引起的“截断”问题在分析阶段需综合各类知识才能解决。据此,有专家提出利用字切分特征和字性库先“认字”,再用标点符号和关联词“断句”,用格助词“分块”,再用词典“认词”,充分利用各类接续特征“分词”的多级切分策略。
4藏文自动分词面临的主要问题
目前的藏文分词处理通常都是首先由计算机对藏文文本进行自动分词,然后再对分词结果附以人工校对。但无论是计算机自动分词还是人工校对,前提是都需要符合一定的分词标准或规范以保证分词结果的正确性,从而也为藏文信息处理的后续工作提供统一的输入。但即使如此,也并不能完全保证分词结果的正确性,因为藏文自动分词还面临着两个最大的困难:一是歧义切分问题,二是未登录词识别问题。
4.1歧义切分问题
在分词过程中,文句中某个片段可能存在两个或两个以上切分形式的字段,称为分词歧义字段[5]。针对分词中的歧义现象,人们从不同的角度提出了不同的分类方式,从歧义字段的主要构成形式来分,藏文分词中歧义分为两种:一种是交集型歧义字段,另一种是组合型歧义字段。据统计,藏文中交集型歧义占歧义问题的90%以上[6],因此,如何解决好交集型歧义字段的切分问题,对于藏文歧义字段
的切分具有重要的意义。
而对于藏文分词中交集型歧义问题的研究,一般采用两种解决方法。一是采用双向扫描匹配方法,即对同一字段分别进行正向最大匹配和逆向最大匹配,如果扫描结果不同,则认为是交集型歧义;也有人采用最大概率方法来消解交集型歧义,主要利用词频信息来出最佳的切分结果。但是由于高频单音节对切分结果的影响,有时也往往无法得出期望的切分结果。因此,无论是哪一种消歧方法,还都有待于在实验中不断改进。
4.2未登录词问题
大规模的藏文本处理中,会遇到很多机器可读词典中未收录不能识别的词汇,“包括中外人名、地名、机构组织名、事件名、货币名、缩略名、派生词及各种专业术语等,这些词总称为未登录词”。未登录词包括两大类:一类是新涌现的普通词汇或专业术语;另一类是专有名词,例如:人名、地名、国名、组织机构等名。未登录词在藏语真实文本中普遍存在。
应对方式量表
有实验统计,用含7万词条的词典,对2万余字的藏文网页新闻文本语料进行自动切分后发现,其中有20%的词不在词典中;对1万字的藏文科技文本进行自动切分,其中有40%的词不在词典中;对6万字藏文文学、新闻、民俗等多种文本进行自动切分,发现绝大多数错误是由未登录词造成。未登录词是影响藏文分词正确率的主要因素,对分词精度的影响超过了歧义切分。因此,要从根本上提高藏文分
词效率,解决未登录词问题尤为重要。
5结语
藏文分词是藏文文本处理中最基础也最为首要的工作,其分词的正确性将直接影响到藏文信息处理的有效性与应用价值;而藏文自动分词技术则是藏语自然语言处理中的一项关键技术,因为该项技术不仅直接运用于藏文文字识别、藏文语音处理、藏语机器翻译、藏语教学技术研究等方面,而且也是未来藏语的智能化研究以及藏语文化、信息传播与交换的直接动力与基础支撑;同时这也将对藏族地区的社会生活与社会发展带来深远的影响。当然,藏文自动分词技术还并为成熟,还有很多亟待解决的问题,如程序中关于unicode编码处理的问题、藏文文字的在线输入问题、人工标注库的建立和完善等,这就需要相关研究人员投入进一步的研究工作。
藏文自动分词技术研究综述
于诗画1赵小兵2
(1.中央民族大学信息工程学院,中国北京100081;
2.国家语言资源监测与研究中心少数民族语言分中心,中国北京100081)
【摘要】藏文分词是藏文信息处理中最为基础却又十分重要的工作,而藏文的自动分词是提高藏文信息处理工作效率的重要技术。本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。
【关键词】分词;藏文分词;分词方法
※基金项目:此项目由国家自然科学基金重点项目支持“跨语言社会舆情分析基础理论与关键技术研究”(61331013)。
. All Rights Reserved.
(上接第46页)[1]何向真,李亚超,马宁,于洪志.基于音节标注的藏文自动分词研究[J].计算机应用研究
,2015,07:1989-1991.
[2]索郎桑姆.藏语语料库构建与加工技术研究[D].西藏大学,2013.
[3]刘汇丹.藏文分词及文本资源挖掘研究[D].中国科学院大学,2012.[4]汤小娜.词义消歧在统计机器翻译
中的应用研究[D].厦门大学,2007.[5]李伟.中文分词歧义消解技术的研究[D].青岛科技大学,2014.[6]艾金勇.“藏文自动分词技术研究”报告[R].2013,12.[责任编辑:杨玉洁]
(上接第103页)《自动模式》绿、《手动模式》红、《外门锁紧》绿、《外门未锁紧》红、《外门打开》白、《内门锁紧》绿、《内门未锁紧》红、《内
门打开》白。为了实现闸门功能,每个控制台控制内外门之间的按钮应设置联锁,即操作外门时,按下内门控制按钮不起作用反之亦然。为防止不同控制台间同时操作造成的人员或者设备损伤,设置三个控制台之间也应联锁设置。其中一个控制台操作时,除了紧急停止按钮,另外两个控制台应操作无效。同时三个控制台上的指示灯应该同步显示。为了让安全壳内人员更加快速退出,外门控制台和内门控制台同时操作时,内门控制台的信号具有优先权。
3电控内外门联锁为达到内外门不能同时被开启,机械部分设置了机械联锁,使一扇门开启状态下另一扇门不能动作。之前闸门过于依赖于机械联锁,电控方面没有设置联锁,电站在运行过程中某些特定环境下多次出现过机械联锁失效,导致内外门双开的情况,故电控系统中有必要加入额外检测门体状态的联锁功能。一般情况下,闸门门体关闭处设置了关闭触发行程开关,可利用此限位开关在一定程度上避免闸门双开,具体做法为:执行电动操作打开内(外)门时,电机动作前先检测外(内)门关闭限位开关信号是否触发,只有触发门体关闭情况下才能执行开门操作。从以往电站人员空气闸门使用情
况来看,由于电控系统过于信任机械联锁装置,在没有以上控制逻辑情况下,闸门出现了数次双开现象,导致了整个核电厂房出现泄漏情况。以上联锁可在电控
操作下增加电控部分冗余联锁检测,增加了闸门可靠性。
4环境参数联锁要求为保证人员安全,同时为了已在安全壳的人员能够快速撤出安全
壳,安全壳内温度高于50℃或者表压超过0.1MPa 时,外门控制台上打开外门按钮失效,闸门舱体内打开内门按钮失效。人员空气闸门操作过程中,压力平衡阀打开后,门体打开前,应先判断闸门内部与安全壳内安全壳外压力差,若压力差大于0.01MPa,电机应停止工作。待压差小于0.002MPa 时,电机启动,门体打开。5结语
本文分析了为保证人员空气闸门各项功能,其电控方面应该考虑
的联锁等要求,同时分析了核电站使用闸门是对控制要求方面的经验反馈,供相似设计参考,减少设计中疏忽和纰漏。
[1]RCC-P 法国90万千瓦压水堆核电厂系统设计和建造规则[S].[2]RCC-M 压水堆核岛机械设备设计和建造规则[S].
sf-1[3]ETC-C EPR TECHNICAL CODE FOR CIVIL WORKS[Z].[4]ASME BPVC -III RULES FOR CONSTRUCTION OF NUCLEAT POWER
PLANT COMPONENTS[Z].[责任编辑:杨玉洁]3激光切割机运行示意首先我们将要切割的图像,在相关软件下,如CAD,matlab 下生成矢量图,然后用激光切割机操作软件打开该相应矢量图,然后如图4将矢量图导入主控机中,然后主控机控制激光发生器发生激光,通过反光镜片多次反射,将激光导至工作台上,在主控箱的控制之下,切割头沿着预定的方向对工作台上放置的材料进行切割,工作台在伺服电机作用下上下左右移动,最后得到所需的产品。最后切割机复位,回到零点位置。图4激光切割机运行示意图4激光切割机优势激光切割与其他的热切割方法相比较,总的来说突出的特点是切割速度快、质量高。1)切割质量好由于激光光斑小、能量密度高、切割速度快,因此激光切割能够获得较好的切割质量。2)切割效率高由于激光的传输特性,激光切割机上一般配有多台数控工作台,整个切割过程可以全部实现数控。操作时,只需改变数控程序,就可适用不同形状零件的切割,既可进行二维切割,又可实现三维切割。3)切割速度快切割5mm 厚的聚丙烯树脂板,切割速度可达1200cm/min。并且材料在激光切割时不需要装夹固定,既可节省工装夹具,又
古老的歌谣节省了上、下料的辅助时间。
4)激光的高亮度:固体激光器的亮度更可高达1011W/cm2Sr。
无需后续再加工工序及清洁处理即可用于零件成形和焊接;切边无毛
刺,无机械应力.热影响区小,基本无变形;
激光切割的深宽比大.对金属材料可达20:1左右,对非金属材料可达100:1以上。6)激光切割速度快,噪声低,几乎无污染,耗能低,并且切割过程中无“刀具”磨损问题,可以长期使用,几乎适台于所有类型材料都可以切割雕刻。5激光切割机技术的发展方向经过几十年代发展激光切割机技术日趋成熟,未来激光切割机发女夭
展趋势如下:
第一,激光切割将向数字化、智能能化方向发展。利用智能化技术的发展,研制出高度智能化的多功能激光加工系统[4]
。第二,激光切割向多功能的激光加工中心发展,将激光切割、激光焊接以及热处理等各道工序后的质量反馈集成在一起,充分发挥激光加工的整体优势。
第三,激光切割将向更高效率、精度,以及多功能和高适应性方向发展,激光切割机器人的应用范围将会越来越大涉及更多的领域。随着未来“工业4.0”,“中国制造2025”规划深入实施,制造业将
2008扣篮大赛
会发生翻天覆地的变化,将会对高新制造越来越倚重,激光加工正是
属于这一类,由于激光加工技术具有高效率、高精度等绝对优势,再加
上配合未来智能制造技术的应用,激光切割机技术将在国民工业体系中中发挥越来越重要的作用。[1]甘加梁,孙红安.中低功率激光切割机的开发与运用[J].中国激光,2011,14(6):48-49.[2]齐忠明,王涛.激光切割工艺在机械加工中的应用[J].农业科技与装备,2014,14
(6):63-64.[3]
刘向阳.激光切割的基本原理及新进展[J].苏南科技开发,2004(11):42-43.[4]孔晓东,王松,赵凯华.激光切割技术国内外研究现状[J].热加工工艺,2012,9(5):215.[责任编辑:杨玉洁]
. All Rights Reserved.

本文发布于:2024-09-21 16:49:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/36390.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分词   激光   切割   研究   技术   自动
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议