改进型英汉翻译机器

著录项
  • CN01110655.7
  • 20010416
  • CN1380619
  • 20021120
  • 李玉
  • 李玉
  • G06F17/28
  • G06F17/28

  • 北京市朝阳区平乐园100号北京工业大学计算机学院
  • 中国,CN,北京(11)
摘要
一种基于分层自适应选择模板匹配替换算法的改进型英汉翻译机器,可大大提高英汉翻译机器(专利号:00109235.9)的翻译速度。其特征是根据输入句子的类型和结构特征,利用分层自适应选择模板匹配替换算法,可以高效地选择所有可能相关的模板翻译规则库与句子进行匹配运算,同时利用起始项的相关索引数据,将各个相关模板翻译规则库中可能与句子匹配的规则限定在一个较小的范围内,从而大大减少匹配运算次数,提高翻译速度。
权利要求

1.一种以逻辑运算部件、存储部件、视频显示部件和输入部件为硬件基础的 改进型英汉翻译机器,其特征在于:

一.将英汉翻译机器(专利号:00109235.9)的模板翻译规则库按照一定的层次结构 分拆成多个规则库:

(1)分拆的原则是层次相同的模板翻译规则放在同一个规则库文件中,结 构类似的模板翻译规则放在同一个规则库文件中。

(2)在同一个规则库文件中,所有起始项相同的规则按照项数多者在前的 原则依相邻顺序组织在一起。

(3)在与源语言句子进行匹配运算时,根据句子的类型和结构特征,从经 分拆得到的规则库中选择与句子可能相关的所有规则库,从而在规则 库层次上限制可能参与模板匹配运算的规则总数。

(4)在与源语言句子进行匹配运算时,按照先在可能相关的低层次规则库 中搜索,后在可能相关的高层次规则库中搜索的顺序,寻可能与句 子完全匹配模板翻译规则。

2.二.利用“分层自适应选择模板匹配替换算法”,在可能相关的规则库搜索寻 与待翻译句子完全匹配的所有模板翻译规则,代替英汉翻译机器(专利 号:00109235.9)在整个规则库中进行搜索寻的方案,可以使系统的翻译速 度大大提高,该算法的执行流程是:

(1)从输入部件输入或者从存储部件读取要翻译的源语言中的句子,并将 它显示在视频显示部件上。

(2)启动执行算法的功能选项,将句子分解并表示为以源语言中的词汇、 标点等为基本单元的信息属性结构,记录“句子长度变量”=基本单 元的数目。

(3)对句子中的每个基本单元进行形态分析,并记录它的所有词类代码和 每个词类在目标语言中的所有可能含义。

(4)确定句子的类型和结构特征,即它是特殊疑问句、一般疑问句、反意 疑问句、陈述句还是感叹句,以及是否可能带有定语从句和宾语从句。

(5)根据句子的类型和结构特征,从所有规则库中选择确定与句子可能相 关的规则库,并将这些规则库按照从低层次到高层次的顺序一一与句 子按照(6)~(11)进行自适应选择模板匹配替换运算,令当前规则 库为最低层次的规则库。

(6)令句子“当前匹配位置变量”=1。

(7)令“当前匹配原型变量”=当前匹配位置变量在句子中所指向单词的 原型,令“当前匹配类型变量”=当前匹配位置变量在句子中所指向 单词的第一个词类(或类型)代码,进入(8)。

(8)根据“当前匹配原型变量”所记录的单词原型,通过其索引数据在当 前规则库中确定以该单词原型为起始项的所有规则记录,将这些规则 记录看作一个独立规则库,利用英汉翻译机器(专利号:00109235.9)中 提出的模板匹配替换通用算法,将句子与该独立规则库进行模板匹配 替换运算。如果匹配替换成功,记录“句子长度变量”=当前句子的 基本单元数目,若“句子长度变量”=“当前匹配位置变量”,进入(11), 否则令“当前匹配位置变量”=“当前匹配位置变量”+1,返回(7); 如果匹配替换不成功,进入(9)。

(9)根据“当前匹配类型变量”所记录的词类(或类型)代码,通过其索 引数据在当前规则库中确定以该词类(或类型)代码为起始项的所有 规则记录,将这些规则记录看作一个独立规则库,利用英汉翻译机器(专 利号:00109235.9)中提出的模板匹配替换通用算法,将句子与该独立 规则库进行模板匹配替换运算。如果匹配替换成功,记录“句子长度 变量”=当前句子的基本单元数目,若“句子长度变量”=“当前匹配 位置变量”,进入(11),否则令“当前匹配位置变量”=“当前匹配 位置变量”+1,返回(7);如果匹配替换不成功,进入(10)。

(10)如果当前匹配类型变量记录的已经是当前匹配位置变量在句子中所 指向单词的最后一个词类(或类型)代码,若“句子长度变量”=“当 前匹配位置变量”,进入(11),否则令“当前匹配位置变量”=“当 前匹配位置变量”+1,返回(7);否则令“当前匹配类型变量”=“当 前匹配位置变量”在句子中所指向单词的下一个词类(或类型)代码, 返回(9)。

(11)如果当前规则库已经是可能相关的最高层次规则库,进入(12);否 则,令当前规则库为下一个层次的可能相关规则库,返回(6)。

(12)将句子的各项在目标语言中的翻译结果集取出,此时翻译结果集的 个数恰好与句子长度变量相等,而且如果匹配完全成功,则翻译结果 集只有一个,句子长度变量等于1;将这些翻译结果集中的字符串按 顺序连接起来,得到最终翻译结果集,进入(13)。

(13)直接将最终翻译结果集中的第一个翻译结果显示在视频显示部件上 作为在(1)中句子的最终翻译结果,或者将最终翻译结果集中的字符串 优化排序后,将最可能的字符串作为在(1)中句子的最终翻译结果。也 可将最终翻译结果集中的部分或所有字符串列举在某个选择框中,由 用户去选择在(1)中句子的最终翻译结果。

说明书

改进型英汉翻译机器

一种基于分层自适应选择模板匹配替换算法的改进型英汉翻译机器,属 于G06F15/38类计算机科学技术领域。

在专利英汉翻译机器(专利号:00109235.9)中,已简要介绍过当前实现机 器翻译的主要技术方案,并提出了基于模板匹配替换通用算法的新方案。

本发明的目的是提出分层自适应选择模板匹配替换算法,对专利英汉翻译 机器(专利号:00109235.9)进行改进,它可使系统的翻译速度大大提高,翻译实 验表明可提高30至40倍。对于联想PIII-550的机器,翻译速度可以从原来的 5-6个单词/秒,提高到150-240个单词/秒。

本发明的目的是通过以下方法实现的:

一种以逻辑运算部件、存储部件、视频显示部件和输入部件为硬件基础的 改进型英汉翻译机器,其特征在于:

一.将英汉翻译机器(专利号:00109235.9)的模板翻译规则库按照一定的层次结 构分拆成多个规则库:

(1)分拆的原则是层次相同的模板翻译规则放在同一个规则库文件中, 结构类似的模板翻译规则放在同一个规则库文件中。

(2)在同一个规则库文件中,所有起始项相同的规则按照项数多者在前 的原则依相邻顺序组织在一起。

(3)在与源语言句子进行匹配运算时,根据句子的类型和结构特征,即 它是特殊疑问句、一般疑问句、反意疑问句、陈述句还是感叹句, 以及是否可能带有定语从句和宾语从句,从经分拆得到的规则库中 选择与句子可能相关的所有规则库,从而在规则库层次上限制可能 参与模板匹配运算的规则总数。

(4)在与源语言句子进行匹配运算时,按照先在可能相关的低层次规则 库中搜索,后在可能相关的高层次规则库中搜索的顺序,寻可能 与句子完全匹配模板翻译规则。 注明:发明人在用VC++6.0进行技术实现时将英汉翻译机器(专利号:00109235.9) 中的模板翻译规则库分拆成41个规则库。

二.利用“分层自适应选择模板匹配替换算法”,在可能相关的规则库搜索寻 与待翻译句子完全匹配地所有模板翻译规则,代替英汉翻译机器(专利 号:00109235.9)在整个规则库中进行搜索寻的方案,可以使系统的翻译速度大 大提高,该算法的执行流程是:

(1)从输入部件输入或者从存储部件读取要翻译的源语言中的句子,并 将它显示在视频显示部件上。

(2)启动执行算法的功能选项,将句子分解并表示为以源语言中的词汇、 标点等为基本单元的信息属性结构,记录句子长度变量

SentenceLength=基本单元的数目。

(3)对句子中的每个基本单元进行形态分析,并记录它的所有词类代码 和每个词类在目标语言中的所有可能含义。

(4)确定句子的类型和结构特征,即它是特殊疑问句、一般疑问句、反 意疑问句、陈述句还是感叹句,以及是否可能带有定语从句和宾语 从句。

(5)根据句子的类型和结构特征,从所有规则库中选择确定句子可能相 关的规则库,并将这些规则库按照从低层次到高层次的顺序一一与 句子按照(6)~(11)进行自适应选择模板匹配替换运算,令当前 规则库为最低层次的规则库。

(6)令句子当前匹配位置变量CurrentPos=1。

(7)令当前匹配原型变量CurrentProto=当前匹配位置变量CurrentPos在 句子中所指向单词的原型,令当前匹配类型变量CurrentType=当前匹 配位置变量CurrentPos在句子中所指向单词的第一个词类(或类型) 代码,进入(8)。

(8)根据当前匹配原型变量CurrentProto所记录的单词原型,通过其索引 数据在当前规则库中确定以该单词原型为起始项的所有规则记录, 将这些规则记录看作一个独立规则库,利用英汉翻译机器(专利 号:00109235.9)中提出的模板匹配替换通用算法,将句子与该独立规 则库进行模板匹配替换运算。如果匹配替换成功,记录句子长度变 量SentenceLength=当前句子的基本单元数目,若句子长度变量 SentenceLength=CurrentPos,进入(11),否则令当前匹配位置变量 CurrentPos=CurrentPos+1,返回(7);如果匹配替换不成功,进入(9)。

(9)根据当前匹配类型变量CurrentType所记录的词类(或类型)代码, 通过其索引数据在当前规则库中确定以该词类(或类型)代码为起 始项的所有规则记录,将这些规则记录看作一个独立规则库,利用 英汉翻译机器(专利号:00109235.9)中提出的模板匹配替换通用算法, 将句子与该独立规则库进行模板匹配替换运算。如果匹配替换成功, 记录句子长度变量SentenceLength=当前句子的基本单元数目,若句 子长度变量SentenceLength=CurrentPos,进入(11),否则令当前匹 配位置变量CurrentPos=CurrentPos+1,返回(7);如果匹配替换不成 功,进入(10)。

(10)如果当前匹配类型变量CurrentType记录的已经是当前匹配位置变量 CurrentPos在句子中所指向单词的最后一个词类(或类型)代码,若 句子长度变量SentenceLength=CurrentPos,进入(11),否则令当前 匹配位置变量CurrentPos=CurrentPos+1,返回(7);否则令当前匹配 类型变量CurrentType=当前匹配位置变量CurrentPos在句子中所指向 单词的下一个词类(或类型)代码,返回(9)。

(11)如果当前规则库已经是可能相关的最高层次规则库,进入(12);否 则,令当前规则库为下一个层次的可能相关规则库,返回(6)。

(12)将句子的各项在目标语言中的翻译结果集取出,分别记为 A1,A2,...,AL,其中翻译结果集的个数L=句子长度变量SentenceLength, 如果句子完全匹配成功则应有L=SentenceLength=1。利用这些翻译结 果集计算最终翻译结果集Result={a1+a2+...+aL|ai∈Ai,i=1,2,...,L},其 中“+”表示将字符串按顺序连接起来,进入(13)。

(13)直接将最终翻译结果集Result中的第一个翻译结果显示在视频显示 部件上作为在(1)中句子的最终翻译结果,或者将最终翻译结果集 中Result的字符串优化排序后,将最可能的字符串作为在(1)中句 子的最终翻译结果;也可将最终翻译结果集Result中的部分或所有 字符串列举在某个选择框中,由用户去选择在(1)中句子的最终翻 译结果。 注明:附图1是对上述执行流程的辅助说明。通过结合英汉翻译机器(专利 号:00109235.9),发明人已经用VC++6.0将该算法在联想PIII-550计算机 上编程实现。 关于本发明的概念说明:

(1)常项,变项,模板,模板翻译规则和句子状态的概念说明,可以在已 公开专利英汉翻译机器(专利号:00109235.9)中查阅。

(2)两个模板规则层次相同,没有严格的定义,主要是说将它们在同一个 层次上与句子进行匹配替换运算在一般情况下不会产生结果冲突,例 如下面两个模板规则:

DET ADJ NOUN→NOUN:DET ADJ NOUN;    (模板规则I)

DET NOUN→NOUN:DET NOUN;            (模板规则II)

如果在规则库中它们相邻排列在一起,而且模板规则I排列在模板规则II 之前,那么它们就具有相同的层次。

(3)两个模板规则结构类似,也没有严格的定义,主要是指它们具有类似 的句型结构,例如下面两个模板规则:

there AUX be N→S:AUX有N;

there be N→S:有N; 在英语语法上都属于“there+be”句型,所以具有类似结构。

(4)句子的类型和结构特征,主要决定于它是特殊疑问句、一般疑问句、 反意疑问句、陈述句还是感叹句,以及是否可能带有定语从句和宾语 从句,句子类型和从句类型的概念与普通英语语法所描述的完全一 致。

(5)在对英汉翻译机器(专利号:00109235.9)的规则库进行分拆的时候, 层次相同的模板翻译规则也可能由于它们的结构不类似或其它原因而 放在两个不同新规则库文件中。 本发明的优点是:它可以用来改进在专利英汉翻译机器(专利号:00109235.9) 基础上开发的系统,使改进后的系统比原来提高翻译速度30至40倍。

翻译实例:

如果要翻译的英文句子是

I began to like mathematics when I was a student.

那么下面7条模板翻译规则将被使用:

(1)DET NOUN→NOUN:DET NOUN;(DET表示限定词,NOUN表示名 词)

(2)be R→VI:是R;(R表示代词PRON或名词NOUN)

(3)VT R→VI:VT R;(VT表示及物动词)

(4)VI to VI→VI:VI VI;(VI表示不及物动词)

(5)R VI→S:R VI;

(6)S when S1→S:当S1的时候,S;(S和S1表示句子)

(7)S.→S:S。;

为了后面叙述的方便,不妨假定这7条模板翻译规则被分别存放在7个 不同层次的规则库中,分别命名为“以DET开头的基本名词规则库”,“以 be开头的动词规则库”,“以VT开头的动词规则库”,“以VI开头的动 词规则库”,“以R开头的简单句规则库”,“以S开头的复合句规则库” “以S开头且以标点结尾的句子规则库”(在发明人实际实现的系统中并 不一定这样命名,甚至也不一定这样分拆规则库)。利用基于分层自适应选 择模板匹配替换算法,对上述例句的翻译过程如下:

(1)将句子分解为基本单元并进行形态分析,然后记录句子长度变量 SentenceLength=基本单元的数目,即: I{PRON:我;}begin{VI:开始;V_Form=-1}to{PREP:去,向;} like{VT:喜欢;PREP:象;ADJ:相像的,相同的;} mathematics{NOUN:数学;}when{WHADV:什么时候;CONJ:当… 的时候;}I{PRON:我;}was{AUX:是;V_Form=-1}a{DET:一;} student{NOUN:学生,学者;}.{标点:。;} 置句子长度变量SentenceLength=11。其中V_Form=-1表示动词过去 式,PREP表示介词,ADJ表示形容词,WHADV表示疑问副词,CONJ 表示连词,AUX表示助动词。

(2)由于句子结束时的标点符号是“.”,可以直接判定句子为陈述句,因 此句子中不可能包含特殊疑问句规则、一般疑问句规则,反意疑问句 规则和感叹句规则;同时由于句子中不含有定语从句和宾语从句,因 此也不可能包含定语从句规则和宾语从句规则。将剩余的其它规则库 都看作可能语句子相关的规则库,并将它们按照从低层到高层的顺序 排列,然后将它们按照同样的次序一一与句子进行匹配替换运算。

(3)如果当前规则库不是“以DET开头的基本名词规则库”,“以be开 头的动词规则库”,“以VT开头的动词规则库”,“以VI开头的动 词规则库”,“以R开头的简单句规则库”,“以S开头的复合句规 则库”或者“以S开头且以标点结尾的句子规则库”,那么不可能 从中到与句子成功匹配替换的句子。

(4)如果当前规则库是“以DET开头的基本名词规则库”,令句子当前匹 配位置变量CurrentPos=1,从而可得CurrentProto=“I”,CurrentType= “PRON”;此时在当前规则库中,即没有以原型“I”开头的基本名 词规则,也没有以词类代码“PRON”开头的基本名词规则;令 CurrentPos=CurrentPos+1=2,从而可得CurrentProto=“begin”, CurrentType=“VI”,但此时在当前规则库中仍然没有可以匹配替换 的基本名词规则;到CurrentPos=9时,CurrentProto=“a”,CurrentType= “DET”,此时利用英汉翻译机器(专利号:00109235.9)中的模板匹 配替换算法,可以将“a Student”成功与第一条规则“DET NOUN→ NOUN:DET NOUN;”匹配替换为NOUN{NOUN:一学生,一学者;}, 同时令SentenceLength=10,简记新的句子状态为: “I begin to like mathematics when I was NOUN.”。

(5)如果当前规则库是“以be开头的动词规则库”,令句子当前匹配位置 变量CurrentPos=1,从而可得CurrentProto=“I”,CurrentType=“PRON”; 此时在当前规则库中,即没有以原型“I”开头的动词规则,也没有以 词类代码“PRON”开头的动词规则;令CurrentPos=CurrentPos+1=2, 从而可得CurrentProto=“begin”,CurrentType=“VI”,但此时在当 前规则库中仍然没有可以匹配替换的动词规则;到CurrentPos=9时, CurrentProto=“be”,CurrentType=“AUX”,此时利用英汉翻译机 器(专利号:00109235.9)中的模板匹配替换算法,可以将“be NOUN” 成功与第二条规则“be R→VI:是R;”匹配替换为VI{VI:是一学生, 是一学者;},同时令SentenceLength=9,简记新的句子状态为:“I begin to like mathematics when I VI.”。

(6)如果当前规则库是“以VT开头的动词规则库”,令句子当前匹配位 置变量CurrentPos=1,从而可得CurrentProto=“I”,CurrentType= “PRON”;此时在当前规则库中,即没有以原型“I”开头的动词规 则,也没有以词类代码“PRON”开头的动词规则;令 CurrentPos=CurrentPos+1=2,从而可得CurrentProto=“begin”, CurrentType=“VI”,但此时在当前规则库中仍然没有可以匹配替换 的动词规则;到CurrentPos=4时,CurrentProto=“like”,CurrentType= “VT”,此时利用英汉翻译机器(专利号:00109235.9)中的模板匹配 替换算法,可以将“like mathematics”成功与第三条规则“VT R→VI:VT R;”匹配替换为VI{VI:喜欢数学;},同时令SentenceLength=8,简 记新的句子状态为:“I begin to VI when I VI.”。

(7)如果当前规则库是“以VI开头的动词规则库”,令句子当前匹配位 置变量CurrentPos=1,从而可得CurrentProto=“I”,CurrentType= “PRON”;此时在当前规则库中,即没有以原型“I”开头的动词规 则,也没有以词类代码“PRON”开头的动词规则;令 CurrentPos=CurrentPos+1=2,从而可得CurrentProto=“begin”, CurrentType=“VI”,此时利用英汉翻译机器(专利号:00109235.9) 中的模板匹配替换算法,可以将“begin to VI”成功与第四条规则“VI to VI→VI:VI VI;”匹配替换为VI{VI:开始喜欢数学;},同时令 SentenceLength=6,简记新的句子状态为:“I VI when I VI.”。

(8)如果当前规则库是“以R开头的简单句规则库”,令句子当前匹配位 置变量CurrentPos=1,从而可得CurrentProto=“I”,CurrentType= “PRON”;此时利用英汉翻译机器(专利号:00109235.9)中的模板匹 配替换算法,可以将“I VI”成功与第五条规则“R VI→S:R VI;”匹 配替换为S{S:我开始喜欢数学;}。同时令SentenceLength=5,简记 新的句子状态为:“S when I VI.”。匹配成功后令句子当前匹配位置 变量CurrentPos=CurrentPos+1=2,从而可得CurrentProto=“when”, CurrentType=“WHADV”或者“CONJ”;此时在当前规则库中,即 没有以原型“when”开头的动词规则,也没有以词类代码“WHADV” 或“CONJ”开头的动词规则;令CurrentPos=CurrentPos+1=3,从而可 得CurrentProto=“I”,CurrentType=“PRON”,此时利用英汉翻译 机器(专利号:00109235.9)中的模板匹配替换算法,可以将“I VI” 成功与第五条规则“R VI→S:R VI;”匹配替换为S{S:我是一学生, 我是一学者;},同时令SentenceLength=4,简记新的句子状态为: “S when S.”。

(9)如果当前规则库是“以S开头的复合句规则库”,令句子当前匹配位 置变量CurrentPos=1,从而可得CurrentProto=“S”,CurrentType=“S”; 此时利用英汉翻译机器(专利号:00109235.9)中的模板匹配替换算法, 可以将“S when S”成功与第六条规则“S when S1→S:当S1的时候, S;”匹配替换为

    S{S:(当我是一学生的时候,我开始喜欢数学),

         (当我是一学者的时候,我开始喜欢数学);

     } 同时令SentenceLength=2,简记新的句子状态为:“S.”。

(10)如果当前规则库是“以S开头且以标点结尾的句子规则库”,令 句子当前匹配位置变量CurrentPos=1,从而可得CurrentProto=“S”, CurrentType=“S”;此时利用英汉翻译机器(专利号:00109235.9)中 的模板匹配替换算法,可以将“S.”成功与第七条规则“S.→S:S。;” 匹配替换为

 S{S:(当我是一学生的时候,我开始喜欢数学。),

      (当我是一学者的时候,我开始喜欢数学。);

  } 同时令SentenceLength=1,简记新的句子状态为:“S”。

(11)因SentenceLength=1,所以不需再做其它匹配运算,且所有可能 的翻译结果保存在句子的当前状态中,将它们另存到结果集Result中, 并显示Result中最可能的翻译结果,或者列举部分或所有翻译结果由 用户选择。翻译过程结束。

本文发布于:2024-09-22 15:42:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/70395.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议