数字小键盘笔画王多功能汉字自然输入法

著录项
  • CN02146615.7
  • 20021028
  • CN1427325
  • 20030702
  • 何娅玲
  • 何娅玲
  • G06F3/023(2006.01)
  • G06F3/023(2006.01)

  • 北京市朝阳区民族园路8号5栋4单元401
  • 中国,CN,北京(11)
  • 20011211 CN01140270.9
摘要
一种利用基本五笔画和常用汉字部首关联法输入汉字的方法,又称为笔画王汉字输入法。本发明将数字键盘划分成五个笔画键和数个部首键(与笔画键独立)。同时将显示区域划分成:关联部首区、笔画输入区、候选汉字区、汉字编辑区共四个部分。关联部首区可显示的部首单元数目与部首键的个数一一对应,可显示与当前输入的笔画、部首序列相关联的部首,从而有利于用户利用部首键直接选取部首部件。国标汉字的输入编码系列由笔画码和部首码二部分组成,任一汉字除了基本输入编码序列外,还具备多种冗余的编码序列。笔画王汉字输入法具易学易用、编码短、重码率低、功能强大的优点,可广泛应用于信息电话、手机和带数字键控制的智能电子产品中。
权利要求

1.一类结合数字小键盘(或类似于数字小键盘的信息输入装置和虚 拟小键盘)的、基于笔画和汉字基本部件的汉字优化输入法,以 下简称为笔画王汉字输入法。信息输入的基本单元是汉字的五个 基本笔画----一(横、提)、丨(竖、竖钩)、丿(撇)、丶(点、 捺)、乙(折),和一些最常用的汉字部件,如:“疒”、“虫”、 “石”、“月”等。本发明的基本特征是:

a)在具有数字小键盘的各种信息产品输入装置上,将一、丨、丿、 丶、乙 共五个笔划与五个数字键标配在一起,一般是直接印 制在相应的按键上,形成“笔画键”。另外从剩下的键中选用 二到五个数字键用于选取与当前输入笔画系列相关联的常用 汉字部件或部首,形成“部首键”。部首键与笔画键必须截然 分开,其在输入汉字基本笔形过程中的功能或作用不能互相替 代。“部首键”用于选择关联部首,不可用于输入汉字笔画; “笔画键”用于输入汉字笔画,不可用于选择关联部首。

b)同时在按书写笔顺输入汉字笔画时,屏幕提示的窗口应包括三 个部分:

关联部首区:显示二到五个与当前输入笔画相关联的部 首。关联部首区所显示的部首与“部首键”一一对应。在关联 部首区的周围可以标签对应“部首键”的数字序号,以方便人 们利用部首数字键选取相对应的汉字部件。

笔画输入区:在一个汉字输入的过程中,用户输入的笔画 或部首所构成的输入系列,均置于笔画输入显示区中。

候选汉字区:相对应当前的笔画部首输入系列所形成的候 选汉字集合的显示窗口;或相对应当前选取汉字的联想汉字集 的显示窗口。候选汉字显示区中的每个汉字显示位置均有相对 应的位置序号,这个序号一般和数字键序号对应起来,以方便 用户使用数字键选取对应的汉字。

c)在汉字进行笔画输入的过程中,与当前输入的笔画部首系列相 对应的汉字部件,将依照在国标汉字编码中出现的概率,进行 分类,并以此作为依据,决定它们在部首显示区是否显示出来。

d)本发明的基本特征还在于汉字编码的合法构成和定义。在输入 一个汉字的过程中,每次合法敲击一次笔画键或部首键,称之 为一码,一个汉字的合法输入编码系列中,可以包括多个部首 码,亦就是说用户在选取了一个关联部首后,可以再次选取汉 字余部的下一级笔画或部首;此外,每个汉字除了具备基本输 入编码系列外,还具有多个冗余的输入编码系列,目的是支持 笔顺容错、笔画笔形容错,以及关联部首输入容错,从而为用 户输入提供冗余的输入路径。对于任一汉字,如果其具有多个 冗余的、或合法的输入编码系列,则其中编码最短的合法输入 编码系列,称之为基本编码。

e)本发明的基本特征还在于部首的划分和定义。一个汉字或一个 部件是否包括本发明中所定义的某个部首,是指用汉字或部件 的起始笔画开始书写的过程中,如果从开始连续写下去,出现 了部首的字样,则说这个汉字或部件包括该部首。这里所说的 部件除了指国标中所定义的部首,还指一个汉字去除部首后的 余部。

2.根据权项1所述的笔画王汉字输入法,其特征在于错过部首冗余 功能:即使用户一笔一划输入汉字,错过或者不选择部首也能输 入自己所要的汉字。输入法同样提供了只选一次部首的冗余,即 对于屏幕提示汉字余部还可再选部首的汉字,即使用户不再选二 次部首也能到所要的汉字。

3.根据权项1所述的笔画王汉字输入法,其特征在于本发明的输入 法系依据《现代汉语常用字表》和一些最新统计资料对6763个汉 字赋予不同的常用度,建立常用度表。所有满足编码的汉字按常 用度排序,常用度越高,排序越靠前,采用笔顺笔型错误冗余进 行编码的汉字排在后面。

4.根据权项1所述的笔画王汉字输入法,其特征在于本发明的输入 法还具有动态关联部首功能:根据所输入的笔画,就能动态关联出 满足笔画的常用部首。输入法能关联数次部首,在关联出第一级部 首后,对于所剩下的汉字余部,还可继续关联出第二级部首和第三 级部首。

5.根据权项1所述的笔画王汉字输入法,其特征在于词组编码功能: 即除了使用数字键定义笔画键和部首键以外,还可以使用一个不 同的数字键定义成词组区隔键。这样,对于任何汉字词组,可以 确定编码规则进行编码:对于二字词组取它的第一个字的前三码+ 词组区隔码+第二个字的前二码;对于二字以上汉字词组,则取它 的第一个字的前二码+词组区隔码+最后一个字的前三码。这两 种编码共可以容纳65536种可能的词组,能进一步加快汉字的输 入速度。

6.根据权项1所述的笔画王汉字输入法,其特征在于还在于精确制 导的联想输入方案。即选定一个汉字后,在<候选汉字区>所联想 显示的是以选定汉字开头的常用词组的后一个字。对于某些联想 词较多的汉字,若所联想汉字没在第一屏候选汉字区中出现,输 入法还可在输入所联想汉字的过程中,逐步提取满足输入笔画系 列的联想词,这样,所联想汉字的排序就越来越靠前,直到在第 一屏出现,用户不用翻屏就能输入联想词,客观上使输入速度进 一步得到了提高。

7.根据权项1所述的笔画王汉字输入法,其特征还在于常用语联想 功能:即对于许多日常生活中的常用语,输入了前一个汉字,就 可以启动常用语的输入过程,即不断地输入常用语的前面几个汉 字,并能顺序联想出构成常用语的后续汉字序列。

8.根据权项1所述的笔画王汉字输入法,其特征还在于汉字编码查 询功能:系统输入的人机界面上可以定义一个点击查询键,通过切 换到其它输入法状态,输入所要查询的汉字,就能显示出该汉字 的基本输入编码系列和冗余编码系列集。

9.根据权项1所述的笔画王汉字输入法,其特征还在于一进入初始 输入状态,关联部首区就能显示几个最常用的汉字部件(也可不 显示),这几个汉字部件不与任何笔画相关联,它的使用能让码长 进一步缩短。侯选汉字区则显示几个最常用的汉字。

说明书
技术领域

一种利用小键盘(包括数字小键盘、虚拟小键盘等)输入国标汉 字集的方法。

本发明所属的技术领域,按国际专利分类属G06F3/023,是一种 对GB2312字符集的6763个汉字进行数字编码,从而实现利用小键盘 输入汉字的方法。在将来的后续版本中我们将对Unicode大字符集中 的两万多个汉字进行数字编码,从而实现利用小键盘输入Unicode大 字符集中的每一个汉字。

目前利用小键盘输入汉字的输入方法很多,但是真正容易记忆、 重码率低的不多,并且这些输入法功能均比较单一。下面举一些目前 市场上和申请的专利中具有代表意义的输入法。市面上王永民发明的 的六键六码输入法和九键六码输入法(http://www.wangma), 虽然重码率低,但是需要将汉字拆分成首部和余部,并且这种拆分在 许多情况下,具有二义性,让用户无所适从;其次,这种输入法思维 的跳跃性非常大,需要将一个汉字按书写的笔画顺序进行离散拆分, 同时用户需要记忆多个字根,这些都将导致用户输入汉字的认知困 难,易学性比较差。另有专利号<96120693.4>提及的胡斌、胡宣华发 明的《笔画输入的键位分布及其屏幕提示》,以及市面上的产品“T9” 输入法(http://www.t9)和“字原”输入法 (http://www.zicorp),它们都容易记忆和使用,但是它的编 码长度较长,有相当汉字的编码长度超过8甚至10,并且重码率高。 另有专利号<99122364.0>提及的罗蒙明发明的《笔画基本码配用部件 简码汉字输入法及其键盘》,采用了32种基本笔画,标满了10个数 字键,界面繁杂,部首末位提示码不固定,给用户带来很大不便,最 大码长在8以上。另有九方(http://www.qcode),汉易 (http://www.lhan)等输入法,它们存在难拆分,难归类,难用, 重码率相当高的缺点,且他们的输入方式不符合人们的书写习惯。

本发明的目地,就是要对非常普及、易学易记的五笔画输入法, 进行改造,一方面,充分保留其容易学习的优势—任何会写汉字的人, 均可以很快学会利用五笔画输入方法,进行输入汉字。另一方面,利 用与汉字书手过程中的前几个笔画相关联的常用汉字部件,替代该汉 字部件中随后书写的汉字笔画,从而达到极大地减少重码率的目的。 所以本发明的汉字输入法,又称为笔画王汉字输入法。

本发明依据汉字的五个基本笔画----一(横、提)、丨(竖、竖左 钩)、丿(撇)、丶(点、捺)、乙(折),和一些最常用的汉字部件, 如:“疒”、“虫”、“石”、“月”,以及国家标准的汉字笔画书写顺序, 对汉字进行数字编码。本发明的输入方法将一、丨、丿、丶、乙五个 笔画与小键盘的五个键(例如数字小键盘的“1”、“2”、“3”、“4”、 “5”)标配在一起,形成“笔画键”。另外小键盘剩下的几个键中的 数个(2到5个不等)专门用于选取与当前输入笔画相关联的常用汉 字部首,构成“部首键”(例如数字小键盘的“6”、“7”、“8”、“9”), 且这些“部首键”可以作为专门的部首键,也可在没有关联部首可选 时可用来选汉字。其余的键则用来做功能键,例如:切换输入法、显 示标点符号,做快捷键,做确认键等。在本发明中,“部首键”与“笔 画键”严格进行区隔:“部首键”用于选择关联部首,不可用于输入 汉字笔画;“笔画键”用于输入汉字笔画,不可用于选择关联部首。 见图9的操作流程图,我们可以清楚的看到“部首键”和“笔画键” 是怎样严格区分的。我们输入法的编码原则是:在利用“笔画键”按 书写顺序输入汉字的过程中,如果出现了相关联的常用汉字部首,则 利用“部首键”直接选取该部件,否则利用“笔画键”输入后续笔画。 本输入法将汉字输入用户界面分成四个区域:笔画输入区、关联部首 区、候选汉字区、汉字编辑区。但用户可根据需要将区域合并,例如 将笔画输入区和汉字编辑区放在一屏,将关联部首区和候选汉字区放 在一屏等。本发明的汉字输入方法,称之为笔画王汉字输入法,它的 特点和五笔画输入法基本上是一致的,不须要记忆和学习,简便快捷, 直观规范,任何会写汉字的人一看就会。本发明的汉字输入方法根据 以上所说的设计思想,针对不同的界面,开发了几种不同的版本,如 图1图2图3所示的版本1,如图4图5所示的版本2,如图6图7 图8所示的版本3。在版本1中一屏显示七个汉字,候选汉字区独占 一屏,用三个“部首键”来选取关联部首,使用该输入方法所有汉字 最多只需要输入前五码就能在候选汉字显示区内出现,无需翻页,大 大提高了输入速度,并且有2500多个常用汉字基本上在前三笔就能 出现,国家3755个一级汉字98%都能在前四笔出现。其中前三笔的 出字率为38%,前四笔的出字率为77%,前五笔的出字率为100%。如 果一屏显示显示八个以上汉字,候选汉字区独占一屏,用三个部首键 来选取关联部首,则绝大多数汉字只需前四码,即可显示所需输入的 汉字。在版本2中一屏显示七个汉字,候选汉字区和部首区共用一屏, 在汉字输入前三码时用三个部首键来选取关联部首,候选汉字区显示 4个汉字,在输入剩下的码时,部首区自行消失,候选汉字区显示5 个汉字,在这种情况下输入汉字的最大码长为6,但98%的汉字都只 需输入前五码。在版本3中一屏显示七个汉字,候选汉字区独占一屏, 用四个“部首键”来选取关联部首,使用该输入方法所有汉字最多只 需要输入前五码就能在候选汉字显示区内出现,无需翻页,其中前三 笔的出字率为45%,前四笔的出字率为85%,前五笔的出字率为100%。

另外我们发明的输入法的所有版本功能非常丰富,给用户提供了 方便,极大的满足了用户的需求。我们对所提供的功能做简单介绍如 下:

1.词组联想功能:例如:键入“我”,就能联想出“们国方军院 厂处局校”,总共能联想出将近2万词条,

2.精确定词功能:对于某些联想词较多的汉字,若所联想汉字 没在第一屏候选汉字区中出现,输入法还可在输入所联想汉字的过程 中,逐步提取满足输入笔画的联想词,这样,所联想汉字的排序就越 来越靠前,直到在第一屏出现,用户不用翻屏就能输入联想词。

3.容错功能:该输入法还提供了丰富的笔顺容错和笔画笔形容 错,以及关联部首输入容错,给用户带来极大的方便。我们提供了 50来个常用部首的冗余,例如,我们既可通过输入“一丶”正确关 联到“雨”部首(雨字头),亦可通过输入“一丨乙”冗余关联到“雨” 部首(雨字头)。我们还提供了2000多个常用汉字的冗余,例如,我 们既可通过输入“乙丿丶丶”正确输入“办”字,亦可通过输入“丿 乙丶丶”冗余输入“办”字,还可通过输入“乙丿丿丶”冗余输入“办” 字。

4.字频调整功能:根据不同用户的汉字输入情况,将经常用的 汉字靠前排列。

5.汉字编码查询功能:点击查询键(例如“#”),通过切换到其 它输入法状态(如拼音输入法)输入所要查询的汉字,就能显示出该汉 字的正确编码和冗余编码。

6.错过部首冗余功能:即使用户一笔一划输入汉字,错过或者 不选择部首也能输入自己所要的汉字。输入法同样提供了只选一次部 首的冗余,即对于屏幕提示汉字余部还可再选部首的汉字,即使用户 不再选二次部首也能到所要的汉字。例如输入“蛇”,用户可以先 选取部件“口”、然后选取部件“虫”,最后输入后续笔画,直到“蛇” 字出现。亦可以先选取部件“口”,然后输入后续笔画,直到“蛇” 字出现。

7.常用语联想功能:即对于许多日常生活中的常用语,输入了 前一个汉字,就可以启动常用语的输入过程,即不断地输入常用语的 前面几个汉字,并能顺序联想出构成常用语的后续汉字序列。例如: 祝新年快乐,祝万事如意等。我们提供了400多条这样的常用语。

8.动态关联部首功能:根据所输入的笔画,就能动态关联出满足 笔画的常用部首。输入法能关联数次部首,在关联出第一级部首后, 对于所剩下的汉字余部,还可继续关联出第二级部首和第三级部首。 例如:当用户输入“摸”时,首先选择第一级部首“扌”,这时“部首 区”会关联出第二级部首“艹”、“口”、“宀”,再选择第二级部首“艹”, 这时侯选汉字区就会出现“摸描搭捞”等汉字。

9.汉字排序功能:输入法依据《现代汉语常用字表》和最新统 计资料对6763个汉字赋予不同的常用度,建立常用度表。所有满足 编码的汉字按常用度排序,常用度越高,排序越靠前,采用笔顺笔型 错误冗余进行编码的汉字排在后面。

10.词组编码功能:定义一个词组区间数字键:例如数字“0” 键,既非部首键,亦非笔画键。这样,对于任何汉字词组,可以确定 编码规则进行编码。

11.选字多样性功能:在输入过程中,当所要汉字已经出现在候 选汉字区时,我们可以通过长按对应“数字键”选取汉字,也可通过 点击“确认键”+对应“数字键”选取汉字,还可通过双击对应“数 字键”来选取汉字。

以上所说的这些丰富的功能给用户提供了多种选择,带来了极大 的方便。同样是输入一个汉字,我们可以通过多种途径输入汉字: 一笔一画输入汉字,选择一级部首输入汉字,选择两级部首输入汉字 (针对有两级部首的汉字),选择三级部首输入汉字(针对有三级部 首的汉字),选择联想词组输入汉字,错误书写习惯输入汉字(针对 常见笔顺笔型错误冗余的汉字)。

该输入方法可以广泛的应用于计算机、手机、PDA、电子词典、 智能电话、机顶盒、遥控器、密码输入器、股票机、卡拉OK点播机 以及配置有可视屏幕并用小键盘输入汉字的其它智能型电子信息产 品。本发明指的小键盘是指任何有8个以上按键或按钮的信息输入装 置,包括虚拟信息输入装置(例如PC机上结合鼠标生成鼠标点击输入 装置,PDA上结合touch panel触摸屏生成的触摸输入装置)。对于 有Touch Panel的地方,可以不要专门的“部首键”,直接触摸关联 部首区所显示的关联部首进行选取。

本发明的小键盘标配技术,可形成多种标配方案。“笔画键”和 “部首键”可与输入装置上的按钮作任意的标配组合。关联部首区所 显示的部首个数和侯选汉字区所显示的侯选汉字的个数是可根据不 同的需求,可任意更改。关联部首区可显示的部首个数,与“部首键” 的个数相同。每个“部首键”与关联部首区的关联部首,是一一对应 的关系。

本发明的技术要点之一,在于将小键盘中的五个键与五种基本笔 画“横”、“竖”、“撇”、“捺”、“折”联系在一起,形成笔画键。这五 种笔画的规定与五笔画输入法中对笔画的规定相一致。根据国家标 准,其中笔画“横”与“提”视为同一种笔画;“捺”与“点”视为 同种笔画;“竖”与“竖钩”视为同种笔画。

本发明的技术要点之二,在于将汉字进行手写的过程中,首先写 出的部件,如:汉字“腊”的首部件“月”,以及汉字“度”的首部 件“广”,依照在国标汉字中出现的概率,进行分类,并以此作为依 据,和汉字的首笔画相关联。如在版本1中当用户输入笔画“一”的 时候,出现与此笔画关联的三个部首:“扌”、“木”、“土”。而当用户 紧接着输入笔画“丨”的时候,又出现与“一”、“丨”相关联的三个 部首:“耳”、“酉”、“束”。亦就是说,三个部首:“扌”、“木”、“土” 在汉字中出现的频率相比较部首:“耳”、“酉”、“束”更高。

本发明的技术要点之三,在于将汉字输入用户界面分成四个区 域:笔画输入区、关联部首区、候选汉字区、汉字编辑区。见摘要附 图。其中笔画输入区可以输入五个笔画:“横”、“竖”、“撇”、“捺”、 “折”,或者说:分别敲击笔画键进行输入相应的笔画。关联部首区 在输入前几笔的时候,将出现相关联的常用汉字部首。这些汉字部首 可以通过部首键进行选取。在本发明中,一进入初始输入状态,关联 部首区就能显示几个最常用的汉字部件(也可不显示),如图2图7 所示,这几个汉字部件不与任何笔画相关联,它的使用能让码长进一 步缩短。侯选汉字区则显示几个最常用的汉字,如图2图7所示。

本发明的技术要点之四,在于汉字编码的构成和定义。在输入任 一汉字的过程中,如果遵循国家文字委员会所规定的本汉字书写标准 笔顺,合法地敲击相应的笔画键,或根据当前的部首显示区敲击相应 的部首键,称之为一码,因此合法编码主要包括笔画码和部首码。在 本发明中,用户可以连续输入多次部首码,亦就是说用户在选取了一 个关联部首后,可以再次输入与汉字余部相关联的下一级部首。例如: 当用户输入“一”对应的笔画码的时候,出现关联的部首:“扌”、“木”、 “土”,如用户可以输入部首“扌”对应的部首码作为第二码,部首 “扌”又进一步关联第二级部首“艹”、“口”、“宀”,如用户可以输 入部首“艹”对应的部首码作为第三码,这时侯选汉字区就会出现“摸 描搭捞”等汉字。

本发明的技术要点之五,在于部首的划分和定义。一个汉字或一 个部件是否包括本发明中所定义的某个部首,是指用汉字或部件的起 始笔画开始书写的过程中,如果从开始连续写下去,出现了部首的字 样,则说这个汉字或部件包括该部首。这里所说的部件除了指国标中 所定义的部首,还指一个汉字去除部首后的余部。例:汉字“液”出 现部首“氵”;“打”出现部首“扌”;“革”、“其”、“世”三字均出现 部首“艹”。在本发明中,对于有歧义的部首,提供了部首容错,例 如“革”,既可以在输入“一艹”时关联到“革”,也可以在输入“一 丨”时关联到“革”。

本发明的技术要点之六,在于词组的编码定义。首先定义一个词 组区间数字键:例如数字“0”键,可以定义它既非部首键,亦非笔 画键,而是作为任一词组中汉字与汉字编码之间进行分隔的数字键。 这样,对于任何汉字词组,可以确定编码规则进行编码。例如对于二 字词组取它的第一个字的前三码+词组区间数字键+第二个字的前二 码;对于二字以上汉字词组,则取它的第一个字的前二码+词组区间 数字键+最后一个字的前三码。这两种编码共可以容纳65536种可 能的词组,能进一步加快汉字的输入速度。

本发明的技术要点之七,还在于联想输入方案。即选定一个汉字 后,在<候选汉字区>显示的是以选定汉字开头的常用词组的后一个 字。例如:当用户利用笔画王输入“国”字后,这时联想汉字显示区 将出现:“产家民情庆事外”等联想汉字,对于某些联想词较多的汉 字,该输入法还可通过联想汉字的前几笔,精确定位联想词,使输入 速度进一步得到了提高,以供用户方便、快速的选择。

本发明的技术要点之八,还在于强大容错输入功能的汉字输入编 码系列集。对于国标GB2312汉字输入编码系列集,每个汉字的基本 输入编码均合并部首编码、并遵循汉字书写标准笔顺,及编码系列长 度最短的原则进行规划,这种基本编码系列对每个汉字是唯一的、输 入效率最高的输入编码系列。同时对于用户根据平常手写习惯利用笔 画部首输入汉字的过程中,不遵循基本输入编码系列的现象,主要有 以下几种情形:

a)书写笔顺先后次序不对,如:“划”字的正确书写顺序应该为:

一乙丿丶丨丨,然而用户的书写次序却可能为:一乙丶丿丨丨。

b)书写笔画容易认知有误,如:“雷”字的正确书写笔画序列为:

一丶丨…,然而其中的第二笔画丶,却容易书写成为丨。

c)以及输入汉字编码过程中,应该选取的汉字部件容易被忽略,

如:“电”的正确编码应该是:丨日乙,但用户容易输入为:

  丨乙一一乙;并且这种现象对于具有多重关联部首编码的汉字

  输入更是比较突出。

因此本发明的笔画王输入法,相应地根据需要对每个汉字增加了 大量的冗余编码系列,从而使得用户即使根据不良的书写汉字习惯, 进行输入汉字亦不会出错,极大地节省了用户输入汉字的时间,并舒 缓了用户对于使用单一笔画编码输入汉字时总是不对的困惑。

此外,笔画王输入法在用户输入汉字的过程中,如果发现用户输 入某个汉字时使用了非基本编码,一旦这个汉字通过候选汉字区中得 到选取后,将提醒用户使用正确的码长最短的基本编码系列。

笔画王汉字输入法中的关联部首的确定,其设计思想主要依据汉 字常用部首的分布频率,另外兼顾降低重码率,缩短码长的原则。

在版本1中,设计的一级部首、二级部首和三级部首的码表如下:

一级部首:

二级部首:

三级部首:

在版本2中,设计的一级部首、二级部首、三级部首的码表和冗 余部首编码转换表如下:

一级部首:

二级部首:

三级部首:

版本2冗余部首编码转换表:
  冗余部首  转换前  转换后    冗余部首  转换前  转换后  冗余部首  转换前  转换后
  非        1117    2117      髟        2118    1219    当        429     247
  毛        1118    3119      忄        229     48      穴        448     497
  韦        1128    1157      忄        248     48      塞        449     498
  走        1217    1277      门        249     427     登        4537    5437
  者        1218    1279      是        2518    277     登        4547    5437
  雨        1259    147       月        2519    38      比        5137    1537
  龙        1337    1357      黑        2528    2547    比        5157    1537
  龙        1347    1357      虫        2927    257     山        528     28
  艹        148     19        足        2928    258     犭        538     357
  车        1517    157       片        3129    3218    甬        5438    5428
  车        1528    157       火        3439    437     登        5447    5437
  扌        158     17        女        349     57      鸟        5457    3547
  女        159     57        角        3528    3537    艮        5517    5117
  革        1917    128       方        4137    4158    孑        558     527
  其        1918    1228      宀        428     49      阝        559     59

在版本3中,设计的一级部首、二级部首、三级部首、四级部首
的码表和冗余部首编码转换表如下:
版本3冗余部首编码转换表:
冗余部首  转换前  转换后    冗余部首  转换前  转换后    冗余部首  转换前  转换后
非        1117    2116      髟        2117    128       方        4136    417
毛        1118    3117      忄        228     46        宀        427     47
韦        1126    1156      门        248     426       尝        428     246
走        1217    186       忄        249     46        敝        429     247
赤        1218    187       是        2517    266       穴        447     476
者        1219    188       月        2518    38        塞        448     477
其        1228    87        黑        2527    2546      宓        449     478
莫        1229    88        虫        258     76        登        459     5436
雨        1259    146       足        259     77        比        519     1536
革        129     86        阝        29      58        山        527     27
龙        1336    1356      片        3128    3217      犭        537     356
龙        1346    1356      每        3129    3156      甬        5437    5427
艹        147     8         火        3438    436       登        5446    5436
车        1516    156       分        3439    3456      鸟        5456    3546
革        1526    86        钅        348     37        艮        5516    518
车        1527    156       女        349     56        孑        558     526
女        158     56        角        3527    359       阝        559     58
扌        159     16
一级部首:

二级部首:

三级部首:

四级部首:

下面我们以版本3为例,介绍一下输入法的数据结构和数据文 件,在版本3中共有15个数据文件,分别如下,其中每个数据文件 都代表了输入法的一个功能,用户可根据自己的需求,选择其中的一 部分:

1.常用汉字索引表.dat:(输入前三码时,检索此表显示常用汉字) 大小:(9+9*9+9*9*9)*3=819*3=2457byte 每项3个字节,共819项,前两个字节存每项在”常用汉字表.dat” 中的汉字个数偏移量(实际偏移量须乘2),第三个字节的前三位存刚 好满足编码的汉字个数(个数为零表示没有满足编码的汉字),后五位 存每项的汉字总数(个数为零表示没有满足编码的汉字)。 项数索引:(x1:第一码;x2:第二码;x3:第三码;) f(x1)=(9*9+9+1)*(x1-1) f(x1x2)=(9*9+9+1)*(x1-1)+(x2-1)*10+1 f(x1x2x3)=(9*9+9+1)*(x1-1)+(x2-1)*10+1+x3

2.常用汉字表.dat: 大小:14144byte 依次按编码顺序存储汉字。

3.三码索引四码表.dat:(输入四码或四码以上时,检索此表索引前 三码“四码索引多码表.dat”中的起始偏移量) 共9*9*9=729项,每项2个字节。 大小:729*2=1,458byte 这两字节存“四码索引多码表.dat”中满足输入前三码的四码的起始 偏移量。 项数索引:(x1:第一码;x2:第二码;x3:第三码;) f(x1x2x3)=9*9*(x1-1)+(x2-1)*9+(x3-1) 注:起始偏移量=1时表示没有满足该三码的项。先在“三码索引四 码表.dat”中定位满足该三码的项,得到该三码和下一个三码在“四 码索引多码表.dat”中的两个起始偏移量,然后在“四码索引多码 表.dat”的这两个起始偏移量中的数据中查尾码(第四码)定位满 足前四码的项,并得到该四码和下一四码在“多码表(四码以上).dat” 中的两个起始偏移量,接下来在“多码表(四码以上).dat”的这两 个起始偏移量中的数据中查满足尾码的项和汉字。

4.四码索引多码表.dat:(检索此表索引前四码“多码表(四码以 上).dat”中的起始偏移量) 共1587项,每项三个字节。 大小:1587*3=4761byte 每项第一字节存尾码(第四码),后两个字节存本四码在“多码表(四 码以上).dat”中的起始偏移量。

5.多码表(四码以上).dat: 大小:50659byte. 共12509项,每项不规则。

每项中前些字节存尾码(每两个尾码占一个字节,尾码为奇数个 时加零补其为偶数),后面存汉字。   注:高位为1表示存的是汉字,高位为0表示存的是尾码。

6.部首编码索引表.dat:(输入前三码时,检索此表在部首区显示 关联部首,在笔划区显示所选部首) 共9*9*9+9*9+9=819项,大小:819byte 每项1个字节,存储每项在“部首表.dat”中的偏移量。 两项偏移量之差为该项关联部首的个数。 项数索引:(x1:第一码;x2:第二码;x3:第三码;) f(x1)=(9*9+9+1)*(x1-1) f(x1x2)=(9*9+9+1)*(x1-1)+(x2-1)*10+1 f(x1x2x3)=(9*9+9+1)*(x1-1)+(x2-1)*10+1+x3

7.部首编码表.dat: 共93项,每项的部首个数不同,大小:246byte 依次存储部首的代码。 有些部首不在6763个汉字中,需另造点阵。

8.冗余部首转换索引表.dat:(在选取部首时,输入2到4码时, 检索此表转换冗余部首) 共81项,大小:81byte。 每项1个字节,这个字节存每项在“冗余部首转换表.dat”中的起始 偏移量。 项数索引:(x1:第一码;x2:第二码;) f(x1x2)=(x1-1)*9+x2-1 注:由前两位定位在“冗余部首转换索引表.dat”中的项数,得到 该项和下一项在“冗余部首转换表.dat”中的起始偏移量。两个起始 偏移量之差除以3即得到模糊匹配项数。

9.冗余部首转换表.dat: 共52项,大小:52*3=156byte。 每项3个字节,第一字节存转换前的余码(去掉前两码,按整型存), 第三四字节存转换后的编码(按整型存)。

10.汉字常用度.dat(常用度越高的汉字检索时排在越前) 共6768项,存储了6768个汉字的常用度。每个码占用1个字节 大小:6768byte 设汉字的高位为x1,底位为x2。(如“啊”为:x1=0xb0,x2=0xa1) 则每个汉字在“汉字常用度.dat”中对应的项数为: address=(x1-0xb0)*94+(x2-0xa1)

11.汉字第一码表.dat:(汉字联想词太多时,通过此表检索满足第 一码的联想词) 共6768项,存储了6768个汉字的第一码。每个汉字占用1个字节 大小:6768byte 设汉字的高位为x1,底位为x2。(如“啊”为:x1=0xb0,x2=0xa1) 则每个汉字在“汉字第一码.dat”中对应的项数为: address=(x1-0xb0)*94+(x2-0xa1) 注:若汉字有两种编码(且第一码不同),则保存两个第一码(汉字 联想词中只要满足其中任何一个第一码,就显示),以整形存。只有 一个第一码,后面以零补齐。

12.词组索引表.dat:(选取汉字时,检索此表显示联想词) 共6768项,大小:6768*2=13,536byte。 每项2个字节,这2个字节中存储了每个汉字的联想词在“词组码 表.dat”中的偏移量。 汉字在“词组索引表.dat”中所对应的位置: 设汉字的高位为x1,底位为x2。(如“啊”为:x1=0xb0,x2=0xa1) 则每个汉字在“词组索引表.dat”中对应的项数为: address=(x1-0xb0)*94+(x2-0xa1)

13.词组码表.dat 按顺序存储6768个汉字的联想词。

14.冗余编码索引表.dat 共81项,大小:81*2=162byte。 每项2个字节,这个字节存每项在“冗余编码表.dat”中的起始偏移 量。 项数索引:(x1:第一码;x2:第二码;) f(x1x2)=(x1-1)*9+x2-1 注:由前两位定位在“冗余编码索引表.dat”中的项数,得到该项和 下一项在“冗余编码表.dat”中的起始偏移量。接下来在“冗余编码 表.dat”的这两个起始偏移量中的数据中查满足尾码的项和汉字。

15.冗余编码表.dat:(将满足冗余编码的冗余汉字统一加在满足正 确编码的正确汉字的后面) 大小:5546byte. 共1275项,每项不规则。

每项中前些字节存尾码(每两个尾码占一个字节,尾码为奇数个 时加零补其为偶数),后面存汉字。

注:高位为1表示存的是汉字,高位为0表示存的是尾码。

本发明的优点主要体现在:

1、容易记忆,容易学习。

主要因为智能五笔画不须要记忆,只要对出现的关联部首及时地 予以选取即可。因此任何会写汉字的人,包括老年人,均可以很快地 使用笔画王汉字输入法。

2、重码率低。

智能五笔输入法重码率是十分低的,任何国标汉字,均会在首屏 候选汉字区中出现,不须要用户切屏,从而可以大大提高用户的输入 速度。目前利用小键盘进行汉字输入的方法,有许多种实际可行的方 案,但均存在着这样的特点:好用的重码率高,或编码长度过长,或 编码十分繁杂;重码率低的输入方案又难记难用。本发明的上述两个 优点,正是本发明有异于其它输入法的独特之处。

3、功能非常丰富。

目前的输入法功能都很单一,而我们的输入法提供了11种可供 选择的功能:词组联想功能;精确定词功能;容错功能;字频调整功 能;汉字编码查询功能;错过部首冗余功能;常用语联想功能;动态 关联部首功能;汉字排序功能;词组编码功能;选字多样性功能。

4、检索效率高,以及存储空间代价小。

由于笔画王输入法的基本数字开销是30K左右,对于嵌入式系 统,只须存放在MASKROM中,因此,基本上不须占用系统的重要资源, 并且检索效率高,查定位每个编码所有的候选汉字集合,只需要很 少的计算就可完成。随着用户对功能需求的增多,数字开销会相应的 增大,用户可根据系统的基本配置选择功能。

附图说明: 图1:版本1的界面区域划分 图2:版本1的初始界面 图3:版本1的输入过程界面 图4:版本2的界面区域划分 图5:版本2的输入过程界面 图6:版本3的界面区域划分 图7:版本3的初始界面 图8:版本3的输入过程界面 图9:输入单字的操作流程图

实施例一在版本3中输入汉字“满”,共有以下三种输入方式。 1.一笔一画输入。

2.只选一级部首。

3.选一级和二级部首。

1,2,3,4,5键。

(3)关联部首区:

(4)笔画输入区:

(5)候选汉字区:

上述五个显示区域,可以根据实际的屏幕大小,以及用户输 入的方便性、人机输入界面的美观度,进行不同的调整。

笔画王汉字输入法在嵌入式的智能小键盘终端中,如:智能数字 电话、智能手机,掌上电脑、智能寻呼等领域,具有极其广泛的应用 前景。主要表现在:

1.由于利用手机处理中文业务,将越来越多,因此拥有手机的 用户希望利用手机输入中文,用于处于名片、短消息,甚至用于WAP 手机,进行移动电子商务交易。

2.由于未来的智能电话编辑、存储、查行事历、名片、短消息 等中文业务,甚至于发e-Mail,上网,将愈来愈成为一种时尚。因 此客观上未来的智能电话存在着大量的中文信息处理业务。

3.其它如掌上电脑、智能寻呼机,电子词典等利用数字键输入中 文,将造成成本低、体积轻便小巧,因而有助于掌上电脑的推广和普 及。

实施例1-笔画王汉字输入法在智能手机或智能电话中的应用。

一般而言,手机和智能电话不仅有十个数字英文键外,还有两个 特殊的符号键,即符号键<*>和符号键<#>。用户为了输入汉字、大小 写英文字母或者数字、特殊符号等图形符号,可以利用符号键<*>进 行[中文/英文/数字/符号]四种输入状态的切换;同时利用符号键<#>, 进行各种输入法的切换,例如在中文输入状态下,可以使用它切换到 笔画王输入或拼音输入状态,这时,如果用户选取笔画王输入法,就 可以利用数字键,方便、快捷地输入汉字。

实施例2-笔画王汉字智能输入法在PC机中的应用。

由于PC均配有数字小键盘,可以将数字键<6><7><8><9>与 部首键标配在一起,用于选取输入过程中关联的汉字部首。将数字键 <1><2><3><4><5>与五个基本笔画标配在一起,用于输入汉字 笔画。最后将数字键<0>与词组区间键标配在一起。其它的确定键、 取消键由于PC键盘上的功能键均已包含,则无需另加说明。当然亦 可以不通过确定键,而使用大键盘上的十个数符键,来完成候选汉字 的选取。这样的话,可以实施双手同步进行输入。右手完成笔画和部 首或词组区间的输入,左手用于完成候选汉字的选取。从而加快利用 PC机的小数字键盘实现快速输入汉字的目的。

本文发布于:2024-09-24 18:19:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/85464.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议