G06F3/023(2006.01)
1.一类结合数字小键盘(或类似于数字小键盘的信息输入装置和虚 拟小键盘)的、基于笔画和汉字基本部件的汉字优化输入法,以 下简称为笔画王汉字输入法。信息输入的基本单元是汉字的五个 基本笔画----一(横、提)、丨(竖、竖钩)、丿(撇)、丶(点、 捺)、乙(折),和一些最常用的汉字部件,如:“疒”、“虫”、 “石”、“月”等。本发明的基本特征是:
a)在具有数字小键盘的各种信息产品输入装置上,将一、丨、丿、 丶、乙 共五个笔划与五个数字键标配在一起,一般是直接印 制在相应的按键上,形成“笔画键”。另外从剩下的键中选用 二到五个数字键用于选取与当前输入笔画系列相关联的常用 汉字部件或部首,形成“部首键”。部首键与笔画键必须截然 分开,其在输入汉字基本笔形过程中的功能或作用不能互相替 代。“部首键”用于选择关联部首,不可用于输入汉字笔画; “笔画键”用于输入汉字笔画,不可用于选择关联部首。
b)同时在按书写笔顺输入汉字笔画时,屏幕提示的窗口应包括三 个部分:
关联部首区:显示二到五个与当前输入笔画相关联的部 首。关联部首区所显示的部首与“部首键”一一对应。在关联 部首区的周围可以标签对应“部首键”的数字序号,以方便人 们利用部首数字键选取相对应的汉字部件。
笔画输入区:在一个汉字输入的过程中,用户输入的笔画 或部首所构成的输入系列,均置于笔画输入显示区中。
候选汉字区:相对应当前的笔画部首输入系列所形成的候 选汉字集合的显示窗口;或相对应当前选取汉字的联想汉字集 的显示窗口。候选汉字显示区中的每个汉字显示位置均有相对 应的位置序号,这个序号一般和数字键序号对应起来,以方便 用户使用数字键选取对应的汉字。
c)在汉字进行笔画输入的过程中,与当前输入的笔画部首系列相 对应的汉字部件,将依照在国标汉字编码中出现的概率,进行 分类,并以此作为依据,决定它们在部首显示区是否显示出来。
d)本发明的基本特征还在于汉字编码的合法构成和定义。在输入 一个汉字的过程中,每次合法敲击一次笔画键或部首键,称之 为一码,一个汉字的合法输入编码系列中,可以包括多个部首 码,亦就是说用户在选取了一个关联部首后,可以再次选取汉 字余部的下一级笔画或部首;此外,每个汉字除了具备基本输 入编码系列外,还具有多个冗余的输入编码系列,目的是支持 笔顺容错、笔画笔形容错,以及关联部首输入容错,从而为用 户输入提供冗余的输入路径。对于任一汉字,如果其具有多个 冗余的、或合法的输入编码系列,则其中编码最短的合法输入 编码系列,称之为基本编码。
e)本发明的基本特征还在于部首的划分和定义。一个汉字或一个 部件是否包括本发明中所定义的某个部首,是指用汉字或部件 的起始笔画开始书写的过程中,如果从开始连续写下去,出现 了部首的字样,则说这个汉字或部件包括该部首。这里所说的 部件除了指国标中所定义的部首,还指一个汉字去除部首后的 余部。
2.根据权项1所述的笔画王汉字输入法,其特征在于错过部首冗余 功能:即使用户一笔一划输入汉字,错过或者不选择部首也能输 入自己所要的汉字。输入法同样提供了只选一次部首的冗余,即 对于屏幕提示汉字余部还可再选部首的汉字,即使用户不再选二 次部首也能到所要的汉字。
3.根据权项1所述的笔画王汉字输入法,其特征在于本发明的输入 法系依据《现代汉语常用字表》和一些最新统计资料对6763个汉 字赋予不同的常用度,建立常用度表。所有满足编码的汉字按常 用度排序,常用度越高,排序越靠前,采用笔顺笔型错误冗余进 行编码的汉字排在后面。
4.根据权项1所述的笔画王汉字输入法,其特征在于本发明的输入 法还具有动态关联部首功能:根据所输入的笔画,就能动态关联出 满足笔画的常用部首。输入法能关联数次部首,在关联出第一级部 首后,对于所剩下的汉字余部,还可继续关联出第二级部首和第三 级部首。
5.根据权项1所述的笔画王汉字输入法,其特征在于词组编码功能: 即除了使用数字键定义笔画键和部首键以外,还可以使用一个不 同的数字键定义成词组区隔键。这样,对于任何汉字词组,可以 确定编码规则进行编码:对于二字词组取它的第一个字的前三码+ 词组区隔码+第二个字的前二码;对于二字以上汉字词组,则取它 的第一个字的前二码+词组区隔码+最后一个字的前三码。这两 种编码共可以容纳65536种可能的词组,能进一步加快汉字的输 入速度。
6.根据权项1所述的笔画王汉字输入法,其特征在于还在于精确制 导的联想输入方案。即选定一个汉字后,在<候选汉字区>所联想 显示的是以选定汉字开头的常用词组的后一个字。对于某些联想 词较多的汉字,若所联想汉字没在第一屏候选汉字区中出现,输 入法还可在输入所联想汉字的过程中,逐步提取满足输入笔画系 列的联想词,这样,所联想汉字的排序就越来越靠前,直到在第 一屏出现,用户不用翻屏就能输入联想词,客观上使输入速度进 一步得到了提高。
7.根据权项1所述的笔画王汉字输入法,其特征还在于常用语联想 功能:即对于许多日常生活中的常用语,输入了前一个汉字,就 可以启动常用语的输入过程,即不断地输入常用语的前面几个汉 字,并能顺序联想出构成常用语的后续汉字序列。
8.根据权项1所述的笔画王汉字输入法,其特征还在于汉字编码查 询功能:系统输入的人机界面上可以定义一个点击查询键,通过切 换到其它输入法状态,输入所要查询的汉字,就能显示出该汉字 的基本输入编码系列和冗余编码系列集。
9.根据权项1所述的笔画王汉字输入法,其特征还在于一进入初始 输入状态,关联部首区就能显示几个最常用的汉字部件(也可不 显示),这几个汉字部件不与任何笔画相关联,它的使用能让码长 进一步缩短。侯选汉字区则显示几个最常用的汉字。
一种利用小键盘(包括数字小键盘、虚拟小键盘等)输入国标汉 字集的方法。
本发明所属的技术领域,按国际专利分类属G06F3/023,是一种 对GB2312字符集的6763个汉字进行数字编码,从而实现利用小键盘 输入汉字的方法。在将来的后续版本中我们将对Unicode大字符集中 的两万多个汉字进行数字编码,从而实现利用小键盘输入Unicode大 字符集中的每一个汉字。
目前利用小键盘输入汉字的输入方法很多,但是真正容易记忆、 重码率低的不多,并且这些输入法功能均比较单一。下面举一些目前 市场上和申请的专利中具有代表意义的输入法。市面上王永民发明的 的六键六码输入法和九键六码输入法(http://www.wangma), 虽然重码率低,但是需要将汉字拆分成首部和余部,并且这种拆分在 许多情况下,具有二义性,让用户无所适从;其次,这种输入法思维 的跳跃性非常大,需要将一个汉字按书写的笔画顺序进行离散拆分, 同时用户需要记忆多个字根,这些都将导致用户输入汉字的认知困 难,易学性比较差。另有专利号<96120693.4>提及的胡斌、胡宣华发 明的《笔画输入的键位分布及其屏幕提示》,以及市面上的产品“T9” 输入法(http://www.t9)和“字原”输入法 (http://www.zicorp),它们都容易记忆和使用,但是它的编 码长度较长,有相当汉字的编码长度超过8甚至10,并且重码率高。 另有专利号<99122364.0>提及的罗蒙明发明的《笔画基本码配用部件 简码汉字输入法及其键盘》,采用了32种基本笔画,标满了10个数 字键,界面繁杂,部首末位提示码不固定,给用户带来很大不便,最 大码长在8以上。另有九方(http://www.qcode),汉易 (http://www.lhan)等输入法,它们存在难拆分,难归类,难用, 重码率相当高的缺点,且他们的输入方式不符合人们的书写习惯。
本发明的目地,就是要对非常普及、易学易记的五笔画输入法, 进行改造,一方面,充分保留其容易学习的优势—任何会写汉字的人, 均可以很快学会利用五笔画输入方法,进行输入汉字。另一方面,利 用与汉字书手过程中的前几个笔画相关联的常用汉字部件,替代该汉 字部件中随后书写的汉字笔画,从而达到极大地减少重码率的目的。 所以本发明的汉字输入法,又称为笔画王汉字输入法。
本发明依据汉字的五个基本笔画----一(横、提)、丨(竖、竖左 钩)、丿(撇)、丶(点、捺)、乙(折),和一些最常用的汉字部件, 如:“疒”、“虫”、“石”、“月”,以及国家标准的汉字笔画书写顺序, 对汉字进行数字编码。本发明的输入方法将一、丨、丿、丶、乙五个 笔画与小键盘的五个键(例如数字小键盘的“1”、“2”、“3”、“4”、 “5”)标配在一起,形成“笔画键”。另外小键盘剩下的几个键中的 数个(2到5个不等)专门用于选取与当前输入笔画相关联的常用汉 字部首,构成“部首键”(例如数字小键盘的“6”、“7”、“8”、“9”), 且这些“部首键”可以作为专门的部首键,也可在没有关联部首可选 时可用来选汉字。其余的键则用来做功能键,例如:切换输入法、显 示标点符号,做快捷键,做确认键等。在本发明中,“部首键”与“笔 画键”严格进行区隔:“部首键”用于选择关联部首,不可用于输入 汉字笔画;“笔画键”用于输入汉字笔画,不可用于选择关联部首。 见图9的操作流程图,我们可以清楚的看到“部首键”和“笔画键” 是怎样严格区分的。我们输入法的编码原则是:在利用“笔画键”按 书写顺序输入汉字的过程中,如果出现了相关联的常用汉字部首,则 利用“部首键”直接选取该部件,否则利用“笔画键”输入后续笔画。 本输入法将汉字输入用户界面分成四个区域:笔画输入区、关联部首 区、候选汉字区、汉字编辑区。但用户可根据需要将区域合并,例如 将笔画输入区和汉字编辑区放在一屏,将关联部首区和候选汉字区放 在一屏等。本发明的汉字输入方法,称之为笔画王汉字输入法,它的 特点和五笔画输入法基本上是一致的,不须要记忆和学习,简便快捷, 直观规范,任何会写汉字的人一看就会。本发明的汉字输入方法根据 以上所说的设计思想,针对不同的界面,开发了几种不同的版本,如 图1图2图3所示的版本1,如图4图5所示的版本2,如图6图7 图8所示的版本3。在版本1中一屏显示七个汉字,候选汉字区独占 一屏,用三个“部首键”来选取关联部首,使用该输入方法所有汉字 最多只需要输入前五码就能在候选汉字显示区内出现,无需翻页,大 大提高了输入速度,并且有2500多个常用汉字基本上在前三笔就能 出现,国家3755个一级汉字98%都能在前四笔出现。其中前三笔的 出字率为38%,前四笔的出字率为77%,前五笔的出字率为100%。如 果一屏显示显示八个以上汉字,候选汉字区独占一屏,用三个部首键 来选取关联部首,则绝大多数汉字只需前四码,即可显示所需输入的 汉字。在版本2中一屏显示七个汉字,候选汉字区和部首区共用一屏, 在汉字输入前三码时用三个部首键来选取关联部首,候选汉字区显示 4个汉字,在输入剩下的码时,部首区自行消失,候选汉字区显示5 个汉字,在这种情况下输入汉字的最大码长为6,但98%的汉字都只 需输入前五码。在版本3中一屏显示七个汉字,候选汉字区独占一屏, 用四个“部首键”来选取关联部首,使用该输入方法所有汉字最多只 需要输入前五码就能在候选汉字显示区内出现,无需翻页,其中前三 笔的出字率为45%,前四笔的出字率为85%,前五笔的出字率为100%。
另外我们发明的输入法的所有版本功能非常丰富,给用户提供了 方便,极大的满足了用户的需求。我们对所提供的功能做简单介绍如 下:
1.词组联想功能:例如:键入“我”,就能联想出“们国方军院 厂处局校”,总共能联想出将近2万词条,
2.精确定词功能:对于某些联想词较多的汉字,若所联想汉字 没在第一屏候选汉字区中出现,输入法还可在输入所联想汉字的过程 中,逐步提取满足输入笔画的联想词,这样,所联想汉字的排序就越 来越靠前,直到在第一屏出现,用户不用翻屏就能输入联想词。
3.容错功能:该输入法还提供了丰富的笔顺容错和笔画笔形容 错,以及关联部首输入容错,给用户带来极大的方便。我们提供了 50来个常用部首的冗余,例如,我们既可通过输入“一丶”正确关 联到“雨”部首(雨字头),亦可通过输入“一丨乙”冗余关联到“雨” 部首(雨字头)。我们还提供了2000多个常用汉字的冗余,例如,我 们既可通过输入“乙丿丶丶”正确输入“办”字,亦可通过输入“丿 乙丶丶”冗余输入“办”字,还可通过输入“乙丿丿丶”冗余输入“办” 字。
4.字频调整功能:根据不同用户的汉字输入情况,将经常用的 汉字靠前排列。
5.汉字编码查询功能:点击查询键(例如“#”),通过切换到其 它输入法状态(如拼音输入法)输入所要查询的汉字,就能显示出该汉 字的正确编码和冗余编码。
6.错过部首冗余功能:即使用户一笔一划输入汉字,错过或者 不选择部首也能输入自己所要的汉字。输入法同样提供了只选一次部 首的冗余,即对于屏幕提示汉字余部还可再选部首的汉字,即使用户 不再选二次部首也能到所要的汉字。例如输入“蛇”,用户可以先 选取部件“口”、然后选取部件“虫”,最后输入后续笔画,直到“蛇” 字出现。亦可以先选取部件“口”,然后输入后续笔画,直到“蛇” 字出现。
7.常用语联想功能:即对于许多日常生活中的常用语,输入了 前一个汉字,就可以启动常用语的输入过程,即不断地输入常用语的 前面几个汉字,并能顺序联想出构成常用语的后续汉字序列。例如: 祝新年快乐,祝万事如意等。我们提供了400多条这样的常用语。
8.动态关联部首功能:根据所输入的笔画,就能动态关联出满足 笔画的常用部首。输入法能关联数次部首,在关联出第一级部首后, 对于所剩下的汉字余部,还可继续关联出第二级部首和第三级部首。 例如:当用户输入“摸”时,首先选择第一级部首“扌”,这时“部首 区”会关联出第二级部首“艹”、“口”、“宀”,再选择第二级部首“艹”, 这时侯选汉字区就会出现“摸描搭捞”等汉字。
9.汉字排序功能:输入法依据《现代汉语常用字表》和最新统 计资料对6763个汉字赋予不同的常用度,建立常用度表。所有满足 编码的汉字按常用度排序,常用度越高,排序越靠前,采用笔顺笔型 错误冗余进行编码的汉字排在后面。
10.词组编码功能:定义一个词组区间数字键:例如数字“0” 键,既非部首键,亦非笔画键。这样,对于任何汉字词组,可以确定 编码规则进行编码。
11.选字多样性功能:在输入过程中,当所要汉字已经出现在候 选汉字区时,我们可以通过长按对应“数字键”选取汉字,也可通过 点击“确认键”+对应“数字键”选取汉字,还可通过双击对应“数 字键”来选取汉字。
以上所说的这些丰富的功能给用户提供了多种选择,带来了极大 的方便。同样是输入一个汉字,我们可以通过多种途径输入汉字: 一笔一画输入汉字,选择一级部首输入汉字,选择两级部首输入汉字 (针对有两级部首的汉字),选择三级部首输入汉字(针对有三级部 首的汉字),选择联想词组输入汉字,错误书写习惯输入汉字(针对 常见笔顺笔型错误冗余的汉字)。
该输入方法可以广泛的应用于计算机、手机、PDA、电子词典、 智能电话、机顶盒、遥控器、密码输入器、股票机、卡拉OK点播机 以及配置有可视屏幕并用小键盘输入汉字的其它智能型电子信息产 品。本发明指的小键盘是指任何有8个以上按键或按钮的信息输入装 置,包括虚拟信息输入装置(例如PC机上结合鼠标生成鼠标点击输入 装置,PDA上结合touch panel触摸屏生成的触摸输入装置)。对于 有Touch Panel的地方,可以不要专门的“部首键”,直接触摸关联 部首区所显示的关联部首进行选取。
本发明的小键盘标配技术,可形成多种标配方案。“笔画键”和 “部首键”可与输入装置上的按钮作任意的标配组合。关联部首区所 显示的部首个数和侯选汉字区所显示的侯选汉字的个数是可根据不 同的需求,可任意更改。关联部首区可显示的部首个数,与“部首键” 的个数相同。每个“部首键”与关联部首区的关联部首,是一一对应 的关系。
本发明的技术要点之一,在于将小键盘中的五个键与五种基本笔 画“横”、“竖”、“撇”、“捺”、“折”联系在一起,形成笔画键。这五 种笔画的规定与五笔画输入法中对笔画的规定相一致。根据国家标 准,其中笔画“横”与“提”视为同一种笔画;“捺”与“点”视为 同种笔画;“竖”与“竖钩”视为同种笔画。
本发明的技术要点之二,在于将汉字进行手写的过程中,首先写 出的部件,如:汉字“腊”的首部件“月”,以及汉字“度”的首部 件“广”,依照在国标汉字中出现的概率,进行分类,并以此作为依 据,和汉字的首笔画相关联。如在版本1中当用户输入笔画“一”的 时候,出现与此笔画关联的三个部首:“扌”、“木”、“土”。而当用户 紧接着输入笔画“丨”的时候,又出现与“一”、“丨”相关联的三个 部首:“耳”、“酉”、“束”。亦就是说,三个部首:“扌”、“木”、“土” 在汉字中出现的频率相比较部首:“耳”、“酉”、“束”更高。
本发明的技术要点之三,在于将汉字输入用户界面分成四个区 域:笔画输入区、关联部首区、候选汉字区、汉字编辑区。见摘要附 图。其中笔画输入区可以输入五个笔画:“横”、“竖”、“撇”、“捺”、 “折”,或者说:分别敲击笔画键进行输入相应的笔画。关联部首区 在输入前几笔的时候,将出现相关联的常用汉字部首。这些汉字部首 可以通过部首键进行选取。在本发明中,一进入初始输入状态,关联 部首区就能显示几个最常用的汉字部件(也可不显示),如图2图7 所示,这几个汉字部件不与任何笔画相关联,它的使用能让码长进一 步缩短。侯选汉字区则显示几个最常用的汉字,如图2图7所示。
本发明的技术要点之四,在于汉字编码的构成和定义。在输入任 一汉字的过程中,如果遵循国家文字委员会所规定的本汉字书写标准 笔顺,合法地敲击相应的笔画键,或根据当前的部首显示区敲击相应 的部首键,称之为一码,因此合法编码主要包括笔画码和部首码。在 本发明中,用户可以连续输入多次部首码,亦就是说用户在选取了一 个关联部首后,可以再次输入与汉字余部相关联的下一级部首。例如: 当用户输入“一”对应的笔画码的时候,出现关联的部首:“扌”、“木”、 “土”,如用户可以输入部首“扌”对应的部首码作为第二码,部首 “扌”又进一步关联第二级部首“艹”、“口”、“宀”,如用户可以输 入部首“艹”对应的部首码作为第三码,这时侯选汉字区就会出现“摸 描搭捞”等汉字。
本发明的技术要点之五,在于部首的划分和定义。一个汉字或一 个部件是否包括本发明中所定义的某个部首,是指用汉字或部件的起 始笔画开始书写的过程中,如果从开始连续写下去,出现了部首的字 样,则说这个汉字或部件包括该部首。这里所说的部件除了指国标中 所定义的部首,还指一个汉字去除部首后的余部。例:汉字“液”出 现部首“氵”;“打”出现部首“扌”;“革”、“其”、“世”三字均出现 部首“艹”。在本发明中,对于有歧义的部首,提供了部首容错,例 如“革”,既可以在输入“一艹”时关联到“革”,也可以在输入“一 丨”时关联到“革”。
本发明的技术要点之六,在于词组的编码定义。首先定义一个词 组区间数字键:例如数字“0”键,可以定义它既非部首键,亦非笔 画键,而是作为任一词组中汉字与汉字编码之间进行分隔的数字键。 这样,对于任何汉字词组,可以确定编码规则进行编码。例如对于二 字词组取它的第一个字的前三码+词组区间数字键+第二个字的前二 码;对于二字以上汉字词组,则取它的第一个字的前二码+词组区间 数字键+最后一个字的前三码。这两种编码共可以容纳65536种可 能的词组,能进一步加快汉字的输入速度。
本发明的技术要点之七,还在于联想输入方案。即选定一个汉字 后,在<候选汉字区>显示的是以选定汉字开头的常用词组的后一个 字。例如:当用户利用笔画王输入“国”字后,这时联想汉字显示区 将出现:“产家民情庆事外”等联想汉字,对于某些联想词较多的汉 字,该输入法还可通过联想汉字的前几笔,精确定位联想词,使输入 速度进一步得到了提高,以供用户方便、快速的选择。
本发明的技术要点之八,还在于强大容错输入功能的汉字输入编 码系列集。对于国标GB2312汉字输入编码系列集,每个汉字的基本 输入编码均合并部首编码、并遵循汉字书写标准笔顺,及编码系列长 度最短的原则进行规划,这种基本编码系列对每个汉字是唯一的、输 入效率最高的输入编码系列。同时对于用户根据平常手写习惯利用笔 画部首输入汉字的过程中,不遵循基本输入编码系列的现象,主要有 以下几种情形:
a)书写笔顺先后次序不对,如:“划”字的正确书写顺序应该为:
一乙丿丶丨丨,然而用户的书写次序却可能为:一乙丶丿丨丨。
b)书写笔画容易认知有误,如:“雷”字的正确书写笔画序列为:
一丶丨…,然而其中的第二笔画丶,却容易书写成为丨。
c)以及输入汉字编码过程中,应该选取的汉字部件容易被忽略,
如:“电”的正确编码应该是:丨日乙,但用户容易输入为:
丨乙一一乙;并且这种现象对于具有多重关联部首编码的汉字
输入更是比较突出。
因此本发明的笔画王输入法,相应地根据需要对每个汉字增加了 大量的冗余编码系列,从而使得用户即使根据不良的书写汉字习惯, 进行输入汉字亦不会出错,极大地节省了用户输入汉字的时间,并舒 缓了用户对于使用单一笔画编码输入汉字时总是不对的困惑。
此外,笔画王输入法在用户输入汉字的过程中,如果发现用户输 入某个汉字时使用了非基本编码,一旦这个汉字通过候选汉字区中得 到选取后,将提醒用户使用正确的码长最短的基本编码系列。
笔画王汉字输入法中的关联部首的确定,其设计思想主要依据汉 字常用部首的分布频率,另外兼顾降低重码率,缩短码长的原则。
在版本1中,设计的一级部首、二级部首和三级部首的码表如下:
一级部首:
二级部首:
三级部首:
在版本2中,设计的一级部首、二级部首、三级部首的码表和冗 余部首编码转换表如下:
一级部首:
二级部首:
三级部首:
版本2冗余部首编码转换表:
冗余部首 转换前 转换后 冗余部首 转换前 转换后 冗余部首 转换前 转换后
非 1117 2117 髟 2118 1219 当 429 247
毛 1118 3119 忄 229 48 穴 448 497
韦 1128 1157 忄 248 48 塞 449 498
走 1217 1277 门 249 427 登 4537 5437
者 1218 1279 是 2518 277 登 4547 5437
雨 1259 147 月 2519 38 比 5137 1537
龙 1337 1357 黑 2528 2547 比 5157 1537
龙 1347 1357 虫 2927 257 山 528 28
艹 148 19 足 2928 258 犭 538 357
车 1517 157 片 3129 3218 甬 5438 5428
车 1528 157 火 3439 437 登 5447 5437
扌 158 17 女 349 57 鸟 5457 3547
女 159 57 角 3528 3537 艮 5517 5117
革 1917 128 方 4137 4158 孑 558 527
其 1918 1228 宀 428 49 阝 559 59
在版本3中,设计的一级部首、二级部首、三级部首、四级部首
的码表和冗余部首编码转换表如下:
版本3冗余部首编码转换表:
冗余部首 转换前 转换后 冗余部首 转换前 转换后 冗余部首 转换前 转换后
非 1117 2116 髟 2117 128 方 4136 417
毛 1118 3117 忄 228 46 宀 427 47
韦 1126 1156 门 248 426 尝 428 246
走 1217 186 忄 249 46 敝 429 247
赤 1218 187 是 2517 266 穴 447 476
者 1219 188 月 2518 38 塞 448 477
其 1228 87 黑 2527 2546 宓 449 478
莫 1229 88 虫 258 76 登 459 5436
雨 1259 146 足 259 77 比 519 1536
革 129 86 阝 29 58 山 527 27
龙 1336 1356 片 3128 3217 犭 537 356
龙 1346 1356 每 3129 3156 甬 5437 5427
艹 147 8 火 3438 436 登 5446 5436
车 1516 156 分 3439 3456 鸟 5456 3546
革 1526 86 钅 348 37 艮 5516 518
车 1527 156 女 349 56 孑 558 526
女 158 56 角 3527 359 阝 559 58
扌 159 16
一级部首:
二级部首:
三级部首:
四级部首:
下面我们以版本3为例,介绍一下输入法的数据结构和数据文 件,在版本3中共有15个数据文件,分别如下,其中每个数据文件 都代表了输入法的一个功能,用户可根据自己的需求,选择其中的一 部分:
1.常用汉字索引表.dat:(输入前三码时,检索此表显示常用汉字) 大小:(9+9*9+9*9*9)*3=819*3=2457byte 每项3个字节,共819项,前两个字节存每项在”常用汉字表.dat” 中的汉字个数偏移量(实际偏移量须乘2),第三个字节的前三位存刚 好满足编码的汉字个数(个数为零表示没有满足编码的汉字),后五位 存每项的汉字总数(个数为零表示没有满足编码的汉字)。 项数索引:(x1:第一码;x2:第二码;x3:第三码;) f(x1)=(9*9+9+1)*(x1-1) f(x1x2)=(9*9+9+1)*(x1-1)+(x2-1)*10+1 f(x1x2x3)=(9*9+9+1)*(x1-1)+(x2-1)*10+1+x3
2.常用汉字表.dat: 大小:14144byte 依次按编码顺序存储汉字。
3.三码索引四码表.dat:(输入四码或四码以上时,检索此表索引前 三码“四码索引多码表.dat”中的起始偏移量) 共9*9*9=729项,每项2个字节。 大小:729*2=1,458byte 这两字节存“四码索引多码表.dat”中满足输入前三码的四码的起始 偏移量。 项数索引:(x1:第一码;x2:第二码;x3:第三码;) f(x1x2x3)=9*9*(x1-1)+(x2-1)*9+(x3-1) 注:起始偏移量=1时表示没有满足该三码的项。先在“三码索引四 码表.dat”中定位满足该三码的项,得到该三码和下一个三码在“四 码索引多码表.dat”中的两个起始偏移量,然后在“四码索引多码 表.dat”的这两个起始偏移量中的数据中查尾码(第四码)定位满 足前四码的项,并得到该四码和下一四码在“多码表(四码以上).dat” 中的两个起始偏移量,接下来在“多码表(四码以上).dat”的这两 个起始偏移量中的数据中查满足尾码的项和汉字。
4.四码索引多码表.dat:(检索此表索引前四码“多码表(四码以 上).dat”中的起始偏移量) 共1587项,每项三个字节。 大小:1587*3=4761byte 每项第一字节存尾码(第四码),后两个字节存本四码在“多码表(四 码以上).dat”中的起始偏移量。
5.多码表(四码以上).dat: 大小:50659byte. 共12509项,每项不规则。
每项中前些字节存尾码(每两个尾码占一个字节,尾码为奇数个 时加零补其为偶数),后面存汉字。 注:高位为1表示存的是汉字,高位为0表示存的是尾码。
6.部首编码索引表.dat:(输入前三码时,检索此表在部首区显示 关联部首,在笔划区显示所选部首) 共9*9*9+9*9+9=819项,大小:819byte 每项1个字节,存储每项在“部首表.dat”中的偏移量。 两项偏移量之差为该项关联部首的个数。 项数索引:(x1:第一码;x2:第二码;x3:第三码;) f(x1)=(9*9+9+1)*(x1-1) f(x1x2)=(9*9+9+1)*(x1-1)+(x2-1)*10+1 f(x1x2x3)=(9*9+9+1)*(x1-1)+(x2-1)*10+1+x3
7.部首编码表.dat: 共93项,每项的部首个数不同,大小:246byte 依次存储部首的代码。 有些部首不在6763个汉字中,需另造点阵。
8.冗余部首转换索引表.dat:(在选取部首时,输入2到4码时, 检索此表转换冗余部首) 共81项,大小:81byte。 每项1个字节,这个字节存每项在“冗余部首转换表.dat”中的起始 偏移量。 项数索引:(x1:第一码;x2:第二码;) f(x1x2)=(x1-1)*9+x2-1 注:由前两位定位在“冗余部首转换索引表.dat”中的项数,得到 该项和下一项在“冗余部首转换表.dat”中的起始偏移量。两个起始 偏移量之差除以3即得到模糊匹配项数。
9.冗余部首转换表.dat: 共52项,大小:52*3=156byte。 每项3个字节,第一字节存转换前的余码(去掉前两码,按整型存), 第三四字节存转换后的编码(按整型存)。
10.汉字常用度.dat(常用度越高的汉字检索时排在越前) 共6768项,存储了6768个汉字的常用度。每个码占用1个字节 大小:6768byte 设汉字的高位为x1,底位为x2。(如“啊”为:x1=0xb0,x2=0xa1) 则每个汉字在“汉字常用度.dat”中对应的项数为: address=(x1-0xb0)*94+(x2-0xa1)
11.汉字第一码表.dat:(汉字联想词太多时,通过此表检索满足第 一码的联想词) 共6768项,存储了6768个汉字的第一码。每个汉字占用1个字节 大小:6768byte 设汉字的高位为x1,底位为x2。(如“啊”为:x1=0xb0,x2=0xa1) 则每个汉字在“汉字第一码.dat”中对应的项数为: address=(x1-0xb0)*94+(x2-0xa1) 注:若汉字有两种编码(且第一码不同),则保存两个第一码(汉字 联想词中只要满足其中任何一个第一码,就显示),以整形存。只有 一个第一码,后面以零补齐。
12.词组索引表.dat:(选取汉字时,检索此表显示联想词) 共6768项,大小:6768*2=13,536byte。 每项2个字节,这2个字节中存储了每个汉字的联想词在“词组码 表.dat”中的偏移量。 汉字在“词组索引表.dat”中所对应的位置: 设汉字的高位为x1,底位为x2。(如“啊”为:x1=0xb0,x2=0xa1) 则每个汉字在“词组索引表.dat”中对应的项数为: address=(x1-0xb0)*94+(x2-0xa1)
13.词组码表.dat 按顺序存储6768个汉字的联想词。
14.冗余编码索引表.dat 共81项,大小:81*2=162byte。 每项2个字节,这个字节存每项在“冗余编码表.dat”中的起始偏移 量。 项数索引:(x1:第一码;x2:第二码;) f(x1x2)=(x1-1)*9+x2-1 注:由前两位定位在“冗余编码索引表.dat”中的项数,得到该项和 下一项在“冗余编码表.dat”中的起始偏移量。接下来在“冗余编码 表.dat”的这两个起始偏移量中的数据中查满足尾码的项和汉字。
15.冗余编码表.dat:(将满足冗余编码的冗余汉字统一加在满足正 确编码的正确汉字的后面) 大小:5546byte. 共1275项,每项不规则。
每项中前些字节存尾码(每两个尾码占一个字节,尾码为奇数个 时加零补其为偶数),后面存汉字。
注:高位为1表示存的是汉字,高位为0表示存的是尾码。
本发明的优点主要体现在:
1、容易记忆,容易学习。
主要因为智能五笔画不须要记忆,只要对出现的关联部首及时地 予以选取即可。因此任何会写汉字的人,包括老年人,均可以很快地 使用笔画王汉字输入法。
2、重码率低。
智能五笔输入法重码率是十分低的,任何国标汉字,均会在首屏 候选汉字区中出现,不须要用户切屏,从而可以大大提高用户的输入 速度。目前利用小键盘进行汉字输入的方法,有许多种实际可行的方 案,但均存在着这样的特点:好用的重码率高,或编码长度过长,或 编码十分繁杂;重码率低的输入方案又难记难用。本发明的上述两个 优点,正是本发明有异于其它输入法的独特之处。
3、功能非常丰富。
目前的输入法功能都很单一,而我们的输入法提供了11种可供 选择的功能:词组联想功能;精确定词功能;容错功能;字频调整功 能;汉字编码查询功能;错过部首冗余功能;常用语联想功能;动态 关联部首功能;汉字排序功能;词组编码功能;选字多样性功能。
4、检索效率高,以及存储空间代价小。
由于笔画王输入法的基本数字开销是30K左右,对于嵌入式系 统,只须存放在MASKROM中,因此,基本上不须占用系统的重要资源, 并且检索效率高,查定位每个编码所有的候选汉字集合,只需要很 少的计算就可完成。随着用户对功能需求的增多,数字开销会相应的 增大,用户可根据系统的基本配置选择功能。
附图说明: 图1:版本1的界面区域划分 图2:版本1的初始界面 图3:版本1的输入过程界面 图4:版本2的界面区域划分 图5:版本2的输入过程界面 图6:版本3的界面区域划分 图7:版本3的初始界面 图8:版本3的输入过程界面 图9:输入单字的操作流程图
实施例一在版本3中输入汉字“满”,共有以下三种输入方式。 1.一笔一画输入。
2.只选一级部首。
3.选一级和二级部首。
1,2,3,4,5键。
(3)关联部首区:
(4)笔画输入区:
(5)候选汉字区:
上述五个显示区域,可以根据实际的屏幕大小,以及用户输 入的方便性、人机输入界面的美观度,进行不同的调整。
笔画王汉字输入法在嵌入式的智能小键盘终端中,如:智能数字 电话、智能手机,掌上电脑、智能寻呼等领域,具有极其广泛的应用 前景。主要表现在:
1.由于利用手机处理中文业务,将越来越多,因此拥有手机的 用户希望利用手机输入中文,用于处于名片、短消息,甚至用于WAP 手机,进行移动电子商务交易。
2.由于未来的智能电话编辑、存储、查行事历、名片、短消息 等中文业务,甚至于发e-Mail,上网,将愈来愈成为一种时尚。因 此客观上未来的智能电话存在着大量的中文信息处理业务。
3.其它如掌上电脑、智能寻呼机,电子词典等利用数字键输入中 文,将造成成本低、体积轻便小巧,因而有助于掌上电脑的推广和普 及。
实施例1-笔画王汉字输入法在智能手机或智能电话中的应用。
一般而言,手机和智能电话不仅有十个数字英文键外,还有两个 特殊的符号键,即符号键<*>和符号键<#>。用户为了输入汉字、大小 写英文字母或者数字、特殊符号等图形符号,可以利用符号键<*>进 行[中文/英文/数字/符号]四种输入状态的切换;同时利用符号键<#>, 进行各种输入法的切换,例如在中文输入状态下,可以使用它切换到 笔画王输入或拼音输入状态,这时,如果用户选取笔画王输入法,就 可以利用数字键,方便、快捷地输入汉字。
实施例2-笔画王汉字智能输入法在PC机中的应用。
由于PC均配有数字小键盘,可以将数字键<6><7><8><9>与 部首键标配在一起,用于选取输入过程中关联的汉字部首。将数字键 <1><2><3><4><5>与五个基本笔画标配在一起,用于输入汉字 笔画。最后将数字键<0>与词组区间键标配在一起。其它的确定键、 取消键由于PC键盘上的功能键均已包含,则无需另加说明。当然亦 可以不通过确定键,而使用大键盘上的十个数符键,来完成候选汉字 的选取。这样的话,可以实施双手同步进行输入。右手完成笔画和部 首或词组区间的输入,左手用于完成候选汉字的选取。从而加快利用 PC机的小数字键盘实现快速输入汉字的目的。
本文发布于:2024-09-24 22:23:26,感谢您对本站的认可!
本文链接:https://www.17tex.com/tex/2/73003.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |