汉字形义码元编码输入法及其键盘

著录项
  • CN200810141521.3
  • 20081007
  • CN101714029A
  • 20100526
  • 张建平
  • 张建平
  • G06F3/023
  • G06F3/023

  • 河南省郑州市新郑路3号物探测量队
  • 中国,CN,河南(41)
摘要
形义码元编码法及其键盘是一项涉及中文信息处理领域的发明。发明提出了码元、构件、构型的概念,澄清了以往的模糊观念,对汉字的结构认识上了一个层次,并把对汉字的拆分简化为对构件的拆分。该发明精选的汉字码元依形取义,依义分区按位命名,易学好记,使得该方法不但上手快,而且不易遗忘。发明可用于计算机汉字输入、辞书编纂中的汉字索引,也可用于手机等掌中设备的汉字输入。此外,可忽略的重码是本发明的重大突破,弥补了以往编码方法的不足。
权利要求

1.一种用于计算机中英文输入的,形义码元中文键盘其特征在于:

①、计算机键盘的按键表面不但刻印着英文字母、同时还刻印着本发明的形义码元。

②、计算机键盘字母按键上的形义码元与英文字母的映射关系由本发明的形义码元表及码元代码与英文字母的映射关系确定,下面为形义码元总表。

形义码元总表

③、每个形义码元都有一个数字区位代码,并将英文字母键盘分做六个区,每区五个位,码元分区与英文字母键盘的分区映射关系见下表:

2.根据权利1,一种用以计算机的中文键盘键贴的特征是:形义码元与英文字母的映射关系印制在贴纸上,成为键贴产品,形义码元中文键盘可由键贴贴在字母按键上构成。

3.一种汉字编码键盘输入方法的特征在于:

①、本发明的形义码元及代码体系和映射关系,包含数字代码和英文字母代码。

②、建立在笔划及笔顺、码元、构件、构型、补码等基本概念定义基础上的对汉字的认知。

③、分解按先“汉字→构件”、再“构件→码元”顺序,及按照“能二不三、能松不缠、披点占先、拆夹直观”的拆分口诀将汉字拆解成码元序列。

④、按以下列规则得到汉字编码:

独型字、围型字的编码

按拆解的码元顺序取一、二、三、末码元编码,不足四码加补码。

叠型汉字(g1+g2+…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。

其中(2)、(3)的取码与构件中是否有并型复合构件有关。若无时按正常顺序取码,否则根据首次出现并型复合件的位置,汉字的取码做如下调整:

g1为并型,则取该并构各分构件的首码元(最多可取三码,即首、次、末分构件)。

gi(1<i<n)为并型,则gi以上构件最多可顺序取二码,gi最多取该并构的首尾分构件的首码元各一码,若gi以上构件取足二码,gi只取首分构件的首码一码。

gn为并型,则gn以上构件最多可顺序取二码,然后从gn开始按正常顺序取码。

并型汉字(g1|g2|…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。其中(2)、(3)根据g1是否为并叠复合构件来确定:

g1的取码:如果g1为并叠复合型,则g1取三码:g1的首码、未取的并构构件的首码,g1的尾码,否则g1最多取首尾两码。

g2及…gn的取码:如果n=2,则g2按正常顺序取码;如果n>2,则g2最多取首尾两码。余部…gn按正常顺序取码。

⑤、补码:当汉字编码不足四码时,取汉字首码元的首笔,汉字末码元的末笔(键面成字码元则指汉字的首笔、末笔)结合汉字构型组成的区位码。单笔划的补码用61表示。

补码有两种:正码和反码。即组合笔划的方式是首末序,还是末首序。

并型、围型中的左下围补码用正码,其它构型均用反码。

⑥、汉字编码输入:将根据①~⑤确定的汉字码元,依照得到码元的顺序,依次按下相应的计算机字母键,配合相关计算机程序,完成汉字的输入。

4.根据权利3的方法,汉字词汇的编码输入方法特征是:二字词——取每个汉字编码的前两码编码,三字词——取每个汉字首码编码,四字词及多字词——取1、2、3末汉字的首 码编码。

5.根据权利3的方法,使汉字与汉字词汇分别处理的方法特征是:在输入汉字词汇过程中,当输入汉字词第一个汉字的规定码元的字母编码后,输入表示词汇编码的数字代码(数字代码取自码元代码的区码),再输入汉字词后续字码元的字母代码。

6.根据权利3的方法,汉字及辞书检索方法的特征是:

①、由根据权利3的方法得到得国标汉字编码,其中包含以汉字编码序值排列的汉字词汇。

②、按其代码(数字代码或字母代码)序值大小排列的码表。

说明书
技术领域

所属技术领域

本发明属于拼形类计算机汉字编码输入方法,所涉及的技术,可广泛应用于中文信息处理及相关领域。

背景技术

汉字拼形类编码输入方法很多,常见的有:五笔字型、郑码、表形码等。这些编码或多或少都存在明显不足。没有解决GB2312-80字符集中的重码问题,也很难称得上易学易用,需要改进的空间巨大。

发明内容

一、形义码元表及形义码元中文键盘

本发明的形义码元是在对汉字拆分、拼合规律研究的基础上,通过对组成汉字的拼形符号的优选,根据拼形符号本身的形义待征、相容关系进行归并,依据拼形符号间的相互联系进行组合建立序列。共归并二十六组汉字码元(与二十六个英文字母对应),分为六个区,每区五个位(第六区可认为是二区的辅助区),与五个单笔划一起,组成本方法的汉字码元体系。

码元表的六个分区为:横数区、竖数区、撇皮区、点元区、折框区、辅区,依次用1、2、3、4、5、6编号。

码元表的五个位按其待征序1、2、3、4、5排列,其特征序一般表现为:码元的横向笔划数、码元的纵向笔划数、同类笔形数,双笔笔画代码组成的区位代码以及其它具有相同特征的序值。

本发明的码元代码因为采用了区码+位码形成的区位代码表示,并与现有计算机字母键盘字母布局相结合,使得与计算机字母键盘的映射关系简单直观,见下:

为了方便汉字计算机键盘输入,在设计生产计算机键盘的时候,将本发明的汉字形义码元,依据形义码元与计算机字母按键的映射关系直接刻印在计算机按键上形成专有的形义码元中文输入键盘,也可以将上述映射关系制成键贴式的产品,贴到计算机按键上形成形义码元中文输入键盘。码元表的二十六组码元均有一个与其形义相关的区位代码,该区位代号码使得杂乱无章的码元呈现有序性,见下面形义码元表。

一区(横数区)

二区(竖数区)

三区(撇皮区)

四区(点元区)

五区(折框区)

六区(辅区)

下面为形义码元总表(简体),输入繁体字时需将本表简体码元转化为繁体码元。

形义码元总表

简繁码元对照表:

形义码元表及形义中文键盘通用于简体,繁体汉字。输入简体和繁体汉字的差别仅在于将形义码元中简体码元转化为相应的繁体码元,即可用于对繁体字的编码及键盘输入。

码元表的区位方式具有显而易见的排列规律性,对标准计算机键盘有较强的适应性,利用形义码元的代码以及与英文字母之间的映射关系将形义码元做在计算机键盘键面上就构成形义码元中文键盘,附图是根据形义码元表设计的计算机汉字形义码元中文键盘按键表面的例子。为了方便使用也可制成键贴形式的产品,贴在键帽上。该键盘使形义码元有了确定的输入按键,通过按形义码元键即可完成汉字编码及计算机汉字输入。

此外形义码元代码为1-6的数字组成的区位代码,可直接映射到数字小键盘,通过输入形义码元的数字代码,达到输入码元的目地,用于手机等微型设备的数字键盘输入汉字。

二、形义码元汉字编码方法及汉字键盘输入

(一)、几个基本概念

1、笔划及笔顺:

笔划:笔划指构成楷书汉字字形的最小笔划单位,分为横、竖、撇、捺、折五种。依次用数字1、2、3、4、5表示,是本方法中特殊的码元,做码元使用时依次表示为11、22、33、44、55。此外,竖钩做码元使用时为了与竖区别用61表示。

笔顺:书写汉字时笔划的先后顺序。

2、码元

指本方法形义码元表中的笔划结构块和五种单笔划。是构成汉字或汉字构件的元素。

3、构件

指本方法中一个相对独立的码元,或多个码元通过粘连、交连组合到一起,形成的一个相对独立的结构块。也可称为汉字的部件。

4、构型

指本方法中汉字构件间的组合关系。汉字有四种基本构型:

①、单型:单个构件组成的汉字。用g表示

②、叠型:两个或两个以上构件叠合在一起形成的汉字,构件之间有水平空隙自然分隔。可用公式g1+g2或g1+g2+…gn表示。

③、并型:两个或两个以上构件并合在一起形成的汉字,构件之间有垂向空隙自然分隔。可用公式g1|g2或g1|g2|…gn表示。

④、围型:一个构件包围另一个或多个构件形成的汉字,其中围型构件与其包围的构件之间存在明显空隙。可公式用[g1]或[g1,g2,…gn]表示。

一般来讲,三个或三个以上构件组成的汉字多为上述基本构型的组合,组合的种类很多,这里统称为复合型。这时的构件g可以是复合构件,即本身即为上述基本构型的组 合,并充当基本构型中构件作用的部分。

5、补码

指本方法中当汉字编码不足四码时,取汉字首码元的首笔,汉字末码元的末笔,或单个码元的首笔、末笔组成的笔划码。单笔划的补码用61表示。

补码有两种:正码和反码。即组合笔划的方式是首末序,还是末首序。

并型和围型中的左下围补码用正码,其它构型均用反码。

(二)、汉字的拆分规则

1、汉字拆分的两个层次

①、第一层次:汉字→构件;按照先上后下、先左后右、先外后内(下三围除外)的拆分顺序拆分。

②、第二层次:构件→码元;按照“能二不三、能松不缠、披点占先、拆夹直观”的口诀拆分。

拆分汉字应遵循先把汉字拆分成构件,然后再把构件拆分成码元的次序。由于汉字中构件之间的关系相对独立,已形成自然拆分,汉字的拆分实质上是构件的拆分。

2、构件拆分要点及示例

①能二不三:按照笔顺、一个构件如果能分解成两个码元,决不分解成三个,保证拆分的最大效益。示例:

正确:卓→早;                  错误:卓→日、十;

正确:缶→、山;错误:缶→、十、凵;

正确:空→穴、工;错误:空→宀、八、工;

②能松不缠:按照笔顺、一个构件如果能按照松散的码元关系拆分,决不按纠缠不清的码元关系拆分,保证拆分能直观、自然分割。示例:

正确:亏→一、丂;错误:亏→二、勹;

正确:尢→、乚;                错误:尢→一、儿;

正确:生→丿、;                    错误:生→、土;

③披点占先:一个构件如包含披点码元(如戈、弋等),则可以忽略笔顺,首先保证披点码元完整性的拆分方式进行拆分。示例:

正确:甫→月;                      错误:甫→一、月……;

正确:戊→戈、丿;    错误:戊→厂、乚……;

正确:哉→十、戈、口;错误:哉→土、口……;

④拆夹直观:一个构件中,若一个码元直观显现于另一个码元之中即“夹”在另一个码元之中,则可以忽略笔顺按直观的方法拆分。示例:

正确:束→木、口;    错误:束→一、口、小;

正确:秉→禾、彐;    错误:秉→丿、一、彐、小;

正确:夹→大、      错误:夹→一、丷、大;

(三)、汉字的编码方法

1、汉字单字的编码

①、键名码元的编码

码元+补码+31(注:31为键名附加后缀码)

②、非键名码元(成字)的编码

码元+补码+61(注:61为成字码元附加后缀码)

③、非键名码元(不成字)的编码

码元+首次笔划组合码+45+45(注:45为非成字码元附加后缀码)

④、码元:“一、二、三、四、五、六、七、八、九、○”的编码

码元+31+41(注:31、41为数字码元附加后缀码)

⑤、单型汉字(g)的编码

两码元相连构成的字:按顺序取码元1、2、补码。

两码元相交构成的字:按顺序取码元1、2、补码、61。

其它:取码元1、2、3、末。不足四码加补码。

⑥、围型汉字([g1,g2,…gn])的编码

首先拆分围型构件,然后再拆分其它构件,按拆分出的码元顺序取1、2、3、末码元编码。不足四码加补码。

⑦、并型汉字(g1|g2|…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。其中(2)、(3)根据g1是否为并叠复合构件来确定:

g1的取码:如果g1为并叠复合型,则g1取三码:g1的首码、未取的并构分构件的首码,g1的尾码,否则g1最多取首尾两码;

g2及…gn的取码:如果n=2,则g2按正常顺序取码;如果n>2,则g2最多取首尾两码;余部…gn按正常顺序取码。

⑧、叠型汉字(g1+g2+…gn)的编码

按顺序取1、(2)、(3)、末码元编码。不足四码加补码。

其中(2)、(3)的取码与构件中是否有并型复合构件有关。若无时按正常顺序取码,否则根据首次出现并型复合件的位置,汉字的取码做如下调整:

g1为并型,则取该并构各分构件的首码元(最多可取三码,即首、次、末分构件)。

gi(1<i<n)为并型,则gi以上构件最多可顺序取二码,gi最多取该并构的首尾分构件的首码元各一码,若gi以上构件取足二码,gi只取首分构件的首码元一码。

gn为并型,则gn以上构件最多可顺序取二码,然后从gn开始按正常顺序取码。

(四)、汉字词组的编码

汉字词组的编码基于汉字的编码,有两种形式

1、字词混合型——字词混编在一起,字词有互相干扰现象。

①、双字词:字1前两码+字2前两码。

②、三字词:字1首码+字2首码+字3首码。

③、四字及多字词:字1首码+字2首码+字3首码+末字首码。

2、字词分开型——字词相互独立,字词之间没有干扰。

①、双字词:字1前两码+字1第三码的区码+字2前两码。

②、三字词:字1首码+字1第二码的区码+字2首码+字3首码。

③、四字及多字词:字1首码+字1第二码的区码+字2首码+字3首码+末字首码。

区码用数字键1 2 3 4 5(或6 7 8 9 0)表示。区码的作用是把汉字词编码与字编

码区分开来,同时具有控制功能,当按下数字键时,系统状态由字输入状态转入词输入状态。

(五)、汉字键盘输入

根据上述编码规则,将拆解汉字得到的码元映射到计算机字母键上,依照得到码元的顺序,依次按下计算机字母键,配合相关计算机程序,即可完成汉字的输入。

三、汉字编码码本及检索

根据形义字母表、形义码元代码以及编码方法,对国标汉字进行编码,形成形义码元编码(数字代码或字母代码),按其代码序值进行排序后,就形成了形义码元汉字检索系统的码本,其中包含以汉字编码序值排列的词汇,可以用于辞书词条检索,大型文献库检索等。

附图说明:

附图、形义码元中文键盘按键表面设计。

具体实施方式

形义字母编码法编码示例:

1、键名码元

身→身、补码、31编码:543331(xet)

方→方、补码、31编码:445431(oxt)

2、非键名码元

示→示、补码、61编码:134161(dyn)

长→长、补码、61编码:144361(sin)

3、单笔划及偏旁

丿→丿、61、45、45编码:33 61 45 45(enpp)

衤→衤、45、45、45编码:13 45 45 45(dppp)

4、单型字

下→一、卜、补码、  编码:11 11 41(ggy)

夫→二、人、补码、61编码:12 24 41 61(flyn)

发→、攵、丶、补码            编码:55 45 44 45(zpop)

书→乛、乛、丨、丶    编码:55 55 22 44(zzjo)

5、围型字

困→口、木、补码、    编码:54 42 42(xuu)

虱→乁、丿、虫、补码  编码:55 33 51 45(zebp)

病→疒、一、冂、人    编码:34 11 51 24(wgbl)

麽→广、木、木、厶    编码:33 42 42 23(euuk)

6、叠型字

昌→日、日、补码      编码:53 53 12(ccf)

童→立、日、土、补码  编码:55 53 12 14(zcfs)

慰→尸、寸、心、补码  编码:52 15 54 45(vaxp)

堂→、冖、口、土              编码:43 61 52 12(invf)

藉→艹、三、小、日    编码:22 13 43 53(jdic)

翁→八、厶、习、习    编码:23 23 52 52(kkvv)

叠→又、又、又、三    编码:62 62 62 13(mmmd)

攀→木、义、木、亅    编码:42 61 42 61(unun)

窝→穴、口、冂、人    编码:14 52 51 24(svbl)

7、并型字

对→又、寸、补码      编码:62 15 54(max)

乱→丿、古、乚、补码  编码:33 41 55 35(eyzq)

髌→冂、月、宀、八    编码:51 35 62 23(bqmk)

觎→人、月、刂、儿    编码:24 35 22 32(lqjr)

鄹→耳、又、水、阝    编码:21 62 43 32(hmir)

颡→又、又、木、贝    编码:62 62 42 34(mmuw)

微→彳、山、几、义    编码:32 23 34 61(rkwn)

8、词组编码

创新→人、、立、木                  编码:24 42 55 42(luzu)

计算机→讠、竹、木    编码:11 21 42(ghu)

改革开放→己、廿、一、方   编码:41 22 11 44(yjgo)

本文发布于:2024-09-25 01:20:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/74142.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议