汉字形声偏旁泛字根结构的码元编码法

著录项
  • CN99115577.7
  • 19990924
  • CN1249457
  • 20000405
  • 王锦漪
  • 王锦漪
  • G06F3/023
  • G06F3/023

  • 江西省南昌市青云谱区气象路43号3号楼302室
  • 中国,CN,江西(36)
摘要
本发明是一种汉字的计算机键盘输入方法,具体地,它是一种基于汉字的形声偏旁泛字根结构的码元编码法。本编码方案的编码基点为“26个代码,每字码长4码”;其编码规则极为简单明确,码元与代码的映射(赋值)关系合理,单字的重码率极低(远低于当前的任何一种编码方法);并且本编码方案具有易学、易记、易用的显著特点。本发明面对二万个实用汉字编码,其服务对象定位为学生和一切文字工作者,而非打字员。
权利要求

1、一种汉字形声编旁泛字根结构的码元编码法,它由码元集,代码集及码元与代 码的映射关系,编码规则、拆字取元规则四个环节组成。其特征在于:

A、本发明选取177个字根作为本编码方案的“码元集”,将全部177个码元分成 四类:a.主码元26个,其中衤、女、山、火4个码元是本发明按W原理的要求而从“码 元集”中挑选确定为主码元的;b.高元26个,其中向、如、谷、和4个汉字以及求、 而、长、以、片、及、了、才、之、不、民11个汉字是本发明按W原理为规避重码和 汉字拆分需要而特别选定为高元的;c.特元26个,其中口、勹、 、丬、匚、川、乂、 冂、冫、工、彡、 12个码元是本发明按W原理的要求而从“码元集”中挑选确定为 特元的;d.付元99个,其中,横起笔码元干、于、韦、无、 ,撇起笔码元气、矢, 用,竖起笔码元黑、兄、由,折起笔码元疋、巴、矛,点起笔码元 ,共计15个码元, 是本发明按W原理的要求而特别从五百多个字根中挑选确定为码元的;本发明规定: 主元和高元的代码为一码(即区码),为一码元;特元和付元的代码为二码(即区码 和位码),为二码元;

B、选取整个键盘26个拉丁字母(键位)为代码,构成本编码方案的“代码集”; 并对键盘进行键位功能划分和码元映射(确定区码):

——本发明规定,每个码元所在键位即是该码元的区码;26个键位,每个键位都 映射有一个主元,一个高元和一个特元;定义X、Z、K三键为编码键,其上映射的付 元另外规定,余下23个键位,每个键位上都映射有4个付元,并将这23个键位划分 为横、撇、竖、折、点5个片,其中,横片6个键位(顺序为Y、U、H、J、N、M), 撇片6个键位(顺序为T、R、G、F、B、V),竖片4个键位(顺序为I、O、P、L), 折片4个键位(顺序为W、Q、S、A),点片3个键位(顺序为C、D、E),这5个片 用来映射首笔画分别为横、撇、竖、折、点的92个付元;

——本发明规定:将9个特元(中文小写数字)二——十,分别映射到键盘顶行 的9个键位上(Y除外),且顺序应为U——P、T——Q;将5个特元(笔画)丨(竖)、 丿(撇)、丶(点)、(横折)、 (竖折)分别映射到键盘底行右端的5个键位上, 且顺序应为M——C;余下12个键位(包括Y键)用来映射数字特元和笔画特元之外的 其余12个特元;

——本发明规定:不按首笔画而按码元组字能力与键位效率的区配及相容性,将26 个主元分别映射到26个键位上,于是12个最重要的主元口、氵、亻、木,纟、钅、 艹、扌、土、日、讠、忄分别被映射到击键效率最高的12个键位K、J、F、D、S、G、 H、L、T、R、Y、U上,其中特别重要的4个主元口、氵、亻、木分别被映射到击键效 率居榜首的4个键位K、J、F、D上;

——本发明规定:将26个高元,不按其首笔画而按其读音声母和键位字母的相合, 分别映射到26个键位上;特别指出,高元—(它也是笔画横和数字一)应映射到Y键 上;

C、本发明规定:凡不是成字码元的汉字,编码时都必须首先遵照笔顺进行拆分; 本发明拆字取元的要点是“拆字取元四优先”(最简优先、码元优先、离连优先、一 码元优先)及“特殊情况可变通”(衣应合, 应断,非偏旁的戈弋应或置字头、或 置字尾);

D、本发明的编码规则,其要点是:本身是码元的汉字,其编码就是该码元的代码, 但主元汉字的编码应加一个补码键Z;不是码元的汉字,编码时须先“拆字取元”;每 个汉字的字头字尾各取二元,字头字尾各编二码;首元的区位码应取全,其余部位的 码元一般只留区码;首元为二码元则不取次元,字尾只有一个码元则该码元区位码要 取全。

2、按权利要求1所述的汉字编码法,其特征在于:对Z、X、K三个编码键的映射 码元作严格的限定:“特位键”(特元位码键)X上映射特选的主元疒,高元向,特元 但不准映射任何付元;“补码键”Z上映射特选的主元、高元在,特元勹,付元豸、彳、 “口码键”K上映射特选的主元口,高元可,特元 ,付元足(只准映射这一个付元)。

3、按权利要求1所述的汉字编码法,其特征在于:对按码元的首笔画而已经分别 映射到横、撇、竖、折、点5个片上的92个付元,分片进行“码元相容性聚类分析”, 最后确定各个片上的每一个付元具体应映射到该片的哪一个键位上,即确定该付元的 区码。

4、按权利要求1或2或3所述的汉字编码法,其特征在于:对上述5个片上的已 具体映射到每个键位上的4个付元,采用“对偶位”方法调整和确定每个付元的位码 (键位代码):横片上的前4个键位(顺序为Y、U、H、J)分别为撇片各键位上顺序 排列的对应付元的位码,而撇片上的前4个键位(顺序为T、R、G、F)则分别为横片 各键位上顺序排列的对应付元的位码,即横片与撇片之间存在“对偶位”关系;竖片 上的4个键位(顺序为I、O、P、L)分别为折片各键位上顺序排列的对应付元的位码, 而折片上4个键位(顺序为W、Q、S,A)则分别为竖片各键位上顺序排列的对应付元 的位码,即竖片与折片之间存在“对偶位”关系;点片上的3个键位C、D、E与Z键 上顺序排列的诸付元,其位码分别规定为键盘底行右端顺序排列的4个对应键位M、N、 B、V;最后,余下“空着的”三个键位(顺序为C、D、E),则规定为上述95个付元 之外(即超编的)其余付元的位码。

5、按权利要求1或2所述的汉字编码法,其特征在于:所有特元的位码一律规定 为特位键X。

6、按权利要求1或2所述的汉字编码法,其特征在于:编码方法中规定,全部由 主元组成的二元字,其编码应在二个区码后加一个补码键Z;若汉字的首元或尾元为高 元且编码不足4码,则其编码为最后加补码键Z补足4码。

7、按权利要求1所述的汉字编码法,其特征在于:编码方法中规定,当按该汉字 的全部码元参与编码计而超出4码时,该汉字的横向重复部件可只取其中一个部件参 与编码,而繁复部件则可“概括编码”(即闭点、角撇、平直的笔画可省略;作部件 的豆、回、 及冂内有二元者,可分别用指定的码元 、口、田及九代替)。

8、按权利要求1所述的汉字编码法,其特征在于:本发明利用字根的变体、近形 及其历史演变规律,对几百个字根进行大量归并以及决定不归并,由此规定:“码元 集”中的码元,与该码元的繁体、变体及近形字根,占用相同的代码(键位)。

说明书
技术领域

                              技术领域

本发明涉及一种汉字的计算机键盘输入编码方法,具体地,本发明涉及一种在本发 明人提出的“汉字的形声偏旁泛字根结构”和“汉字的ABba型码元结构”这两个理 论观点(命名为“W原理”)指导下设计的“汉字形声偏旁泛字根结构的码元编码法” (命名为“SH码”)。

                              背景技术

现有的汉字输入编码方案,不外可分为形码、音码、形音码、笔画码四大类,它们 存在以下几个普遍性、根本性的问题:

1、今后汉字输入方法要走向统一,必然是统一于“形码”。“音码”由于其与汉 字字形缺乏联系和其他方面的先天不足,是无法统一天下的。作为二维汉字图象的线 性化的形码,必然是与汉字共存共荣的。有实例为证:1969年我们在部队农场时,几 个月不读书、不看报、不写字(《语录》除外),许多同学提笔写家书时连最常用的 汉字都忘了!——多么惊人,还是母语,还是受过高等教育!因此,可以予言,如果 汉字输入为“音码”所统一,那么没过多久,大家恐怕连常用汉字都不会写了,那以 后还会有汉字吗?另外,也不可能是有人提出的“形码、音码各自的统一”,因为这 至多只能是一个过渡时期,一旦有真正科学、优秀的形码出现,这种平分秋的局面 会很快被形码的一统天下所代替。因此,音码是不可能有光明前途的。

2、离开字根结构的形码是没有生命力的。汉字输入编码的形码,其设计基础在于 汉字有结构有字根,离开字根结构,形码设计便失去其根基。这一点目前已获得编码 界多数人的共识,并且为二十多年的编码实践所反复证明。因此,任何偏离汉字字根 结构的形码编码方案(例如笔画码等),都必然是没有生命力的。

3、即使采取“字根说”这一基本观点,在当前地形码和以形码为主的形音码方案 中,也还存在以下几个根本性的问题。其一,忽视或没有真正认识到“编码基点”(即 编码方案取多少个代码,每个汉字的最大码长取多少)选择的合理性在编码方案中的 基础地位,因而或者没能把握编码方法的内在规律(成功的编码方案中,编码方法内 在规律的把握和汉字结构内在规律的把握是同等重要的),或一开始就偏离正确的设 计方向。

4、忽视或没有真正认识到汉字的“首元”(第一笔画所在的字根或码元)在编码 方案中的关键地位,或者虽有所认识,却没能深化这种认识,从而采取必要的技术手段 和辅助措施去保证这一正确认识充分地发挥作用,以达到简化、精炼各编码环节,提 高效率的效果。这是其二,也是最严重的缺点之一。

5、编码方案的四大环节(码元选定、码元映射、编码规则、拆字取元)中,码元 映射是关键技术、核心技术。在现有技术中,几乎所有的形码,其编码字根(即码元) 和键盘代码的“映射”关系(或称:用代码对码元“赋值”),或采取依字根的前一、 二、三笔画的排序关系(如王永民的“五笔字型”,郑易里的“郑码”),或采取字 根与键盘字母(代码)的图形相似关系(如陈爱文的“表形码”,“天然码”),或 采取字根名称的读音(或连词读音)的声母和键盘字母的相合关系(如国家教委的“认 知码”,刚出台的“十力码”,周志农“自然码”中的形码部份)。另外,还有采取以 字根的字义进行聚类的映射方法。上述所有编码方案,其字根与代码的映射关系(赋 值关系),其实质,只是对所选定的编码字根的一种排序(或归类系统化)方法,字 根的映射(赋值)是事先人为主观地硬性规定的,并非真正体现汉字的内在结构规律 和字根与代码之间的内有编码关系。因而,这些编码方案存在巨大的主观性和盲目性, 单字重码率很高(如五笔字型重码率6.2%,表形码重码率8%),并且不易克服,因为 任何微小改动都会牵一发而动全身。尽管有的方案在其后采取某些补救编码措施,但 成效不大,反而增加编码方案的记忆量。这是其三,也是最严重的缺点之一。

6、对汉字结构的千变万化和极端复杂性没有真正的认识和把握,因而在编码方案 的各个环节提不出相应的各种灵活处理技术。不合事物千差万别的变化规律而采用千 篇一律的教条主义的处理方法,自然不可能有好效果。这是其四。

7、没有在编码要素的记忆方法上取得理想的突破效果。既然形码设计基于字根, 那就肯定有记忆量。如何真正把握汉字和编码两者各自的内在规律,做到“科学、规 范”,使编码规则简单明确,容易操作,并且把大量预备知识交给中小学的汉字教学去 完成,以大幅度减少记忆量,这是一方面。另一方面,对一些非记不可的编码要素, 如何利用汉字的形、音、义的统一属性,设法做到易学易记,更是关系编码方案能否 真正“大众化”的大问题。这个功夫必须深下。这是其五,也是最严重的缺点之一。

基于上述原因,现有汉字输入的形码编码方案,不仅重码率高,而且编码程序复杂, 编码要素记忆量大,不易学、不易记、不好用、实际效率也低。

                              发明目的

本发明的目的,是针对汉字输入编码二十多年来存在的根本性问题,从理论上和实 践上提供一种真正“科学、规范、易学、高效”(这八个字是编码界公认的评价标准) 的汉字键盘输入编码方案。

                             技术方案

本发明人首先对“字根”和“码元”的概念重新界定。字根:一大或一汉字的 最大的共同部件。在这里,为与一般人理解的“字根”相区别,也称为“泛字根”。 码元:为编码需要而从全部字根中筛选出来的最小字根,即码元若再行分解,就只能 分解为笔画和笔画的组合。进一步地,本发明人提出了两个理论观点:1)“汉字的形 声偏旁泛字根结构”;2)264编码基点(即编码方案取2 6个代码,每个汉字码长4码) 下“汉字的ABba型码元结构”。这两个理论观点连同实现它的技术手段,本发明人将 它命名为“W原理”。W原理是本编码方案的总体设计思想和设计原理。

A、键位(代码)和码元的选定:

根据本发明,选取计算机标准键盘26个拉丁字母(键位)为代码,构成本编码方 案的“代码集”。每个代码(键位)为一个区,共26个区。定义Z、X、K三键为“编 码键”,余下的23个键位划分为5个片:1、横片(键位依次为Y、U、H、J、N、M, 共6个键位);2、撇片(键位依次为T、R、G、F、B、V,共6个键位);3、竖片(键 位依次为I、O、P、L,共4个键位);4、折片(键位依次为W、Q、S、A,共4个键 位);5、点片(键位依次为C、D、E,共3个键位)。

根据本发明,应用W原理,对二万个实用汉字的几百个字根进行筛选和大量归并,
最后确定137个字根和26个高频字,14个数字和笔画,共计177个作为本编码方案的
“码元集”。将全部177个码元分成四类:1、使用频度最高的高频字码元(高元)26
个;2、组字频度最高的主码元(主元)26个;3、笔画少但组字解力强的12个码元,
连同9个数字码元(二---十)、5个笔画码元(竖丨、撇丿、点丶,横折、竖折 ),
构成特别码元(特元);4、余下的9 9个码元为付码元(付元)。规定,主元和高元
的代码只有区码一码,为一码元;特元和付元的代码则有区码和位码共二码,为二码
元。

B、码元的映射(赋值):

根据本发明,规定:每个码元的区码就是该码元所映射的键位(代码)。特元的 位码一律为编码键X(称为特位键);付元的位码由它在键位上四个付元中的排序来决 定。

根据本发明,177个码元的键位映射规定如下:

1、26个高元,主要依其读音的声母和26个拉丁字母的相合来映射。具体是: B不   P片   M民   F发    D的    T他        N你        L了        G谷 K可   H和   J及   Q求    X向    V(zh)之    I(ch)长    U(sh)是    R如 Z在   C才   S所   A爱    O以    E而        Y一        W我 注意:码元一既是高元,也是数字一和笔画横。

2、26个主元,主要依据其组字能力和键位效率的区配(“相容性”是次要考虑因 素)来映射。具体是: Q石    W王    E山    R日    T土    Y讠    U忄   I月    O辶   P阝 A火    S纟    D木    F亻    G钅    H艹    J氵   K口    L扌 Z    X疒    C虫    V鱼    B衤    N女    M目

3、26个特元,其键位映射规定如下:
键盘顶行为数字特元键(注意其顺序),键盘底行右端为笔画特元键(注意其顺序)。
Q十    W九   E八   R七    T六    Y   U二    I三   O四   P五
A丬    S匚   D川   F乂    G冂    H冫    J工    K口    L彡
Z勹  X   C   V  B丶    N丿    M丨

4、99个付元的键位映射:

特选豸、彳、 这三个付元映射在编码键(补码键)Z上;付元足、瓦、甲、申的
键位映射另定。其余92个付元,首先依据每个付元的首笔画(横、撇、竖、折、点)
而将它们分别映射到横片、撇片、竖片、折片、点片五个片的键位上;然后应用W原
理,对已映射到每个片上的付元,分片进行“码元相容性”的聚类分析,进一步确定
该片上的每个付元应具体映射到该片的哪一个键位上,即确定该付元的区码;最后,
应用W原理中的“对偶位”方法,调整和确定每个键位上的四个付元的排列次序,亦
即最后确定该键位上每个付元的位码。下面分片列出95个付元的代码(第一个代码是
其区码,第二个代码是其位码)。

a.横片Y、U、H、J、N、M键位上的24个付元:

    页YT    尤YR    犬YG    耳YF

    于UT    豕UR    厂UG    雨UF

    寸HT    酉HR    牙HG    西HF

    甫JT    无JR    大JG    吉JF

NT    车NR    丰NG    丁NF

    韦MT    戈MR    干MG    其MF

b.撇片T、R、G、F、B、V健位上的24个付元:

    饣TY    白TU    夊TH    瓜TJ

    鸟RY    气RU    斤RH    牛RJ

    儿GY    夕GU    用GH    身GJ

    鬼FY    千FU    毛FH    隹FJ

    匕BY    矢BU    氏BH    爪BJ

    舟VY    几VU    禾VH    臼VJ

c、竖片I、O、P、L键位上的16个付元:

    兄IW    非IQ    由IS    卜IA

    齿OW    小OQ    业OS    黑OA

    田PW    见PQ    巾PS    骨PA

    刂LW    止LQ    贝LS    LA

d、折片W、Q、S、A键位上的16个付元:

    艮WI    习WO    卩WP    肀WL

    马QI    已QO    又QP    子QL

    矛SI    也SO    弓SP    力SL

    疋AI    巴AO    皮AP    尸AL

e、点片C、D、E3个键位与Z键上的15个付元:

    穴CM    礻CN    米CB    广CV

    羊DM    文DN    立DB    鹿DV

    门EM    宀EN    户EB    方EV

    豸ZM    彳ZN ZB
上述确定95个付元的位码的“对偶位方法”是:横片上的前4个键位(顺序为Y、U、
H、J)分别为撇片各键位上顺序排列的对应付元的位码,而撇片上的前4个键位(顺
序为T、R、G、F),则分别为横片各键位上顺序排列的对应付元的位码,即横片与撇
片之间存在着“对偶位”关系;同样地,竖片上的4个键位(顺序为I、O、P、L)分别
为折片各键位上顺序排列的对应付元的位码,而折片上的4个键位(顺序为W、Q、S、
A)则分别为竖片各键位上顺序排列的对应付元的位码,即竖片与折片之间存在着“对
偶位”关系;点片上3个键位(C、D、E)和Z键上的顺序排列的诸付元,其位码分别
规定为键盘底行右端顺序的4个键位M、N、B、V。最后,余下“空着的”3个键位(顺
序为C、D、E),则规定为上述95个付元之外(即“超编”)的其余付元的位码。

超编的4个付元足、瓦、甲、申,规定将它们分别映射到以下键位:K(足)、Y (瓦),I(甲、申)。其位码,则由“空着的”3个点片键位C、D、E  顺序确定。 即,这4个付元的代码(区位码)分别是:

  足KC        瓦YC        甲IC        申ID

另外规定,与中文小写数字一——十对应的10个中文大写数字壹——拾,其代码 为相应的数字键位前加补码键Z,即:

  壹ZY      叁ZI      伍ZP      陆ZT      玖ZW      拾ZQ 这个规定是为了财会打字的方便。注意,这十个汉字不是码元。

C、编码规则:

编码方案的四大环节:码元筛选、码元映射、编码规则和拆字取元,是一个有机联 系的整体,各个环节相互配合,相互制约、相互影响、相互规定。其中,“编码规则” 是整个编码方案的灵魂和统领,它体现了编码方案的总体设计思想,在编码方案中起 着主导和决定性的作用。“码元筛选”、是编码方案的基础;“码元映射(赋值)” 是编码方案的关键技术,核心技术。“码元筛选”和“码元映射”对编码方案的成败 和水平的高低,起关键作用。“折字取元”则是红花绿叶式的辅助技术。

根据本发明,应用W原理,提出如下“编码规则”:

1、本身是码元的汉字,其编码就是该码元的代码(即高元的区码,付元、特元的 区位码),但主元汉字的编码应在其区码后加一个补码键Z。不是码元的汉字,编码时 必须先“拆字取元”。

2、每个汉字最多取它的4个码元参与编码,规定字头与字尾各取两元。每个汉字 尽量编成4个代码,规定字头与字尾各编两码。

3、若码元为汉字“首元”(即该汉字第一个笔画所在的码元),则其区、位码都 应参与编码;位于汉字其余部位的码元(即“余元”),则除特别规定外,一般只取 其区码参与编码。

4、当首元为二码元(即为特元或付元)时,该汉字的次元不参与编码(因为“字 头”二码的指标已用完);当汉字尾部只有一个码元时(即为二元字或首元是一码元 的三元字),则该码元的区位码要全部参与编码(因为“字尾”二码的指标应尽量用 完)。

5、全部由主元组成的二元字,其编码应在二个区码后加一个补码键Z。若汉字的 首元或尾元为高元且编码不足4码,则其编码为最后加补码键Z补足4码。

6、按该汉字的全部码元参与编码计算而超出4码者,则该汉字的横向重复部件(如
潜字的“夫”,翩字的“习”)可只取其中一个部件参与编码;繁复部件可“概括编码”
(即闭点、角撇、平直的笔画可省略;作部件的豆、回、 、及冂内有二元者,可分
别用指定的码元 、口、田及九代替)。

D、拆字取元:

在对汉字进行编码时,该汉字若不是成字码元,就必须首先拆分。根据本发明, “拆字取元”的规则如下:

1、按书写笔顺的次序进行拆字取元。若两个码元的笔顺互相交错,则第一个笔画
在先(先笔)的码元其次序应居前。例如:
  薄:艹氵甫寸;    燕:艹口 丬 匕灬;    夷:大弓;
  巫:工人人;      匠:匚斤;             垂:千艹二;

2、在规则1的前提下,拆字取元应符合“四优先”的规定。“拆字取元四优先” 的规定是:

a.最简优先。即最后拆成的码元数目应最少。如:
光: 兀,不拆成 一儿;    交:六乂,不拆成亠八乂;
赤:十 ,不拆成土 八;        衷:衣中,不拆成亠中
b.码元优先。这是相对于笔画而言的。如:
午:十,不拆成 丨;    敢:耳又,不拆成其他;
酋:丷酉,不拆成其他。

c.离、连优先。这是相对于笔画的相交而言的。如:
开:一艹,不拆成二     天:一大,不折成二人;
矢:大,不拆成 人。

d.一码元优先。这是相对于二码元(特元、付元)而言的。如:
失: 人,不拆成大;    生:土,不拆成其他;
朱:木;出: 山;      面:而  三。

另外,特别规定:夫:二人;未:二小;春:三人日;耒:三小。

3、以下几种特殊情况,“拆字取元”规则需变通进行:

a.辶、廴应提为该字首元:例如: 连:辶车;迢:辶刀口;建:廴聿;健:亻廴聿;莲:艹辶车。

b.衣合、 断:例如:
哀:衣口;      褒:衣亻口木;
栽:戈土木;    戢:戈口耳(不断开,码元将只能被拆散为笔画时)。

c.当码元戈、弋不是“左右偏旁结构的合体字”(如垡)的偏旁时,即当戈、
弋与其所连的部份构成一个汉字(如成、武)或此汉字又当作另一个大汉字的部件时
(如缄、斌),则戈、弋或置该小字之首(当置首后能成为整个大字的首元时。如感),
或置该小字之尾(其余情况。如撼)。例如:
咸:戈丿 ;    感:戈丿 心;    缄:纟丿 戈;    撼:扌丿 戈心;

垡:亻戈土;武:弋一止;斌:文一止弋。

E、诸编码要素的记忆方法:

本编码方案在全部编码要素的记忆上都采用十分独特的歌诀来帮助记忆。这些歌 诀字句整齐,有节奏、有押韵、有对仗,朗朗上口,极易记忆。有些歌诀还有内容、 有情节,更是好记。这是本编码方案能做到易学、易记、易用,实现“大众化”的重 要技术手段。诸歌诀如下:

1、编码规则: 每字最多取4元,字头字尾各2元;每字尽量取4码,字头字尾各2码。 首元全取区位码,余元一般留区码;首元二码次不取,字尾孤元尾全取。 不足4码要注意,首尾高元Z补满;超出4码应当心,重元取单繁概括。

2、拆字取元规则:
拆字遵笔顺,取元四优先。先笔应在前,特殊可变通。
衣合 时断,辶 廴要提头。戈、弋或首尾,全在非偏旁。

3、高元映射(区码): 我(W)你(N)他(T),爱(A)发(F)才(C), 民(M)及(J)之(V),可(K)了(L)的(D), 所(S)以(O)不(B)求(Q)一(Y)片(P), 而(E)是(U)和(H)向(X)如(R)在(Z)长(I)谷(G)。 歌诀理解:及:跟随;“一片”、“向如”为人名,“长谷”为地名。

4、主元映射(区码): 走(辶)园园(O),心(忄)忧忧(U);布(B)衣裳(衤),钩(V)鱼愁(鱼)。 九(J)江水(氵),开(K)开口(口);方(F)夫人(亻),拉(L)拉手(扌)。 大(D)树林(木),石(石)头桥(Q);金(钅)属钢(G),火(火)来熬(A)。 癣(X)是病(疒),禾(H)是草(艹);嫦(I)娥月(月),依(E)山倒(山)。 歌诀理解:上述歌诀16句,记忆16个主元的映射键位。其方法是利用键位声母所表 示的某一个单字与主元名称构成一个双字词,进而编成三字歌诀。用这种方法可使主 元无论映射到哪个键位,都可到相应的词汇和歌诀来记忆。上述歌诀内容不妨理解 为一个失恋者(其名为“布衣裳”)的悲怆形象,有了内容情节,就更加容易记忆。

另外10个主元,因是直接利用其名称的读音声母和键位字母的相合来映射,故编 如下记忆歌诀:

女(N)    王(W)    言(Y)    丝(S)    竹(Z),

土(T)    虫(C)    目(M)    日(R)    耳(P)。 歌诀中,“言”、“目”两字均作动词理解。另外,一定要牢记码元中具体是哪26个 码元规定为主元,这点极为重要,故编记忆歌诀如下:

日月金木水火土,女人耳目心口手。

石山花草鱼虫竹,赵王衣丝言病初。 歌诀理解:“花草”两字合指主元艹;“赵”字指主元辶;“衣”、“耳”两字分别指 主元衤、阝;“衣丝”是赵王的名字。“初”字是押韵用的虚设字。歌诀中26个字, 分别表示26个主元。

5、12个特元的映射(区码):
十二钗分明,钓(勹)鳖( )园口(口)井( )。
壮(丬)匠(匚)顺(川)仁义(乂),周(冂)冰(冫)攻(工)湖澎(彡)。
歌诀理解:第3、4句表示映射在键盘中行键位(自左向右顺序为A、S、D、F、G、H、
J、L。“口码键K”已在第2句叙述)的8个特元。

6、95个付元的区位码:

a.横片:
水浦(甫)无大桔(吉),      草(艹)村(寸)酒(酉)伢(牙)稀(西)。
一(高元)叶(页)尤狗(犬)耳,心于猪(豕)场(厂)雨。
女逗( )车丰丁,民(高元)讳(韦)戈干棋(其)。
歌诀理解:每句歌诀均由主元(或高元、数字特元)牵头,指示该句歌诀中后4个字
代表的4个付元所在的键位(即与主元同一区码);再通过4个付元在每句歌诀中的
排列次序,利用谐音和近形,巧妙地将包含一个主元字和4个付元字的5个字编成五
言歌诀,并且该歌诀字句整齐,有节奏、有押韵、有对仗,朗朗上口,极易记忆。例
如第2句表示,横片上的付元寸、酉、牙、西均在主元艹所在的键位上(即H键),
它们的区码均为H;这4个付元的位码,则根据横片和撇片的对偶关系,按照其排序,
分别是撇片上的前4个对应键位T、R、G、F。故这4个付元的区位码应是:

  寸HT      酉HR      牙HG      西HF 下面所有付元歌诀的理解均同此。

b.撇片: 日鸟气金(斤)牛,            鱼舟讥(几)禾舅(臼)。 人(亻)傀(鬼)纤(千)毛佳(隹),衣(衤)皆(匕)矢氏爪。 金儿名(夕)佣(用)身,        土饭(饣)白冬(夂)瓜。

c.竖片: 长兄非邮(由)仆(卜),五(数元)田见帅(巾)骨。 四龄齿小业黑,      手(扌)刀(刂)止贝虎()。

d.折片: 石马已双(又)子,        丝(纟)猫(矛)也张(弓)力。 火叔(疋)扒(巴)皮尼(尸),王娘(艮)习卫(卩)隶(肀)。

e.点片(含Z键):
虫穴示(礻)米广,    山门守(宀)户芳(方)。
木羊文立鹿,        竹()豹(豸 )行(彳)母( )量。
歌诀理解:第4句表示Z键上的主元和3个付元,尾字“量”是为押韵用的虚设字。

实际上,本编码方案的全部记忆量,就概括为以上的12首歌诀,理解和记住这12 首歌诀,就立刻能进行汉字编码。

F、多字词的编码:

规定:双字词和多字词的编码,每个词一律为4码,其编码均只取汉字的首元(若 2字词、3字词,也取汉字的次元)参与编码,且参与编码的码元均只取其区码。当规 定次元参与编码却没有次元时(即是成字码元时),应代之以该字的位码;若连位码 也没有时(即是高元字或成字主元时),则改为重复取其区码。具体是:

1、2字词:首元次元+首元次元

2、3字词:首元+首元+首元次元

3、4字词:首元+首元+首元+首元。

4、多于4字的词:首元+首元+首元(+……)+首元。 上述“+”号前后表示该词的前一个字与后一个字。

例如:中国  KMKW    中国人  KKFF    中国人民  KKFM    中国人民解放军  KKFG

G、本编码方案177个码元及其繁体、变体、近形元总表:

应用W原理,利用字根的变体和近形,对五、六百个字根进行大量的归并以及决
定不归并,最后只剩下137个字根作为码元,这是本发明成功的重要条件。因此,本
发明“码元集”中的码元,通常还包括该码元的变体、繁体及近形字根;即规定码元
的繁体、变体和近形字根,与该码元占用相同代码。例如:
码元氵,其变体元有水,氺,其近形有 ,以上诸字根,均与码元氵同代
码(J)。又如:
码元鸟,其繁体元鳥,近体元 ,它们均与码元鸟同代码(RY)。
口:              亻:人           扌:手            氵:水氺
木:              月:           土:(士)耂                 艹:廿廾丌
钅:金               忄:心        衤:衣                 纟:糹糸 (幺)
讠:言               :竹        目:                       虫:
鱼:魚               火:灬             山:彐                  日:
阝:                                  向:冋                        长:長镸
犬:犭               豕,         厂: 丆                 干:
尤:兀               丁:          丰:                  戈: (弋)(戋)
车:車
饣:食               匕:             儿:                   鸟:鳥
几:             夊:夊             爪:爫                       牛:牜
禾:           身:(自)           气: (缶)                   豸:癶
卜:             业 (亦)        刂:刀                   巾:
兄:
马:馬               力:             止:                肀:聿 尹
尸:              又:           疋:                 卩: 卩廴

文:攵               礻:示              户:                       羊: 
门:門
丨:上               丿:             丶:亠 :乙
十:               八: 丷          七:                   罒:四 (皿)
冫:            乂:乂              冂:冂 : 臣
彡:               工:         匚:                 小: (少)
厶               丬:爿 
:川 巛
注:1.括号( )内的字根,作汉字时应折分,再编码。

2.“代码集”中,凡没有繁体,变体及近形字根的码元,不再列入。

                           特点优点

本发明由于以本发明人提出的W原理为指导,编码方案完全遵照二万个实用汉字 的内在结构规律和汉字形码编码的内在规律,因而所获得的编码方案具有“科学、规 范、易学、高效”四大特点。

本编码方案的“编码基点”选择合理,编码规则极为简单明确、易学好用。在码 元映射(赋值)上,付元采用先依其首笔画分片映射,然后分别在各个片上进行“码 元相容性的聚类分析”。用这种方法确定付元区码,使我们能事先预见可能的重码字 并能子以规避,从而有效地克服了现有技术传统编码方案存在的巨大的“主观性”(完 全是事先人为主观硬性规定的码元映射)和“盲目性”(难以规避重码字,因为任何 微小的改动都会牵一发而动全身),因此能够有目的地、大幅度地降低重码率。主元 映射则采用先在整个键盘26个键位调整试验映射,然后依据主元的组字能力与键位效 率的匹配以及码元相容性来最后确定主元映射的键位(即区码),因而码元与键位的 匹配合理,效率高。对付元的位码,则精心设计一种“对偶位”的概念和方法,它简 便而有效,且能规避自身引起的重码,从而解决了“二码元的位码确定”和“系统性 重码”这两大难题。正因为采用以上关键技术,所以本发明的单字重码率极低(远远 低于当前的任何一种编码方案),并且编码要素的记忆量小。另外,本方案在编码的 各个环节,尤其是码元与代码的映射关系,对编码要素都采用十分独特的歌诀来帮助 记忆。这些歌诀字句整齐,有节奏、有押韵、有对仗,朗朗上口,极易记忆。有些歌 诀还有内容有情节,更是好记。这是本编码方案能够做到易学、易记、易用,实现“大 众化”的重要技术手段。对本编码方案,任何一个受过汉字正规教育的人,一个小时就 能全部学会、记住,并且全面进行应用。

本编码方案面对二万个实用汉字编码,而以七千个通用汉字为重点(即立足二万, 确保七千)。它的服务对象,定位为包括科技工作者、学者、作家、记者、编辑、秘 书和大中小学校的教师学生等在内的一切文字工作者,而非专业打字员。

                          附图说明和实施例

附图是本编码方案(命名为“SH码”)的177个码元的键位映射图。键盘上26个 拉丁字母(代码)表示26个键位(区)。每个键位上,上行的两个码元分别是主元和 高元,中行一个码元是特元,下行顺序排列的是付元。每个码元所在的键位(代码) 即是该码元的区码。特元的位码一律为特位键X;付元的位码由它在该键位4个付元中 的排序,通过“对偶位”来确定。以下实施例,分为成字码元,含主元、高元的汉字 的补码,首元为一码元(主元、高元)的汉字,首元为二码元(特元、付元)的汉字, 拆字需变通的汉字,编码需变通的汉字,共6类。可对照附图,按编码规则编码。

实施例1、成字码元的编码: 在Z   所S   之V   长I   是U   以O   和H   向X   谷G   如R   一Y 女NZ  日RZ  手LZ  竹ZZ  口KZ  系SZ  言YZ  心UZ  衣BZ  人FZ  水JZ 二UX  四OX  五PX  六TX  八EX  十QX        上MX  乙VX  工JX  川DX 犬YG  耳YF  吉JF        气RU  食TY  夕GU  匕BY 刀LW  小OQ        子QL  皮AP        示CN  方EV  彳ZN

实施例2、全部由主元构成或首尾是高元的汉字的编码: 汝JNZ   灶ATZ   疝XEZ   杏DKZ   全FWZ   朋IIZ 湘JDM   娟NKI   想DMU   蛔CKK   娃NTT 煲FKDA  痤XFFT  癌XKKE 开YHZZ  旦RYZZ  茹HRZZ  笈ZJZZ  辽OLZZ  容ENGZ  耐EHTZ 欲GLFZ  荷HFKZ  呸KBYZ  揸LDRY          痞XBK   研QYH

实施例3、首元是一码元的汉字的编码: 打LNF   岘EPQ   扒LEX    汇JSX          耍ENZZ  版PUQP 枝DQQP  抖LHQX  扮LELW          抬LCK   指LBR 掠LBKO  搭LHFN  揽LYZP  探LGED  撬LFFF  勤HKNS 擅LBRY  擀LQFM  澼JADQ  操LKKD  瀚JQFW  燕HKBA

实施例4、首元是二码元的汉字的编码: 独YGC   犰YGWX  狈YGLS  趿KCJZ  匠SXRH  壮AXT 猁YGVL  猜YGNI  猫YGHP  踹KCEE  匐ZXNP  鸪QXKR 猢YGKI  獐YGRQ  蹬KCZN  醇HRKQ  囤KXJC  淞HXEC 躜KCGL  躞KCAQ  獾YGKF  醪HRFL  馕TYHB

实施例5、拆字取元必须变通的汉字的编码:
衣合:裒BVJ  亵BLWB  襄BKKH
断:哉MRTK  戢MRKY  羲DMCM
戈弋或首尾:咸MRNN  感MRNU  缄SNNM  撼LNMU  垡FMT

        武MRYL  斌DNLM  腻IULM            畿MRSP 彧MRYL

实施例6、编码规则必须变通的汉字的编码: a、横向重元:替UXFR  潜JUFR    赞RJGL  攒LRGL  僰DGF

         丽YGBX(先删重元)  俪FYGB  酾HRYG  鹗KUCR

         蹑KCYQ  满JHGF    翩EBHW  腐CVFF(纵向不删)
b、作部件的豆、回、 及冂内二元者,可替代:

         橱DUNH  蹬KCZN          蔷HTEK

         窗CMNP(先替代)  粤PWYC  邋ODPD  憎UEPR

         谪YTWX  橘LSWX  惘UWX c、闭点、角撇、平直者、可省略(省略应置最后):

         液JBFT  骚QIQC  旃EVGY

         睾OXTD  傻FPET  奥GXCJ  鞴HCHG

         衍ZNJN  檬DHGU

本文发布于:2024-09-24 04:23:22,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/73054.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议