汉字表形符号和字素(即部件)分类编码法

著录项
  • CN85105556
  • 19860430
  • CN85105556
  • 19870603
  • 陈爱文;周静梓
  • 陈爱文;周静梓;叶芬弟
  • G06F3/023
  • G06F3/023

  • 上海市北京西路953号后门
  • 中国,CN,上海(31)
摘要
本发明属于汉字信息处理。有以下几种用途:一、作字典查字法。二、供计算机输入汉字。三、可做为电报代用码。其主要特点是:一、一套符号同时适用于字典编码和计算机编码。二、一套符号同时适用于简体字和繁体字。三、根据汉字部件的特征,建立部件分类系统。然后根据部件形状,选择最相象的符号,建立汉字表形符号。最后,利用符号之间的天然联系,把字典码的47个码元合并为电脑码的31个码元。
权利要求

1.权利要求:

前序:本发明所属技术领域为汉字信息处理,现有技术中和本发明同性质的汉字编码主要有:王永明的五笔字型编码法;支秉彝的“见字识码”;台湾宏基电脑公司的“仓颉字母”。这几种编码的归类方法不够严格,部件和代号之间的联系缺乏规律性,因而记忆负担重。

本发明的特征是:

1、本发明为汉字部件建立了分类系统,内容包括:

除双块对称类外,所有部件按“系、型、式、类”四级构成一个系统。

2、本发明把汉字的部件分类之后,在拉丁字母和数目字中选择形状相似的字母或数目字为代号。拉丁字母的形式有的是大写,有的是小写,有的是手写体。数目字的形式有的是阿拉伯字,有的是中国数字。字母、数目字的形状跟汉字部件相似的就采用,不象的就不用,当拉丁字母和数目字中没有符号可用时,就其它特殊符号(如 ),从而建立起一套汉字表形符号。

3、在设计字典码代号的同时考虑到电脑键盘的要求,把字典上的47个码元在电脑上合并为31个码元,利用拉丁字母中的大写、小写的联系,印刷体和手写体的联系,利用不同文字表示同一个数的联系(如“5”和“五”),还利用某些特殊符号和拉丁字母的联系(如 是S加两直,可并入S),用这样的办法把字典上较多的码元合并为电脑上较少的键。

说明书

一、技术领域:汉字信息处理

二、现有技术资料:

《汉字信息处理》、中国社会科学出版社出版。

李金凯:《计算机中文信息笔形编码法》,载《计算机学报》第四卷第四期。

《中文信息处理国际研讨会论文集》,中国中文信息研究会出版。

朱子龙:《天龙电脑中文字母输入法述评》、载《计算机世界》

1982年12月20日。

三、发明的目的:作为字典的查字法;供计算机输入汉字(包括日本汉字和朝鲜汉字);可作为电报的代用码。

四、发明的内容:

1.把汉字拆成若干部件(即字素),把部件进行分类,每一类部件用一个符号代表。有的汉字拆分部件以后,还有剩余的笔画不能纳入部件,因而还要把笔画进行分类,这种笔画也可称为“单笔部件”。每一类笔画也用一个符号代表。部件和笔画合称字素,全部字素的代号叫做“汉字表形符号”。这种编码方法叫做“字素(即部件)分类编码法”。

2.部件分为五十类,笔画分为六类,共用四十七个代号。这四十七个代号作为字典的编码,叫做“字典码”。这四十七个符号,有拉丁字母、数目字和几个特殊符号。拉丁字母中有大写、小写和手写体,如“L”和“l”,“H”和“h”,“X”和“x”;数目字中有中国数字和阿拉伯数字,如“五”和“5”。这些符号之间都有 固有的照应关系,如“H”和“h”为一组,“五”和“5”为一组。据此,这四十七个字典码在输入电脑时可以合并为三十一组,(二十六个拉丁字母和五个数目字),就是三十一个键,这就是电脑码。

3.汉字表形符号诸表如下:

表一:部件分类表第7页至第10页。

表二:笔画分类表第6页。

表三:汉字表形符号表:第11页。

表四:汉字部件系统表:第12页。

4.编码基本规则(字典码和电脑码的共同规则):

(1)、码位的次序根据笔顺,如“涟”:3(氵)、V(车)、Z(辶)。但是有的部件不是全部笔画一气写完的,而是中间插入其它部件的,这种情况下,当一个部件的第一笔出现时,就当作整个部件出现的位次。如“巫”,拆为“工、人、人”三个部件,“工”字先写两笔,然后写“人、人”,最后写“工”字的一横,“工”的位次就算第一个部件。

(2)、“戈”类部件的一横,如果向左伸长,上面下面有其它笔画,这一横要断开,当作两个横笔分别属于两个部件,如“ ”,应拆为“口、耳、戈”,“武”应拆为“二、止、弋”。

(3)、封闭式、交叉式、三面包围、二面包围式,是一个稳固的结构,不可以拆开。如“白”只能拆成“丿、日”,不可拆成“ 、彐”;“牛”只能拆成“丿、 ”,不可拆成“、十”;“ ”只能拆成“丿、冂”,不可拆成“亻、”;“万”只能拆成“一、 ”,不可拆成“ 、”;“令”只可拆成“人、丶、”,不可拆成“人、 、丶”。因为“日”是封闭式,“ ”是交叉式,“冂、 、” 是三面包围式。

(4).除上述规定外,在连续的黏连关系和分离关系的笔画中,都优先服从上面部件的需要,如“交”拆成“六、×”、不拆成“亠、父”;“辛”拆作“立、十”、不拆成“ 、干”。

5.电脑码的规则

(1)、单码位字。一个字只有一个部件或笔画,叫做单码字。它的编码,除部件、笔画代号外,再加上这个字的声母第一字母和韵母第一个字母。表示读音的字母叫读音码位,如“木、未、末”都是单码字,部件代号都是M,单独一个M是字典码。电脑码要加上读音码位,“木”是MMu,“未”是MWEO,“末”是MMO。

(2)、二码位字,除部件代号外,再加一个读音码位,並且重复一次。如“玫”,拆为“王、攵”,字典码是“五A”,读音码位是“M”、电脑码是“五AMM”。在电脑上输入时,如果操作者不知道这个字的读音,读音码位用“??”代替,这时电脑上把所有“五A”的二码位字显示出来,以供选择。

(3)、三码位,在家用电脑上就用三个码位。在要求减少重码字的专业电脑上,可以再加一个读音码位。如“茄”,拆为“艹、力、口”,字典码和家用电脑码都是“HXO”。“茄”的读音码位是“Q”,专业电脑码是“HXOQ”。如果操作者不知道这个字的读音,也用?代替,有重码字时进行屏幕选择。

(4)、四码位字不加读音码位,电脑码和字典码同。

(5)、五码位以上的字,取第一、二、三码位和末码,如“襄”拆为“亠、口、口、 、丿、K”,字典码为“200 PK”,电脑码为“200K”。

(6)、如果一个字的前部是“鱼、走、骨、雨”等部首,要把这些部首的代号进行压缩,办法是:取第一个部件代号,重复一次,把其余的部件代号省掉。“鱼”用“nn”代表,“走”用“YY”代表,“骨”用“nn”代表,“雨”用“EE”代表,然后再取剩余部分的第一个部件和最后一个部件。举例如下:

(7)、繁体字和简体字共容的问题,用如下方法处理:

几个字数较多的偏旁,“言(讠)、金(钅)、食(饣)、 (车)、糹(纟)、 (马)”,分别存于繁、简两个字库,不共容。用户要用简体字就用简体字库,要用繁体字就用繁体字库,部件代号和简体相同。“言、讠”都是i,“金、钅”都是Z,“食、饣”都是S,“糹、纟”都是W,“馬、马”都是5,“車、车”都是“V”。在储存量大的字库中,也可以共容,用功能键分开,使用简体字时按简体键;用繁体字时,按繁体键。当这些字不作为左偏旁时,照原来的编码规则打字。

其它的繁体字和简体字共存于一个字库,分别按照自己的字形进行拆字,编码。如:

在特殊用途的字库中(如图书馆用字),要求繁简体用同一编码时,将最长码位增加到五码(超过五码的字,取第一至四码及末码)。繁体偏旁用复码表示,如下表:

6.这套编码作为字典码时,中国汉字、日本汉字、朝鲜汉字都可通用。作为电脑码时,把读音码位换成日语读音的第一个字母(日语罗马字),就成为日本汉字的电脑码;把读音码位换成朝鲜语读音 的第一个字母(朝语罗马字),就成为南朝鲜汉字的电脑码。

7.电报代用码的规则

现有的电报编码,从字查码很不方便,有时急切查不到字。如果有一套跟字典、电脑统一使用的电报代用码,就要方便得多。

电报代用码采用电脑码的编码。电脑码中有几十个重码字,列成一张重码字表备查。每组重码字中,每个字再加上一个数目字互相区别,如“晾”、“景”,编码同为“D203”,可规定“晾”的电报码为“D203①”,“景”的电报码为“D203②”。

五、本发明的优点

1.本编码是在汉字部件的分类系统的基础上建立起来的,反映了汉字字形的客观规律,可以跟识字教育结合起来,因而学习、使用都很方便。

2.这种编码可以同时适用于简体字和繁体字。

3.这一套符号可以兼作字典码和电脑码,必要时还可以临时作为电报代用码,用途广泛,有利于在人们头脑中建立起一套汉字结构拆分的观念。这种观念的形成,是走向“中文电脑化”的第一步。

4.这套编码还可以适用于日本汉字和朝鲜汉字。

汉字表形符号

部件分类代号及笔画分类代号,合称“汉字表形符号”。

汉字表形符号共47个。在电脑输入时,可以合并为31个键。

汉字表形符号的名称和次序,以及47个代号合并为31个键

的关系,列表于下:

本文发布于:2024-09-23 16:25:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/73388.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议