正维数字输入汉字的方法

著录项
  • CN200610114826.6
  • 20060810
  • CN101122818
  • 20080213
  • 陶振维
  • 陶振维
  • G06F3/023
  • G06F3/023

  • 澳大利亚悉尼
  • 澳大利亚,AU
  • 中国专利代理(香港)有限公司
  • 王庆海;刘杰
摘要
本发明在研究汉字、字母与数字三者之间形和义关联的基础上,采用面向字类对象编程的方式,用字母和单引号’作编码元来定义汉字的基本笔画和类结构。汉字的各个编码则是用这些编码元和类结构对具体对象的描述和组构。本发明的编码设计把汉字、字母和数字三者的形状或字义联系在一起,开发了一个更为简便和有效的汉字、字母与数字之间的对照关系,使汉字书写形式与数字直接相对应。采用本发明的数字输入汉字方法,在计算机及其它智能产品上输入汉字比输入西方字母文字更为简便、快速和高效,使中文输入处于领先于西方文字输入的地位。
权利要求

1.一种计算机汉字编码方法,在计算机键盘或智能产品上用字母 输入汉字,或转换为数字输入汉字,所述方法包括:

分类步骤:采用面向字类对象编程的方式,用26个英文字母和单 引号’定义汉字的基本笔画元、行为元和类结构共83个基本字根笔画; 其中每个字母代表两个或三个基本笔画元共58个,各字母与u配对代 表一个基本笔画或常用汉字共25个;基本字根笔画构成本发明编码中 文采用的计算机键盘布局(图一);在面向字类对象编码的基础上,转 换字母和单引号’为数字1至9的数字作输入代码;

输入步骤:各个汉字的编码是用这些面向字类对象的编码元和类 结构对具体对象的描述和仿构;本方法的文字输入分为字母输入和数 字输入两种;用字母输入是根据汉字的结构依汉字的书写顺序,用基本 笔画元和类结构的组合仿写代码输入单个汉字和用缩略编码输入汉字 词组;用数字输入是以本方法的字母编码为基础,用本发明的字母与数 字对照关系转换成数字,按“头5尾1”缩略方案输入单个汉字和用汉 字词组的缩略编码转换成数字输入汉字词组。

2.如权利要求1的计算机汉字编码方法,其中的分类步骤用字母 的大小写形状代表与其象形的汉字或笔画组合,它们是字类的基本成 员。

3.如权利要求1的计算机汉字编码方法,其中的分类步骤除用字 母形状代表与其象形的汉字或笔画组合外,少量字母采用转借英文中 的某种用法或采用指定的方式,定义汉字笔画作为字类的基本成员。

4.如权利要求1的计算机汉字编码方法,有的字母除了表示某个 笔画外,还用其字形或字义表达笔画间的某种关系;它们是字类结构 的行为算子。

6.如权利要求4的计算机汉字编码方法,其中配对关系算子是u; 任一字母加上后缀u构成新字画,派对与第一个字母的笔形一般具有 某种联系;它们或者表示同类中的一个常用字根或笔画的延续;或者 表示与发音相吻合的笔画。

7.如权利要求4的计算机汉字编码方法,其中表示单字母笔画重 复的算子是s。

8.如权利要求4的计算机汉字编码方法,其中表示多字母笔画字 根的二重复算子是M;Ms为字根的三重复,Mm为字根的四重复。

9.如权利要求4的计算机汉字编码方法,其中s和M有时也表示 汉字笔画的镜/平面对称。

10.如权利要求4的计算机汉字编码方法,其中表示汉字笔画相 交关系算子是f,t,和x。

5.如权利要求1的计算机汉字编码方法,利用汉字部首的分类特 性,用字母定义常用的部首类结构作为基本笔画;形状相异但同属一 类的部首归并为相同的编码(如:人亻/R)。

11.如权利要求1的计算机汉字编码方法,除字母和配对笔画定 义的汉字和部首外,其余部首和汉字的编码则是用这些基本笔画对具 体对象的描述和仿构。

12.如权利要求1的计算机汉字编码方法,其中的分类步骤中, 汉字的编码按无重码设计。

13.如权利要求12的计算机汉字编码方法,把具有相同编码的汉 字字根在单独使用时加以区别,采用在不常用字根的本发明编码后加 区别字符的方法。

15.如权利要求13或14的计算机汉字编码方法,其中当编码仅 为一个字母时所加区别字符是单引号’,编码为多个字母时所加区别 字符是j。

14.如权利要求12的计算机汉字编码方法,如果汉字在写法和笔 画顺序上完全相同,只是笔画位置上有差异,所采用的区分办法仍然 是在不常用字的本发明编码后加区别字符。

16.如权利要求1的计算机汉字编码方法,其中当一个汉字有多 个可能的编码时,采用以下规则选取编码:

如果一个汉字或笔画组合所对应的字母或配对已列入键盘,则总 是选用已定义的最简单字母表达;

如果一个汉字或笔画组合图案已定义为一个字根笔型或部首,则 总是应用基本字根或部首的字母单词来代表它的本发明编码,而不是 用其它方式重构;

一个汉字无论其单独存在或隶属于某个其它汉字块中,当这个汉 字可以用树干结构或者其它形式表达,并且所用字母个数相同时,则 总是用树干结构的字母来表达它,以突出映射字形主干和轮廊;

如果一个汉字可能有多种方案用字母象形地去仿构时,总是选取 所用字母数较少的表达。

17.如权利要求1的计算机汉字编码方法,其中的分类步骤中, 多笔画汉字部首和少数多笔画而常用的汉字可以进行简略编码,采用 “头二尾一”方案,即:前二位与不简略的编码原码相同,简略码的 第三位则选用编码的最后一个字母符。

18.如权利要求1的计算机汉字编码方法,其中字母形状匹配汉 字所形成的编码构成一种表达汉字的字母书写文字。

19.如权利要求1的计算机汉字编码方法,其中的分类步骤中, 汉字行政区域、地名的编码可以进行简略编码,采用“头二头一”方 案,即:第一个汉字的头两个不简略编码字母和第二个汉字的第一个 不简略编码字母。

20.如权利要求1的计算机汉字编码方法,其中词组输入的规则 如下:

两字词组的输入:采用头三+头二尾一方案,即:每个汉字的编码 长度不大于三,取第一个字编码的头三个字加上第二个汉字编码的头 二个字与最末一个字符;

三字或三字以上词组的输入:采用头三+头二+头一[+头一...]方 案,即:第一个汉字的编码不大于三个,取其编码的头三个字符;第 二个汉字的编码不大于二,取其编码的头二个字符;自第三个汉字以 后每个汉字取其编码的第一个字符。

21.如权利要求1的计算机汉字编码方法,输入工作状态有简体、 繁体和英文三种,其中以简体中文输入工作状态为主体;在简体中文 输入状态下,混合输入汉字简体、繁体和英文而无须切换工作状态。

22.如权利要求21的计算机汉字编码方法,一个字的繁、简体的 编码相同;其中区别中文繁、简体字如同区分字母的大小写形式一样; 在简体中文输入工作状态下输入简体字用编码加SPACE键,而输入繁 体字用编码加SHIFT键。

23.如权利要求21的计算机汉字编码方法,其中在中文输入工作 状态下字母符号的输入用一个前缀符号“_”加所要输入的字母。

24.如权利要求1的计算机汉字输入编码方法,其中数字输入汉 字是将本发明的汉字编码字符(’,a,b,...,z)转换成数字(1,2,..., 9)作输入代码。

26.如权利要求24的计算机汉字编码方法,其中转换关系可直接 采用国际通用字母数字对照:1’,2abc,3def,4ghi,5jkl,6 mno,7pqrs,8tuv,9wxyz。

27.如权利要求24的计算机汉字编码方法,其中一个有效和符合 汉字书写形式的字母、数字对照关系采用正维数码-字母对照,即:1 ael’,2mvu,3ijw,4ftx,5hns,6bcd,7gyz,8ko,9pqr。

28.如权利要求27的计算机汉字编码方法,其中记忆字母与数字 对照的“数风流”口诀是:1汉2帮言点3,交4扭5笔顺6,7折8 扣人阜9,汉方英姿数风流。

25.如权利要求1的计算机汉字输入编码方法,其中数字输入文 字不可避免有重码数字出现;挑选下一个重复数字的功能键用数字0;

29.如权利要求1的计算机汉字编码方法,采用缩略编码作为数 码输入代码,以提高数码输入文字的速度。

30.如权利要求29的计算机汉字编码方法,单字输入的缩略编码 采用“头5尾1”方案;即汉字的数码长度不大于6位数字;当长度大 于6时,采用汉字形配编码的头5个和最后1个字母的数字转换作代 码。

31.如权利要求29的计算机汉字编码方法,词组输入按权利要求 20构词规则生成词组的缩略码,转换词组缩略码为数字作输入代码。

32.如权利要求1的计算机汉字编码方法,其中汉字、数字和其 它可打印字符的混合输入,无须工作状态往返切换。

33.如权利要求32的计算机汉字编码方法,计算机键盘上所有字 符,除用作数字输入法的数字外,均按常规可以直接键入编辑文本中; 要在编辑文本中输入数字符号(0,1,...,9),用一个关键字符(如 ‘_’)再加数字串。

34.如权利要求32的计算机汉字编码方法,在正维数字输入中文 模式下,按下计算机键盘的NumLK键,键盘左侧的字母健、数字键和 符号键等,与输入字母文字的键盘字符完全一致;键盘右侧的数字键 则用作中文输入;NumLK区域的“.Del”键作为附加的“SPACE”功 能键;用“SPACE”,或“.Del”键可将侯选窗口的第一行字/词输入 到文本中。

35.如权利要求32的计算机汉字编码方法,在正维数字输入法除 了对汉字进行编码外,其它可打印自定义字符也可采用数字编码方式 输入;即用数字码也可输入字母、数字、标点等符号。

36.如权利要求32的计算机汉字编码方法,在正维数字输入中文 模式下,还设有表格输入子模式。

37.如权利要求36的计算机汉字编码方法,其中进入表格输入子 模式用一个指定的起始三位数;进入表格输入模式后,每输入两个数 字可输入一个或一组字符;而退出表格输入子模式用另一个两位的关 键数字。

38.如权利要求36的计算机汉字编码方法,其中进入表格输入子 模式用关键数字139;用户也可以在输入法设定中更改进入表格输入子 模式的三位关键数字;退出表格输入子模式用关键数字00。

39.如权利要求36的计算机汉字编码方法,其中表格输入子模式 用的表格可以由用户自行编辑和设定打印字符。

40.如权利要求1的计算机汉字输入编码方法,其中用字母或数 字输入汉字都具有编辑自定义字/词功能;为用户提供自定义词组的备 份与恢复服务。

41.如权利要求1的计算机汉字输入编码方法,其中用字母或数 字输入汉字都具有高频先见功能;具有为用户智能地记忆曾经录入过 的词汇,并不断根据用户的输入量调整各个字、词的频率和动态次序; 以后输入到相关编码时,提示窗口实现高频先见功能。

说明书
技术领域

技术领域

本发明涉及一种计算机中文输入编码方法。确切地说,本发明是 发明人原有发明《字母形状匹配汉字输入方法》基础上的新发展。本 发明的方法不仅仅涉及更为优化的形状匹配汉字编码设计和更为有效 的字母输入中文方法;还介绍形配编码、数字与汉字三者之间形和义的 关联,以及以形配编码字母为基础,采用数字键将汉字输入计算机或 其它智能装置(如手提电话、个人数字助理等)的方法。

背景技术

中国语言属于非拉丁语系,其书写字符为汉字。一个汉字是代表 某种概念或物体的抽象符号。汉字的图形表达是笔画在二维方块中的 造形,而笔画则是笔在纸上书写时的一次勾画。中文字量庞大,字典 中收录的汉字有的多达5万个以上。为了方便学习与记忆,汉字按部 首分类,最常用编排汉字的方法是采用部首排序法。字典中的汉字排 列首先按部首分类,其次按笔画数,然后再按基本笔画次序。汉语拼 音排序法则是按拼音字母顺序,语音声调以及笔画次序等。一般而言, 汉字的书写形式和排序结构与拉丁文字相比要复杂许多。

尽管汉文书写复杂,但它是一种表形传意先进的文字系统。汉字 的形成来源于它所描绘的物体和它要表达的意思。经过不断的简化和 抽象,汉字外形逐渐演化,一个字成为中文发音的一个音节并传达某 种意思。外形上看现代与古代汉字相比有着很大的差异,但是每个汉 字都是代表某种抽象物体或意念的特征则没有改变。汉字是一种表 形、达意和形声结合的文字,是一种面向对象的人类高级形式的文字 (Object-Oriented Human Advanced Notation-OOHAN)。

图形汉字具有很强地重复使用特性,它表形达意、形声结合,是 一种十分优异的二维图形式文字系统。然而,汉字的应用在计算机资 讯时代面临着巨大挑战。文字的键盘输入是一维的时序方式,采用一 维字母音序为基础的文字输入则十分吻合。计算机采用ASCII七位编 码代表128个字母符,该系统处理英文字符相当方便。另一种编码是 ANSI八位系统,它有256个字符包括欧洲所有语言的字母。与字母文 字相比较,中文在计算机科学中的状况却不是那么幸运。因为中文字 库的基本字符庞大,很难想象用一个键盘可以包含所有汉字而又能方 便地掌握这样的键盘。文字输入是一种最常用的人与计算机或其它智 能产品的对话手段,然而中文在这一领域面临着唯一严峻挑战。文字 输入主要地采用两种方式:字母键输入和数字键(0,1,...,9)输入。

用字母输入中文的方法已经有多种,主要地有三类。

一种方法是采用以一维音序为基础的汉语拼音法。拼音字母输入 法只需要很少训练就能使用,但是使用者必须准确掌握标准发音。而 掌握发音则是一个长时期的学习过程,况且汉语中许多是同音字,即 一音多字。在拼音字母输入过程中要依赖视觉感官从众多的同音字中 查所需汉字,因而输入速度慢。

第二种输入法是以汉字的字形为依据。例如五笔字型输入方法, 它用字母去代替一百八十余汉字部首,并将字母键分为五个区域。使 用者一般根据五笔结构规则,用字母所代表的字根去组构汉字作为输 入。这种输入方法的主要缺点是重码多、记忆量大以及培训费时。一 个字母要代表多个字根,而且字母与它所代表的字根之间基本没有任 何意义上的关联。

第三种中文输入方法基本上是对上述两种方法加之以某种技巧的 综合和改进。

随着信息技术的进步和发展,计算机智能产品体积小、功能强, 文字输入往往采用数字键方式。例如,利用移动电话传送短讯或打开 等。用数字键输入文字的方法是将字母、标记(如标点符号 等)和功能键(如选项++)对应于0至9的数字键,其输入方式主要 地有两类。

其一是采用重复按同一个数字键挑选所代表的某个字母。国际通 用的字母与数字键之间的对照关系见表一。

表一.标准数码-字母对照表

这种方式的优点是记忆体少,是一种“头脑”简单的笨办法。这 种方法的按键次数多,输入速度慢。例如:输入some的按键系列是 7777-666-6-33,需要输入10个数字键。这种方式不适用于输入汉字。

数字输入文字的另一个常用方法是增加字词库记忆体,采用单字 母单数字输入和重复字用功能键挑选的方式,如T9方法。这种方法输 入速度快,是一种较为有效的方式。例如,some和pond的输入数码 都是7663,每个字母只须按一次数字键,单词输入完后再用功能键(0 键)选取所需要的字。

这种T9数字输入方法同样可以应用于汉字输入。但是现有的拼 音、笔型和拼音-笔型混用的字母输入都包含有大量的重码。再将它们 转换成小字符集的数字,其重码量更是递增,因而输入效率低下。五 笔字型字母输入法的发明者于2005年提出一个系列式的数字输入方 法,把数字输入中文从简单到困难分为5个等级。这种把输入方法多 层分级方式,使学习费时而不易全面掌握。况且,一条简短的短讯发 送根本就难以避免较‘难’字的出现。

汉字是一种面向对象的文字,一种优异的二维图形文字,人的视 觉读入图形文字十分有效,易于识别和记忆。然而,现有的计算机技 术在并行处理图形的输入方面仍然十分笨拙。一般说,采用现有的中 文输入法(字母、数字或书写图形方式)都相当复杂,不便于中文计 算机的广泛普及和深入应用。特别是对于一个以汉语为第二语言的外 国人,现行的以发音,字形或混合应用为依据的汉字输入方法对他(她) 们更是另人头痛而难以掌握。

本发明人在专利申请文献《字母形状匹配汉字输入方法》中提出 一种汉字输入编码方法,用英文字母简易而有效地代表汉字。只须经 过简单处理,形配编码可实现无重码设计,在计算机中文输入过程中 可以不依赖视觉的帮助实现盲打输入。按无重码设计的形配编码直接 转换到数字码的重码数量远比其它方法要少。为了更为有效地采用字 母或数字输入中文,本发明《正维数字输入汉字的方法》在原有《字 母形状匹配汉字输入方法》的基础上提出新的编码设计方法。在新的 形配编码设计中把字母、数字和汉字的形和义相结合。采用本发明的 形配编码既可用字母作中文输入,又可以将形配字母转换成数字输入 中文,还可以按形配编码字母顺序编排汉语字典,实现一码多用、快 速准确地输入或搜寻汉字。

发明内容

根据本发明的一个方面,提供一种计算机或智能产品的汉字输入 编码,该编码既可用于字母输入汉字又可简便地转换字母为数字输入 汉字。所述方法包括如下步骤。

分类步骤:采用面向字类对象编程的方式,用26个英文字母和单 引号’定义汉字的基本笔画元、行为元和类结构。而这些字母和各字母 加后缀u配对所代表的笔画组成汉字编码的基本字根笔画。在面向字 类对象编码的基础上,本发明给出一个适应汉字书写特征的字母与数 字转换关系,将字母转换成为数字输入码。

输入步骤:各个汉字的编码是用这些面向字类对象的编码元和类 结构对具体对象的描述和组构。文字输入是根据汉字的结构依汉字的 书写顺序,用形配基本字根组合的代码字母输入该汉字;或根据汉字 书写形式与数字的形或义相对应用数字输入该汉字。

附图说明

图1是计算机的键盘布局的示意图,

图2是手机的键盘布局的示意图。

具体实施方式

本发明在研究汉字、字母与数字三者之间形与义关联的基础上, 以汉字的形配编码字母为基础,给出一个字母与数字对照关系,从而 用数字键将汉字输入计算机或其它智能装置(如手提电话、个人数字 助理等)。

(一)本发明采用的字母形状匹配汉字编码方法

英语是一种以语音为基础的字母文字,用字母作计算机输入易于 学习,使用方便,高效而准确。中文则是一种象征符号文字。构成中 文字的三要素是形、声和意,其表达在于清晰明澈,其记忆容易和适 用于不同的发音方言。本发明吸收字母和象征文字两者的优点,提出 一种中西合壁的方式用字母外形对汉字进行编码输入的方法。

汉字是一种面向对象的文字,一种优异的二维图形文字。本发明 的主导思想是探寻一种简单易学的方法,采用面向字类对象编程的方 式,用字母和单引号’作编码元来定义汉字的基本笔画和类结构。而一 个汉字的编码则是用这些编码元和类结构对具体对象的描述和组构。

在面向对象的编码设计中,用英文字母和单引号’作编码元定义汉 字类结构的基本成员为:以象形为主体的笔画,关联行为算子和部分 部首类结构。

象形:用字母的大小写形状代表与其相似的汉字或笔画,即一个
字母一般代表两个笔画,个别的可代表三个笔画(如人亻/R);单
引符号’代表汉字笔画的上方点。这里,字母和单引符号’是字类的基本
成员。它们中大多数为象形,如:/A,匕/b,日/B,/C,乂/X,
ノ/y,乙/z,讠/i,口/o和弋/t’等。个别的用“转借”方式,引用
英文中的某种用法代表汉字的某个笔画,如一/a,王/k(扑克牌的老K
为王);以及用指定,如千/G、ヨ/Q和疒/D(Disaster)。

关联:有的字母除了表示某个笔画外,还用其字形或字义表达笔 画间的某种关系。它们是字类结构的行为算子。

●u:配对关系算子。任一字母加上后缀u构成新字画,派对与
第一个字母的笔形一般具有某种联系。(1)表示同类中的一个常用字
根或笔画的延续,如/A与俞/au,ナ/f与大/fu等。(2)笔画与发
音相吻合:不/bu,鹿/lu,母/mu和甫/pu。

●s:重复关系算子。s表示汉字笔画的字母重复,例如:一/a, 二/as和三/ass;丿/y和彡/yss。

●M(multiple):作汉字字根的双重复,Ms为三重复,Mm为四 重复。例如:火/vR,炎/vRM,焱/vRMs,燚/vRMm。

●M和s有时也表示汉字笔画的镜/平面对称。如:Q/ヨ与Qs/臼,
癶/fs,卌/Hs,井/ks,和非/fes等;以及木/tm与樊/tmMXsfu,手
/Gf与搿/GfMAao等,这里,合/Aao。

●f、x:相交关系算子。字母x与f除了表示笔画十/x与ナ/f 外,在编码中也用于表示前后笔画有相交。如:引/Sl与弗/Sfl,贝 /NR与内/NxR,录/Qvk与隶/Qxvk。

类别:汉字部首具有对字形分类的特征。本编码的基本字根是字 母和配对字母定义的笔画,它们中大部分是汉字的部首。在汉字部首 分类的基础上本编码把它们进一步合并与简化,对一些同类或相似笔 画赋予同一的编码。如:刀/q,己巳/eu、礻示/jm和爫爪/yW等。 一些多笔画的部首则是编码的基本字根的组合和仿构。

为了使对字母形状匹配汉字方法有一个概略性的了解,本发明提 供下述《中西配》口诀:

a横e点i言部,o口y撇1笔竖;

M乘方舟s共福,u随阿哥请汉佛。

汉字最基本的是起始笔画横(一)、直(丨)、撇(丿)、点(丶)、 折(包括乛、、乚、乙)。因为中文字量庞大和许多汉字的笔画繁多, 只用为数极少的起始笔画检索或输入汉字显然非常困难。为了方便学 习与记忆,汉字按部首分类,经简化后的部首有一百八十九个。但是, 经缩减后的部首字符集仍然太大,在计算机文字输入中直接采用现有 的部首字符集仍然面临许多困难。

在字母形状匹配汉字方法中,采用26个字母和单引号的字符集。 汉字结构基本成员中所定义的各个字母和各字母加后缀u配对所代表 的笔画构成形配编码的基本字根笔画共83个。其中每个字母代表两个 或三个基本笔画元共58个,各字母与u配对代表一个基本笔画或常用 汉字共25个。基本字根笔画的主体是汉字部首,如表二所示。

表二.形配编码的基本字根笔画表


编辑本发明编码的实例

除表二基本字根中包含的汉字部首外,其余汉字部首的编码则是 用这些基本字根对具体对象的描述和组构,如表三所示。

表三.基本字根以外的部首形配编码


表中*号所标记的是采用“头二尾一”缩略编码。

以表二中78个基本字根为基础,可以方便地扩展应用于其余部首 (表三)。而各个汉字的编码则是这些编码元和部首类结构对具体字 的描述与应用。例如:

和(禾.口/Gm.o)谐(讠.比.白/i.bs.eB)社(礻.土/jm.xa)
会(云/A.aze)。

形配编码按无重码设计,为实现编码的唯一性,类同中的字根单
独使用时,采用加后缀符号的方法以示区别。单字母表示的字根用单
引号’作后缀,如:刀/q与/q’。多字母的字根在输入法中则采用
加后缀字母(如j):己/eu和巳/euj。本发明的编码作计算机输入时
只用小写字母,为了保证编码的唯一性,仍然用加后缀符号(如母j)。
例如,形配编码叶/ox与田/Ox,键入计算机时用叶/ox与田/oxj。当
然,在书写中采用大小写字母可以清晰表达笔画,英汉字的可识别性
较强。例如“人”下有物的字符的编码为A,与a/一和o/口构成汉
字‘合’,其形状匹配编码是Aao。尽管在键入′合′字时只用小写字母
aao,显然在人为观察时用Aao可以清晰映现‘合’字原形。

形配编码的笔顺规则

许多汉字的结构是相当复杂的,把一个汉字转换成字母需要在一 定的笔顺规则和构字规则的指导下完成。中文字是笔画在二维空间的 构图。书写汉字笔画有先后顺序,撑握好中文的笔画规律对赋予汉字 以正确的字母符有着直接关联。汉字的笔画顺序与它的结构有关,本 发明的编码的字母个数和顺序与其对应汉字的笔画和顺序有关。

形配码的形成基本遵循汉字书写的一般规则:笔画从上至下,从 左到右和先撇后捺。

形配方法用字母所表征的笔画一般是汉字基本笔画的组合,有的 字母代表汉字的包围、角边和主干框架结构。为了与汉字部首分类相 吻合和提高对编码的逆向可识别性,形配编码的笔顺规则略有增补和 改变:

●先边框后框内:断/LvtmjT,进/iLks,廷/zLGa,因/Ofu,山 /Ul,同/Nao。

●先树干再其它:t:木/tm,未/tam,末/tem,来/tvam;T:干 /Ta,平/Tva;G:千/G,禾/Gm,乎/Gv,乖/Gdb;Y:羊/Yaz,美/Yazfu, 屰/Yau。

编码构成规则

汉字的外形结构复杂,可利用的字母形状又十分有限,字母仿构 汉字只能模糊而抽象。一个汉字可能有多种方案用字母象形地去仿 构,形配码的形成不是从众多选项中随意挑选,而是有章可循。它们 遵从如下的构成规则:

●字根模式规范性:以形配编码的字根笔画和它们的组合应用部 首字根为规范标准,总是选用已定义的规范笔型的最简短形式组构汉 字。如‘大’的形配码是fu,而不用ナ/f和笔画捺乀/uu来组构。

●主干框架突现性:优先选用树干和框架结构的字母来组构形配 码以突出映射字形的主干和轮廊。如:‘干’的形配码是Ta,而不用 一/a与十/x来组构。

●位置关系明透性:M、s在本编码中作为笔画重复或平面对称作 用算子,如双/axM和品/oss。字母x与f除了表示笔画十/x与ナ/f 外,有的在编码中用于表示前后笔画有相交。如:引/Sl与弗/Sfl, 贝/NR与内/NxR。

采用面向对象的汉字编码方式,形码字根重复使用,组构灵活。 形配编码不仅仅是一种汉字数字化的传译代码,字母码形本身还包含 有丰富的内函。它可以表达与传递汉字的类、形、声、势(位置关系) 等信息,从而易于学习、记忆、掌握和应用。由于按无量码设计,形 配编码还具有很强的逆向鉴识特性,可实现由码源到汉字的一一对 映。如:Aao Gmo fu Nao,Om wrmu a enJvk/合和大同,四海一家。 现有的其它形式编码,包括汉语拼音方案在内,都不具有逆向鉴识的 唯一性。

为了帮助记忆,字母和二字母配对所表征的字根笔画可以刻印在 计算机键盘上。在每个按键字母的右侧,右下侧和下侧分别标记字母 的大写,小写和该字母与u配对所代表的笔画或汉字。本发明编码中 文采用的计算机键盘布局如图一所示。

本发明的字母输入中文计算机软件

1)无重码中文输入法

形配编码字母的大小写所表示的笔画有所不同,但大小写字母差 异对鉴别一个汉字的影响非常小。书写中采用大小写字母可以清晰表 达笔画,但作中文输入时只用小写字母形式。形配输入法按无重码设 计,用附加后辍(如j)的方法避免可能的编码重叠。例如,汉字编码 “叶/ox”与“田/Ox”,作计算机输入时则用“叶/ox”和“田/oxj”。

2)中文为主体,混合输入无须工作状态往返切换

形状匹配汉字输入法的设计是以中文简体工作状态为主体。在汉 字输入状态下,形配输入法可以方便地混合键入中文简体、繁体和字 母文字而不须工作状态往返切换。

●中文简体、繁体字输入

形配编码处理汉字繁简体的方式等同于字母文字大写与小写形 式,即:编码+空格键(或数字)=》输入简体汉字;而用编码+SHIFT 键+(数字)=》输入的是繁体汉字。

●汉字与字母的混合输入

本编码的输入法只用小写字母输入汉字,在中文输入状态下键入 大写字母时,文本中所显示的为大写字母符。文本在中文状态下要显 示大写和小写字母时只须先输入一标记符(“-”),再输入字母(大 写或小写)和空格,则是在中文状态下输入了字母单词。

3)词组规则

汉字词组的构成采用形配编码的缩略形式,其词组输入的平均字 符长度不大于3/每字。具体规则如下。

●两字词组(规则1.头三+头二尾一):每个汉字的编码长度不大 于三,其中第一个字编码的前三个字符+第二个汉字编码的前二个与最 末一个字符。如:

大/fu,海/wrmu,大海/fuwru;

经/eaami,济/wiuxyl,经济/eaawil。

●三字或三字以上词组(规则2.头三+头二+头一+[头一...]):第 一个汉字的编码不大于三个,取其编码的前三个字符;第二个汉字的 编码不大于二,取其编码的前二个字符;以后每个汉字取其编码的第 一个字符。如:

人/r,民/pt,军/nfta,队/pr,人民军队/rptnp。

楚/tmsgbR,天/afu,极/tmJzX,目/nu,楚天极目/tmsaftn。

●中国省份和城市名的形配编码(规则3.头二+头一):中国省份 和主要大城市的名称采用形状匹配编码的三字母缩略码,其规则是第 一个汉字的前两个匹配编码字母和第二个汉字的第一个匹配编码字 母。例如:

北京/dbi    乌鲁木齐/hhq    新疆维吾尔族自治区/vus

上海/lew    湖北省/wxd      南京/xni

武汉/atw    湖南省/wxx      沈阳/wnp

●国家和城市的国际通用简略码(规则4.三字母缩略码):采用 国际通用三字母缩略标记作为形配代码的一部分表示国家,地区和著 名城市的名称。如中国/CHN,香港/HKG,澳大利亚/AUS,悉尼/SYD, 俄罗斯/RUS,美国/USA,法国/FRA,北京/PEK,武汉/WUH,上海/SHA, 乌鲁木齐/URC。

不同输入法用户可能要求有不同的字词库,但应用本编码提供的 构词规则,使用者可以方便地创造和运用不同字库版本而无须额外学 习。

4)智能功能及其它

本输入法亦具有其它功能以帮助用户有效而方便地输入汉字。这 些功能包括:自定义词组输入,以及高频先见等常用汉字输入功能。

一般地,很难到一个容量适当,又能供不同用户方便使用的词 组字库。形配输入法具有编辑自定义字/词功能,用户可以实现自定义 词组的备份与恢复。本方法还具有为用户智能地记忆曾经录入过的词 汇,并不断根据用户的输入量调整各个字、词的频率和动态次序。以 后输入到相关编码时,提示窗口实现高频先见功能。自定义词组和高 频先见功能的实现是利用计算机的记忆功能由软体程序设计完成。

(二)本发明的数字输入中文方法

用数字键入中文字时,可将形配码按标准的字母与数字键对照关 系(见表一)进行转换,用经过转换后的数码输入汉字。

标准的字母与数字的转换特点是字母与数字按顺序排列。但对于 以中文为背景的用户,汉字、字母和数字之间的多层转换与相应位置 关系仍然太繁琐和记忆费时。形配编码的设计已考虑扩展应用于数字 输入的特定环境。为了使汉字书写形式直接与数字形状相对应,形配 方法已开发一个更为简便、有效和符合汉字书写特征的字母与数字键 对照关系(表四)。本发明编码采用的手提电话数字键盘布局如图二 所示。

表四.正维数码-字母对照表

上述字母与数字键的对照关系表面看似乎有点杂乱无章,实际上 它把汉字笔画、形配编码字母与数字的几何形状或字义有机地联系在 一起。为帮助理解与记忆本发明的字母与数字对照关系,本发明提供 下述《数风流》口诀。

1汉2帮言点3,交4扭5笔顺6,

7折8扣人阜9,汉方英姿数风流。

形配编码的字符与数字对照说明:

1.汉(ael’):横(一/a)竖(1)都是一条汉。在标准数字键 中,已用数字1表示标点符号,其中已含单引号’和点‘.’,汉字的 一点(丶/e)也因其义列入其中。横‘-’和相当于汉字竖‘1’的符 号在字义上也是名符其实的‘1’‘一’对应。

2.帮(muv):倒顺八(v、m)常常在树干结构中表示二笔画帮 撑,如忄(vl),木(tm),米(vtm),禾(Gm)等;而u则是形配 笔画的配对因子,是配对字根的第一个字母的陪衬帮手。

3.言点(ijw):言部首(讠/i)和以‘点’为起始的笔画,如: 礻/jm,衣/jk,广/ju和3点笔画氵/w或ツ/W等。

4.交(ftx):4ftx中每个字符形状都含相交笔画,而且ftx在 形配码中均代表有相交的汉字笔画。如ナ/f,十/x,X/乂,和木/tm 等。

5.扭(hns):如同5的书写笔画是扭曲形状一样,表示汉字笔 画弯曲扭转的形配编码有:ㄣ艹/h,冖ㄇ/n,弓/s。

6.笔顺(bcd):‘笔’与b近音,b与6象形,而b(匕/b,日 /B)后的两个顺序符号是c(匚)和d(·或中/dp)。

7.折(gyz):字形7本身为‘折’笔画,而字母gyz在形配编 码中常常用于表示有‘折’的笔画,如司/gao,疋/gbR,丫/y和乙/z 等。同时gyz也是主干或框架笔画,千/G,羊/Yaz和风/yZX。

8.扣(ko):采用发音相近(kou)的方式,且8含有o/口以及
‘扣’含有‘口’;k与象形,老k与‘王’意会。或者,记8为
OK。

9.人阜(pqr):9pqR的上半部都含o形状,且pqr是三个顺序 字母,或者说6(bcd)、9(prq)皆顺。9与q(,刀)象形,而另 外两个字母的汉字表达有‘人/R’和‘阝(阜)/P’。

最后一句,“汉方英姿数风流”,字面直译是:方块汉字用英式 字母表达其数码运算象急风一样快速与流畅。

另一方面,口诀亦包含某种人生哲理,颂杨那种耿直恭谦、五湖 四海、六路神通和拼搏进取的气质与精神。其音韵情趣亦可增进对字 母与数字对照的理解和记忆。

采用数字输入文字,无论是中文或英文,都同样面临有重码问题。 以标准的数字键为例,英文单字some、pond、Rome和roof的数码都 是7663;而汉字形配码的‘张/Stk’‘仙/RUl’,‘录/Qvk’和‘尿 /pvk’的数字码都是785。由于采用比较小的数字集合取代大的字母 集合,完全避免无重码的数字输入文字的方案变为十分困难甚至不可 能。为提高数码输入文字的速度,可采用缩略编码作为输入代码,在 文字输入的准确性与快速性之间进行权衡和综合考虑。

本发明的缩略方案

1)单汉字输入:采用“头5尾1”编码,即汉字的输入数码长度不 大于6位数字。当长度大于6时,采用汉字形配编码的前5个和最后1 个字母的数字转换作代码。

2)词组输入:用汉字词组的形配缩略码转换为数字作输入代码(见 词组规则1和词组规则2),其中三字以上词组的形配编码长度大于6。

如下表五实例中有下横线‘-’标注的字母是汉字或词组的数字输 入代码所用的转换字母。

表五.用数字输入汉字实例

用0至9的数字键输入文字,无论输入的是中文或西方字母文字, 同样都面临有重码问题,而中文在数码输入过程中与其它文字相比较 则处于更为有利的地位。汉字是面向对象的类文字,字根在字中重复 使用而字则在组词表意中重复使用。当采用面向对象的形配编码支持 的中文字库时,汉字与字母文字一样可以用分拆组元来检索,如用tm 查所有含‘木’的汉字。常用字的数量汉字比其它语种少,大约只 在三、五千个字左右。以中英对照的著作的两篇文章为例说明 如下。

文章名                 总字数        不同用字个数

《论联合政府》(中文)   36,991        1,356

《论联合政府》(英文)   25,599        3,437

《论持久战》(中文)     45,701        1,451

《论持久战》(英文)     35,523        3,951

另外,把《论联合政府》与《论持久战》合拼一块进行测试有如 下结果:

中文总字数:82,692,不同用字个数:1,726

英文总字数:61,122,不同用字个数:5,514

从上述数据可知,在表达同样内容的文字时,中文所用的总字数 比英文所用的字多,但英文所用的不同字的个数则是汉字个数的2.5 倍以上。当把不同文章合并在一起进行测试时,不同用字的个数中文 只是略有增加而英文所用字的个数则是急剧上升。中文的常用字只在 几千个左右,如果用一部巨著或不同学科专业的书籍放在一起作测 试,英文比汉字的单个用字量将会大出若干甚至几十倍。

另一方面,即使是使用相同个数的汉字与英文单词作比较,以形 配编码为基础的数字输入中文比用数字输入英文要优越。分别用二千 个常用汉字和英文单词进行数码测试,其中英文单词中已除去大小写 的差别或单字时态的形变。如do、did、does、done,以及它们的不 同大小写字母的组合形式只当作一个测试字符。测试结果记录如表六 所示。

表六.2000个常用汉字与英文单词的测试性能比较

两组测试文字中具有最大数字重码的示例有:

英文字:any,bow,box,boy,cow(标准数字码269)

        bare,base,card,care,case(标准数字码2273)

中文字:仑/Ab,白/eB,亡/ec,止/lb(正维数字码16)

        若/Hfo,苦/Hxo,农/nfk,张/Stk(正维数字码548)

上述结果表明,采用本发明的汉字形配编码的平均字母个数比英 文单词的平均长度少0.66;采用“头五尾一”编码方案,正维数字输 入法打入一个汉字比输入一个英文单词平均少0.36个字符。数字输入 中文的字长比英文的短,其输入速度相对要快些。在两种数字键盘比 较方面,采用本发明的形配数码键输入中文或英文,与标准的字母-数 码对照键相比,重码率都相差无几,或者,正维数字键盘略优。但是 特别重要的是,正维数字键盘布局将汉字与数字的形与义联系在一 起,便利于从汉字字形到数码的转换,容易记忆和使用方便。

综上所述,汉字的重复使用性强,常用汉字个数远远低于英文。 或者说,在文字应用中掌握一个汉字相当于掌握了若干个甚至几十乃 至几百个英文单词。采用本发明的形配数码输入汉字,输入一个字的 平均长度比英文的要短,重码率与英文的相接近。总之,用0至9的 数字键输入文字,字母文字已失去“准确和高效”方面的优势。本发 明的形配编码把汉字笔画、字母和数字的书写形状相互映照,编码直 观、简单和规范。采用本发明的数码输入汉字,其输入的准确和高效 性能领先于西方文字的输入。

正维数字输入汉字的计算机软件

1)编码字符与功能键

编码的字符是从1至9的数字,数字0作为挑选下一个候选字符 的功能键。输入字认可则由另外的功能键实现,如SPACE键作简体字 输入和SHIFT键作繁体字输入;或者用其它某个键作输入字认可,与 具体设备相关。

2)数码转换与缩略编码格式

正维数字输入中文的数字编码以形配编码为基础。字母与数字之 间的对照按本发明的对照表(表四)的关系转换形成。或者,也可采 用常用的标准字母与数字对照关系(表一)。如前所述,用小字符的 数字输入文字(中文或英文),重迭码的存在不可避免。为提高数码 输入文字的速度,采用缩略编码作为输入代码,在文字输入的准确性 与快速性之间进行权衡和综合考虑。本数字输入法编码采用汉字的“头 五尾一”缩略编码或汉字词组的缩略编码。

3)统一的中西字符混合输入模式

正维数字输入采用统一的工作状态,混合输入可打印字符无须工 作状态的往返切换。

●计算机键盘上所有字符,除用作数字输入法的数字外,均按常 规可以直接键入编辑文本中(主窗口)。在主窗口中输入数字符号(0, 1,...,9),无须状态切换,用一个关键字符(如‘-’)再加数字串。 如:输入‘-3068’+空格键,则在主窗口里输入了3068。

●在正维数字输入中文模式下,按下计算机键盘的NumLK键,键 盘左侧的字母键、数字键和符号键等,与使用字母文字的键盘字符完 全一致。键盘右侧的数字键则用作中文输入,NumLK区域的“.Del” 键作为附加的“SPACE”功能键。也就是说,用“SPACE”,或“.Del” 键可将侯选窗口的第一行字/词输入到文本中。

●考虑到小型智能产品只有数字和几个功能键,本发明的数字输 入法除了对汉字进行编码外,其它可打印自定义字符也可采用数字编 码方式输入。即用数字码也可输入字母、数字、标点等符号。方法是 在中文未用的区域设置其它字符的编码。英文键盘字符的编码举例如 下,编码设置在以232和233为起始的区域。

表七.英文键盘字符(标点等)的输入编码

表八.英文键盘字符(字母)的输入编码

●本发明的输入法还设有表格输入子模式。在中文数字输入工作 状态下,当起始的三个数字是一个指定的关键数字时(如139),输入 法进入表格输入子模式。在表格输入模式下,每输入两个数字(i,j: 数字是0到9的数,0可以在表格输入中作代码),即可输入一个或一 组字符。当输入的是关键数字‘00’时,退出表格输入子模式。例如: 当表格中已定义T(0,1)=‘!’,T(9,9)=‘中西配’。一旦 键入数字139990100,这里首尾数字139与00分别为进入和退出表格 输入模式,在主窗口中则输入了字符:‘中西配!’。输入法进入表 格输入模式后,候选视窗可显示表格中设定的字符。表九中字母的位 置与《数风流》口诀中给定义的数字与字母关系一致。

表九.表格输入模式中定义的键盘字符

4)其它功能

●数字输入中文与其它中文输入法一样具有通用特征,如:中英 文切换,简、繁体汉字输入等。

●编辑自定义字/词功能,用户可以实现自定义词组的备份与恢 复。

●编辑自定义表格输入字符功能。

●数字输入中文还具有为用户智能地记忆曾经录入过的词汇,并 不断根据用户的输入量调整各个字、词的频率和动态次序。以后输入 到相关编码时,提示窗口实现高频先见功能。

四.本发明编码中文的主要应用

本发明提出用字母仿构汉字的法则和规律,代表本发明的汉字编 码字符相当於英文中的一个母单词。本发明编码的书写形式是一种字 母文字系统,它在计算机中文文字处理中有着广泛而优异的应用前 景。

本发明的编码设计把汉字、字母和数字三者的形状和字义联系在 一起。正维数字输入中文方法开发了一个更为简便和有效的字母与数 字键对照关系,使汉字书写形式与数字直接相对应。采用本发明的数 字输入汉字方法,使中文输入处于领先西方文字的地位。

本发明编码的主要应用是作计算机或中小型智能产品的字母输入 中文和数码输入中文。本发明采用面向对象编程的方式,运用以字母 和配对笔画为基码的字根笔画抽象地仿写简化汉字。本发明的编码单 词与汉字一一对应。本发明的编码表达方式直观明了和简短,从而易 于掌握和记忆。编码的形成以直观象形和少许规则为依据,强调的是 逻辑推理,而不是靠死记硬背。中文输入以本发明的编码字符为媒介, 如同输入英文的字母单词一样,使用方便,高效和准确。

由于代表本发明的汉字编码所形成的是一种字母表达文字,计算 机处理本发明的编码字符如同处理欧美文字资料一样,使中西文字处 理系统之间具有广泛兼容性,唯一差别只在于文字显示不同。计算机 中普遍使用的一字节编码操作系和软件可以用来处理本发明编码支持 的中文资料。例如,英文单字的改错功能可以借用来更正本发明编码 的错误键入;运用对字母单词的查寻功能可以用来查本发明的编码 所代表的汉字;利用对字母的排序功能,可按本发明的编码字符顺序 重新编辑汉字字典和词典;根据本发明的形配编码用计算机可检索与 汉字某个结构形状相关的所有汉字,其汉字检索比现有部首和拼音法 更方便和高效率。

本发明的形配汉字编码按无重码设计和面向计算机应用。采用中 西合壁的方式用字母仿构汉字,把写汉字学文化与应用计算机结合为 一体。采用本发明的字母与数字对照和简略数字输入方法,在计算机 和其它智能产品上输入汉字比输入西方字母文字更为准确、快速和高 效。本发明的应用有利于促进计算机中文的广泛普及、推动汉语走向 世界和使汉语更快更好地国际化。

五.结束语

本发明提出一个简单易学的方法,采用面向字类对象编程的方 式,用字母和单引号’作编码元来定义汉字的基本笔画和类结构。而汉 字的编码则是用这些编码元和类结构对具体对象的描述和组构。采用 本发明的形配编码既可用字母作中文输入,又可以将形配字母转换成 数字输入中文,还可以按形配编码字母顺序编排汉语字典。本发明在 编码技术上保持连续与一致性,在应用上实现一码多用、快速准确地 输入或搜寻汉字。

西方文字以语音为基础,字母符号传递着音乐的旋律;图形汉字 以物类传奇,西形中用焕发着物象的神采。汉字是一种面向对象的文 字,一种优异的二维图形文字。本发明的中文编码介绍如何把汉字转 换成字母单词和数码,以及它的一些主要应用。显然,图形汉字与语 音字母所表达的是完全不同形式的文字,两者之间的变换必然存在某 种模糊性。然而,事物的模糊性是客观存在的普遍规律之一。因此, 记忆和掌握本发明所提出的字母笔画和数字编码规则,是成功应用本 发明编码中文的关键所在。

文曲洋伴精神爽,汉方英姿数风流。经过用字母形状匹配和正维 数码的点缀,古老而神奇的汉字在计算机资讯领域的广阔应用将青春 焕发和光彩夺目。本发明开创了一门新的学科领域,为计算机中文信 息处理和汉字字词典编排开辟了一条崭新的路径。

本文发布于:2024-09-25 14:23:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/73266.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议