现在较为流行的汉字输入法中还有一种叫做“郑码”的输入法,微软的Windows 95中文版中就装有“郑码”输入法。它是一种形码,与常见的形码有许多相似之处:比如它也是从汉字的结构入手;也要将汉字分解成若干部件;也要按某种规律安排键位;也要建立某种汉字的拆分规则等等。
一,郑码输入法简介
郑码的思想最早来自《英华大词典》的主编郑易里教授。他在编写英文词典的同时,对汉字的结构也做过大量的研究,在20世纪60十年代就曾论述过汉字有单元构成的理论,到20世纪80十年代,郑老的女儿郑珑接续了他的工作,完成了“郑码”输入发的研究。1993年该方法通过了中国科协主持的评审会的评审,并先后获得了北京国际发明金奖和日内瓦国际发明金奖、先后获得了中国、美国和英国的专利。
专家评审后认为:郑码在汉字编码字符集范围、词库容量、字词平均码厂、动态字重码率及符合语言文字规范等方面都取得了突出的成绩。
发明者认为“郑码”把汉字字典检索与计算机汉字输入统一了起来,使它们具有统一的编码和统一的排排序,这与郑易里教授多年对字典的研究有关,也比较符合汉字的教学规律;郑码的编码方法对个种字符集有较强的适应性,它不但可以用来处理国标汉字字符集,也能用于处理港、台目前通用的字符集,还可以用于中、日、韩的汉字编码,1994年初郑码完成了电脑大汉字库6万个汉字输入技术的编码。
随着郑码的普及,它拥有了较多的用户,尤其在处理大字符集方面它具有较强的适应性,它的输入速度也比较快,是一种较好的形码输入方法。
二,郑码输入法的特点
郑码输入法中有许多思想与五笔字型思想非常相似,很难说谁借鉴了谁,总之都是发明者对中国文字做了大量研究的结果。在郑码中对于汉字的笔画也规定为“按一定走向连续完成的一笔”,也分为五种,分别是:横、竖、撇、点、折(也分别包括横提、向左的竖钩、捺等形近的变体);对于汉字的形成认为是分为笔画、独体字与合体字三个层次;也认为字根是汉字形体的基础单元;郑码中的字根也分为成字字根和非成字字根两大类;也认为汉字合体字的字型中可以分为左右型、上下型和包围包孕型(这与五笔字型中的非类略有区别,实际上五笔字型中的杂合型字大部分是这里的包围包孕型);也按笔画分类分区排列键位;一个汉字(或词组)最多也是键入四键;也有像五笔字型中的一级简码那样的高频字;也有二级简码。
郑码也有许多与五笔字型不同的地方,比如它对汉字书写的笔顺要求得更细致;字根的个数更多(郑码把组字能力强、使用次数多的字根叫做基本字根,共170个);字型的划分更细致准确因此对不同类型的、汉字的拆分也更精细等等。
为了适应不同用户的需求,郑码输入法又分为《普及型》和《标准型》两种。这两种方法所用的基本字根的分类排列规律是一致的,编码规则也没有多大的差别。《普及型》的编码规则较简单,较易学,适合一般办公人员或年龄偏大的用户使用,但重码略多;《标准型》的编码在基本字根的代码方面有不同,除第一主根外每个基本字根都被扩充了一个位码,减小了重码字,并适用超过2万字的中、日、韩国际标准汉字大字符集。
三,郑码输入法的键盘布局
郑码是按英文母的顺序安排这170个基本字根的,将英文字母键盘分成了26个跟区。研制者将26个英文字母按顺序分成了横起笔类、竖起笔类、撇起笔类、点起笔类和折起笔类等五个区。每个区中所含字母(根区)个数不等,所以郑码的键盘图不像五笔字型的键盘那样具有明显的分区键位。横起笔类中含A到H共八个字母键位;竖起笔类中含I到L共四个字母键位;撇起笔类中含M到R共六个字母键位;点起笔类中含S到W共五个字母键位;折起笔类中含X、Y、Z三个字母键位。分类分区的依据就是起笔的“笔形”,然后再按第二笔和第三笔的笔形排列每个区内的基本字根与英文字母的对应顺序。具体做法是:先按使用功能将基本字根分为主根和副跟,再按起笔笔形将主根和副跟分为上述的五个大类(横起笔、竖起笔等)。主根的键位确定之后,副跟按自身的笔形从属相应的主根。
而主根又被分为第一主根和第二主根两类,第一主根是组字能力最强的基根,共26个,如基根(第一主根)“一、土、王”的代码就是A、B、C等等,他们的代码就是一代表根区的英文字母作为代码;并不是每个根区都有第二主根的,在郑码的标准方案中,为每个第二主根又规定了一个位码D,这样第二主根就有两个字母作为代码,(叫做2码根,而相对来说第一主根就叫做1码根)。避免了诸多基根共用一个根区代码而造成重码率高的现象,例如基根(第二主根)“二”的代码就是BD,基根“三”的代码就是CD等。第一主根和第二主根共同提供了本区字根的笔形特征。
副根中大多数都是大家熟悉的规范的部首。在标准型中也为每个副根规定了一个位吗,这样副根也是2码根。例如副根“丁”的代码是AI,“气”的代码是MY,“穴”的代码是WO等。
副根的第一个代码是区码,第二个代码(位码)的确定共有四种情况,分别按如下规则执行:
按副根构形中含有的主根成分确定,例如前述的“穴”中含有O区主根“八”的成分,因此他的位码为O,这是副根位码确定的主要方式。
按副根构形中还有的笔画成分确定,如前述的“丁”中含有一笔竖钩,因此位码定为代表一笔竖的区码I。
按副根构形中含有的其他副根成分确定,如“示”的构形中含有K区副根“小”的成分因此位码定为K,整个菜码为BK。
几个特殊副根的位码需要强行记忆,如“山LL”、“匕RR”和“已YY”。
基根采用了双符代码后可以及大地减少重码,而且基根代码的排序非常有规律,使郑码具备了字典的查字码功能,为识字教学与计算机输入的结合创造了条件。
四,郑码输入法取码方法
单字首根(即第一个基根)的代码要按照实际码数取,不能有所省略。就是说,首根是1码根就取1码;首根是2码根就取2码(区码和位码都要取)。
为保证单字编码不超过4个字母,首根之后的其余基根代码要根据不同情况决定取舍。一般是先舍位码,只取区码的1码。
例如:樱--木F贝LO贝LO女ZM--FLLZ
醒--酉FD曰K生MC--FDKM
但是,对于四基根和多基根字,还要将中间一些基根的代码全部舍弃,只取前两码和最末2个基根各1码。就是说,取两头舍中间。
例如:缩--纟Z宀WD(亻)一A白NK--ZWAN
糖--米UF(广)肀XB口J--UFXJ
词语取码方式
为使词语的代码不超过 4 个字母,编码时要根据词语中单字数的多少决定基根代码的取舍。
给词语编码时,只需取用基根的区码。
二字词
取每个字的首根和次根的区码各1码, 表述为:2 - 2
举例:数量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA
第一主根作为单字参与构词,在需取 2 码时要在其代码后加“A”(与作为单字用的规则一致)。高频字参与构词时,要在其代码后加“V”。
举例:土地 ---- 土/B 地/B ---- BABV
三字词
取第一字首根的1码,取第二字首根和次根各1码;取第三字首根1码组成,表述为:1 - 2 - 1。
举例:科技馆 ---- 禾/M 扌/D 十/E 饣/O ---- MDEO
四字词和多字词
取前四字的首根各1码组成,表述为:1 - 1 - 1 - 1
举例:
轻描淡写 ---- 车/H 扌/D 氵/V 冖/W ---- HDVW
出污泥而不染 --- 凵/Z 氵/V 氵/V 而/G (不 氵) --- ZVVG
简码的取码方式,对一些常用字或词,按一定的规则,取其常规码中的 1-3 个字符作为简略编码,称为简码。简码对专职操作员提高输入速度大有好处,非专职操作员不必特别去记忆。
一级简码:对应于 26 个高频字。
二级简码用该字首根和次根各 1 码组成。
举例:
把 -- DY 找 -- DH 管 -- MW
需 -- FG 取 -- CX
个别常用词也有二级简码,就是取每字第一个基根的区码。
举例:
中国--JJ 国家--JW 一定--AW 我们--MN 政府--AT 开展--AX
北京--TS 上海--IV 天津--AV 合作--ON 各种--RM 采取--PC
三级简码
二基根字:取第一个基根的区码和第二个基根的区位码,如:处 -- RID。
三基根和多基根字:依次取第一、第二和第三个基根的区码,如:散 -- EQM。
发表评论
共0条
评论就这些咯,让大家也知道你的独特见解
立即评论以上留言仅代表用户个人观点,不代表系统之家立场