【汉字的码元结构】
根据码元之间的位置关系,可以把汉字分成三种类型:
(一)上下型,如:汉、湘、结、封;
(二)左右型,如:字、莫、华、花;
(三)杂合型或独体字,如:困、凶、道、天。
汉字编取码时,若某些汉字码元较少而不好拆分笔画,便需要补加上述字型信息,称为末笔识别码。
【码元的笔画结构】
用五种笔画组成码元时,其间的关系可分为四种:
(一)单:即五种笔画自身。
(二)散:组成码元的笔画之间有着一定的间距,如:三、八、心等。
(三)连:组成码元的笔画之间是相连接,可以是单笔与单笔相连,也可以是笔笔相连,如:厂、人、尸、弓等。
(四)交:组成码元的笔画是彼此相互交叉的。如:十、力、水、车等。
将汉字拆分为码元与笔画时,原则是取大优先、兼顾直观、能连不交、能散不连。
(一)取大优先:如:平:一、丷 、丨
(二)兼顾直观:如:自:丿、目
(三)能连不交:如:天:一、大 (注:不能拆作“二、人”,因为二者相交)
(四)能散不连:如:占:卜、口 (注:都不是单笔画,应视为上下关系)
【单字输入规则与末笔识别码】
这里的单字是指除键名汉字和成字码元汉字之外的汉字。如果一个字可以取够四个码元,就全部用码元键入,只有在不足四个码元的情况下,才有必要追加识别码,如:副:一、口、田、刂(GKLJ);给:纟、人、一、口(XWGK);汉:氵、又(ICY)。
对识别的末笔,这里有两点规定,规定取被包围的那一部分笔画结构的末笔:
1、 所有包围型汉字中的末笔,规定取被包围的那一部分笔画结构的末笔。如:国,其末笔应取“、”,识别码为(I);远,其末笔应取“乙”,识别码为(V)。
2、 对于码元“刀、九、力、七”,虽然只有两笔,但一般人的笔顺却常有不同,为了保持一致和照顾直观,规定,凡是这四种码元当作“末”而有需要识别时,一律用它们向右下角伸得最长最远得笔画“折”来识别。如:仇,WVN;化,WXN。
相关主题:
词汇编码