设为首页 | 加入收藏
> 栏目导航
热门排行
您的位置:主页 > 满地红图源tk1234 > 满地红图源tk1234

www.hh66.com字的字形排序-检索研究


发布日期:2019-10-31 18:53   来源:未知   阅读:

  ·彩票开奖大全从事时尚行业的创业者为什么日趋[www.kj1391.com铜锤玉带草的],摘要:孝的字形裤序一检索研究 使用过计算机WINDOWS操作系统里CJK中日韩统一字库的人,都觉得CJK字库能装备20902个汉字,方便了汉字字形的计算机表达;但是也为要在CJK字库里寻找和调用某个 特需的字,感到十分不方便。于是,编制~种方便的CJK字库排序一检字表,成为~个需 要解决韵课题。 1.字形排序的实质及排序的规则 无论是汉字的音序排列,还是任何一种字形排序,都是把汉字的某种特征代码化或数码化,再 按代码/数码的排序来排列字。现在常看到的“按姓氏笔画为序”的人名排序,就基于姓氏汉字的一 种字形特征的数码化——笔画数。 迄今,所流行的几种汉字排序.检字方法,都存在着排序规则抽取字形属性不一贯的现象。按笔 画数排序时,笔画数相同的字又如何排列?进~步的排序转到了汉字的起笔笔形、次笔笔形。按音序 排列时,音标、声调相同的字再数笔画数,第三层又另依照起笔笔形……。四角号码排序,相同号码 的字群数量多时义依一个小标号的数字排列,实际成了“五位号码”,而第五位同号者,叉还要再依 “所含横笔(~’)数日.顺序排列。” 1993年笔者在业余撰述《工程汉字学初论》书稿时,专辟一章讨论汉字的字形排序。提出了~ 种汉字“部首.笔形代码排序”的设想,就当时计算机普遍装备的GB2312-80汉字库内6763个字作了 计算机排序,并对6763个汉字的笔形属性和特点作了统计。排序和统计用的计算机程序部通过了实 际应用的考核,获得了实在的排序结果和统计结果。但是,以6763字的收字规模作为排序和统计的 样本,略嫌小了一些:而要扩大样本的规模(曾考虑过排《辞海》14872字集)却无法解决另外八于 多字的计算机字形表示。十年后,笔者有了条件和精力,能在6763字排序的基础上,进一步对计算 机提供了字形的CJK统一汉字集20902字作排序了。 笔者认为汉字的字形排序要顾及以下几点:汉字的部首是最有意义的字形特征,在考虑汉字 的字形排序法时.应首先考虑部首的数码化。使相同部首的字在字表里能排在一起,做到依部归类。 对汉字部首数码化的规则,和对部首之外的剩余部分(简称“余部”,后文常用)数码化的规则应 该一贯。也就是说,整个汉字数码化的操作方式一致。 2.1993年,一种汉字“部首.笔形代码捧序法。的计算机试验 2.1 “部首一笔形代码排序法”概述 笔形代码排序~检字法早已有之,如“札”字法、“丙”字法等。这些检字法未能像四角号码法 那样广泛使用的缺陷在于,仅单纯将笔形数码化,忽略了汉字部首这一个晟重要、最明显、最基本的 字形特征。因而笔形码排序所反映的汉字字形规律不明显,并使得同一部首的汉字分布零散。再则. 有的汉字笔画数很多,30画的字可以编出30位长的笔形码,码位过长。 本文提出“部首一笔形代码排序法”的基本规则,所考虑的诸因素分述如下: 基本笔形及其代码的规定。 “部首一笔形代码排序法”规定了六种基本笔形及其相应的代码如表~: 部首的笔形代码。 按照六种基本笔形的代码和书写笔顺,可以把《新华字典》的189部首及其变态形式转换成各自的代 码串,计算机很容易按ASCII字符的码值将这些代码顺序排列。在对6763字集排序初期,曾采用过 71007 t谱:啦卜0,酊z£,,,029-92242575 91aif:姐一(cgrafioo.com.En 《中国大百科全书语言文字卷》所载《汉字部首标准(草案)》的201部首集,但是在6763字集范 围内,201部中有些部仅有部首字而没有部属字。为了对CJg字库排序,可以很方便的再建一个《康 熙字典》部酋集的部首代码数据库,本研究课题已着手继续这方面工作。 汉字的基本笔形及其代码规定l笔画名称 横竖撇点、捺 右转笔形 0一、3已I笔形代码123456i表现数量{ 己18/已 1264 711505 12008 10116 3648 注:左拐笔碱10116里包含1081竖钩笔画,682312—80所定6763字总笔画数71832 e对笔形码完全相同,但字形不同的部首的区别处理。 利用ASCII码里,字符0的机器码值,可以区别这些部首,可以避免部首间排序紊乱或排序规则不一 土、l:、士的笔形码都是。121’。字部的属字最多,部首代码为‘121’:工字部首代码为‘1210’,士字部首码为‘12100’。计算机排序时,‘1210’部的字总是排在‘12I’部的后面。即使是‘12100’, 也总是排在‘122’之前。 同理,八字部首码‘34’,入字一‘340’,‘入’~‘3400’。‘t’一‘45’,…~‘450’。 按照字典编撰的惯例,好些部首都有不同的变形写法。笔形排序法将分别得到不同的部首笔形 码。但是,凡相同的变形部首,其笔形码也相同,排序会聚集在一起。部首,在有的文字学书籍里又 称作“形旁”,当讨论同一部首的变形写法时,用“形旁”更恰当些;在讨论汉字的分层次排序时, 则用“部首”更能说明汉字的层次性。 部字集内的属字进一步排序。 每个汉字除部首(或称“形旁”)之外的部分,可以叫做“余部”,余部也按同一规则编出书写笔顺的 笔形代码。在我国十三亿人口里。同一个汉字的书写笔顺客观上存在着不同形式。笔者在编写每一个 字的笔形码时,以国家语委组织编制的《汉字属性字典》笔序为准。 因此,汉字可以蓠先依照部首的笔形码作第一层次的部际大排序,由于部首代码相同,排序时 同部(实际是同形旁)汉字自然聚集在一起,成为一个汉字的子集。在每~个子集里,汉字又依余部 的笔形码进一步排出集内的顺序,这是汉字的第二层排序。 汉字的部首与书写笔顺的关系有几种情况: A.起笔写部首,完整地写好部酋后再写余部,如木字旁的杨李札;工字旁的攻功巩。 B.起笔写出部首的部分笔画,转写余部,再回到部首笔画成字,如工字部的巫;国臣成幽。 C,先写余部再写部首,如木字底的梨集:工字部的左差。在CJK字库里更出现了好些写出来部 分非部首笔画,才写部首,然后再写另外余部笔画的字,如囊(口部)、畚(大部)。如果绝对按照书 写笔顺来编码排序,会使得上述Bc两类部首及其属字失去排序的整齐性。本排序法规定,不论什么 字,总是先编出部首笔形码,作第一层次的排序(检索时也如此);部首码与余部码之间用不同的运 算符号,计算机会按运算符号的ASCII码值,将同一部首码的不同字再归类为不同的子集。 ^型部首的字,运算符o’,ASCII碉值为‘20’: B型部首的字。运算符‘.’,ASCII码值为‘2E’;(是乘号,不是星号) C型部首的字,运算符‘/’,ASCII码值为‘2F’; 于是,计算机在对全字集里对所有的“木”部字排序时,总是先排完杨李札等“木字旁”的字之后, 再排梨集等“木字底”的字;自然形成木字部的两个子集。运算符的加入,使得汉字的笔形排序更直 观整齐。 71007 58号蔑印捌研究所矗t004I"IFjII ~线 Etail:xa、l c钾ahoo tom cn 这样一个公式,表示了排序和检字的规则。对于检字者来说,只需了解运算符之间的优先顺序,知道“_术字底”的“梨”字要在所有的“木字旁”的字以后去找就行:在编码检字时,不需编运算符。 2.2压缩排序一检字码长的措施 在6763字集里.笔画数最多的字是“爨”字(区位码7664),30画。如果每一笔都编码,该字 的笔形码长加上运算符将为3】位。为了考核部首一笔形码排序的严密性,和作相关的字形属性统计, 笔者将6763字的全部笔画按《汉字属性字典》的笔顺规范输入了计算机,并将该字典里的弯笔画分 成了左拐和右转两类笔形。并且,考虑在不影响排序精度的前提下,压缩码长,以获得经济(少占存 储空间和书面篇幅)和高效的检字法。 显然,汉字的笔画数是码长最短的字形特征码,最长码是2位。但是,码长太短则重码字特别 多。在对6763字排序检字的研究与试验里,为了区别开不同的部首,笔者在部首层次的排序使用了 部首豹全笔形码;当然,检字者在编码定部时,不一定非要编出部首的全码,就可以找到欲寻的部首 所在区域。对于余部代码,试验里采用了“前4末2”的方式编码,即用余部的前4笔代码检寻字位, 而用末尾2笔码来区别前4笔代码相同的字。 采用余部“前4末2”代码方式,是基于下述考虑: 基于数学排列组合的原因。如果限定余部码为6位,则取前三码而码值不同的可能性为=6 66=210种;取前四码而码值不同的可能性为6666=1296种。在6763字集里.草字头的 字就有346个。 基丁二全码排序后,计算机统计结果的分析。计算机对6763字集的余部笔画数作了统计(见 附件),6笔及其以下的字共3209个。将近50%。对于余部为6笔的字,前4末2的方式实际就是 余部的全笔形码。因此,前4末2方式可丑三缩另外50%多的字的编码鬣。 基下心理学的原因。人们检字而编的各种代码。如笔画数,或部首笔画数,或四角号码,都 是检字当时短暂记忆的码,一般无须长久去记忆。四码的长短便于编制,也便于短暂记忆去检字,当 检索到位后再去编两位末笔码进一步检索和区别,无论是编码还是检字,都较全码方便。 为了从视觉上分开前4码和末2码,在其间加上一个分隔标志%,并且在计算机排序时.从程序 上考虑了消除分隔标志对排序干扰的措施。 对于字数量为20902字的cJK统一汉字集,则考虑用前6末2的代码形式。人对电话或身份证 号码的读取和记忆,往往是三位一组或四位一组,前6位,就是两组三位。 3.部首一笔形码排序和字形信息统计的实际结果 本试验得到了6763字集的部首排序表和汉字排序表,并打印出排序文本。 有了字形信息数据库,可以用计算机进~步对汉字的笔画信息作分析和统计。统计项目如F 6763字集六种基本笔画的表现数量(见表一): 六种基本笔湎分别作起笔或末笔的数量: 6763字集的笔画数分布情况; 6763字集的余部笔数分布情况; 全笔形排序码的重码字统计及蘑码字表; 笔形简码(即前4末2)的重码字统计及重码表: 以上六种统计结果成为本排序法研究和试验的附带成果。(见附录) 4.汉字排序的计算机程序简介 4.1主功能程序系列 见下页程序框图。 '10077"_w.qmu.m 58,*p_^_口004口l qL.i-:诬9—83051879.029—82242 575 Btail:xa.1coyahoo.com.cD 所谓“整理程序”是严格控制一字一码,保证6763字不重也不漏,作为统计对象。 相对地,作为排序检字,则允许同一个汉字分属不同的部首,具有不同的排序码。但是,不允 许用于统计的附加符号干扰笔形码的排序,这就是“清理程序”的作用。 4.2辅助程序系列 自动查错程序。检查重字或漏字,也检查输入的每个汉字的笔画数是否与笔形码的有效码K相 等;并记录差错在案。 改错程序,将差错记录显示在屏幕上,由操作人员核实后更改。 自动纠错程序,以操作人员修改了的差错记录为依据,机器自动修改大数据库。 5.简短结语 技术的进步,让目前的计算机操作系统普遍装备了CJK中日韩统一汉字库。CJK字库一方面为 计算机表达更多的汉字提供了前提条件:另~方面,要在目前的CJK字表里搜寻某个汉字,却又非常 不方便。对CJK中日韩统一汉字库编制排序~检索表的条件成熟了。 附录:GB2312—80国标汉字集6763字笔形统计 笔画总况,见表一及其注解。 起笔笔形:横起笔1960,竖1081,撇1556,点捺1510,左拐349。右转307,总计6763;末笔 笔形:横末笔1975,竖812.撇317,点捺2695,左拐330,右转634,总计6763: 6763字集的笔画数分布状况:一域5字。二34,三79,四140。五203,六348,七531,八677, 九752,十730,十一703,十二637,十三524,十四396,十五312,十六255,十七174,www.hh66.com十 八73,十九77,二十45,二一23,二二17,55.三13,二四7,二五6, 二六I,二 七0,二八0,--JL 0,三十】; 6763字集的余部笔画数分布状况:0画206,一59,二203,三382,四829,五855, 六879,七591,八816,九641,十403,十一265,十二260,十三183,十四74, 一一‘一…一 勘误表 序号 位置 误更正 1论文I题目 字的字形排序.检索研究 汉字的字形排序.检索研究 2文IP3 6*6*6=210 6*6*6=216 3文2PI小标题 早期的书写演变阶段7100"_l_tl-58}M々__lH004#’‘*:唯9”8 3051S79.029—8224257 5E1&il:x一le帅ahoo tom.cn

  字的字形排序检索研究,汉字字形研究,人字形铁路,品字形结构的字,非字形停车技巧,高考易错字音字形,非字形停车,非字形停车视频,看字形认字,高中易错字音字形