“什么意见分歧?”
“主要是大家和我的分歧。”周至摊开手:“我的意思是磨刀不误砍柴工,等到第三期字库推出以后,汉字转码入库十万以上,自定义汉字申报入库工作流程和相关规定,软件都弄好,再进行数字化图书馆项目不晚。”
“那你觉得三期字库的推出还有多久?”启老爷子追问道。
“其实现在阻碍并不在技术上,一期的开发工作涵盖了全部取字、编码、入库工作流程,我们开发了很多的工具软件来提高效率,形成了自动扫描识别技术,自动检字分类技术,自动转矢量技术等一系列基于大字库基础上的专利技术大包。”
“现在的问题反而在采字上,二期字库最少必须要突破六万六千字,用完一个平面,才能为三期字库的验证工作做完前瞻性研究。”
在场所有人都面面相觑,完全听不懂。
不过老一代学问人最大的优点就是不懂就问:“为什么要突破六万六千字呢?”
“是这样的,UNICODE的编码规则,就是给各种字码编出些‘平面’,这些平面,大家可以理解成印刷厂放铅码的铅码盘。”
“不过UNICODE这个盘子就比印刷厂的大多了,一个平面就有65536个码位,理论上可以存放六万五千多个汉字。”
“在一个平面上编码存码的工作,我们在一期就已经完成了,现在要验证转化的,是跨平面编码解码的技术。因为三期字库投产后,瀚文大字库是铁定跨平面的,因此我们想在二期就突破过去,提前完成可行性方案验证和相关的技术储备。”
“现在《康熙字典》也就四万多字,第一版的《汉语大字典》也才五万六千多字,都达不到打破UNICODE一个平面的要求。”
“所以此次来京,还要拜会两位叔伯老师兄,寻求他们的帮助。”
“谁?”启老笑道:“说不定我们也能够帮得上忙。”