李乐山:“……”錃
见到李乐山一幅震惊和哑口无言的样子,周至只好耐心解释:“我的专业是古代汉语,现在也面临数字化的需求,然而这项工程最大的一道拦路虎,就是文字录入。”
“必须有一个能够容纳生僻字的大字库,才有整理古籍的基础,之后才能进行古籍数据库的建设工作,就我目前能够想到的,这个建设工作应该包括自动扫描识别,分类整理归档,智能检索工具,任务发布与验收模块,用户讨论区,论文发布和评分考核系统,甚至将来会有实时通信工具,网络课堂和会议厅。”
“每一个子系统里边有包含很多的细项,也是需要逐步推进的长久工程,比如自动扫描识别系统,除了识别古代的印刷品上的文字外,甚至能够一步步推进到碑拓,金文,甲骨文研究上。”
“以前的文史研究工作,很大一部分都是靠着学者们的博闻强记,以及孜孜不倦的抄录整理,既费时又费力,还枯燥乏味。”
“等到有了这些工具以后,相信在浩如烟海的古籍数据库中挖掘整理系统性资料,将是一件非常令人愉快的事情。”
古代的记录资料很多都是如此,比如一位名人的事迹和著述,有可能会分布在经史子集各种著作当中。
比如《苏东坡轶事汇编》一书,引用苏东坡的轶事逸闻便有一千一百多项,参考了上百本古代史料和笔记资料。錃
就这还仅仅是记录苏东坡的“轶事”,并没有包含他的文集,要是加上这个,光明末茅维收集的《苏文忠公全集》,就有七十五卷之多。
可即便如此,茅维也更多注重苏东坡的文学方面,以及他参加科考时候留下的策论,却错漏了很大一部分苏东坡入仕之后,作为朝廷官员上呈朝廷的章奏公文。
而这些东西绝大多数在宋史苏东坡的本传里压根就没有,它们可能分散在其他人的传记,笔记和皇帝的日讲录,起居注当中。
因此仅靠学者的记忆来完成,那即便再是学富五车的人物,都不敢说自己的知识体系就没有盲区,全部都顾及得到。
然而信息系统就可以做到。
听到周至将这些说完,李乐山的讶异之色不但没有减少,反而更加的浓了:“这些都是你想出来的?我记得内地高中生学业任务很重的啊?”