中国古代典籍是中华民族智慧的结晶,也是记录华夏文明成果的直接载体,古籍作为民族文化命脉的一部分,历经千百年的罹难,百不存一。合理的保护和利用存世古籍,成为当下古籍工作者面临的一大课题。随着科技的进步,古籍保护的方法和手段一定会日趋先进和有效。计算机技术和互联网技术的发展,为古籍保护工作开辟了新的天地。基于人工智能的古代文献识别与转录系统,我们研发的以下产品:

 

全唐五代文数据

                 ——使用单位:西北大学文学院


1-22030G60236443.jpg




全唐五代文数据库是专门收录唐代典籍的全文检索版大型古籍数据库。由陕西文晟数字科技有限公司研制。该软件集查询、阅读、查重、检索为一体。操作界面简单,查询方式简单易上手,为您提供方便快捷的查询阅读体验。


学术意义:

新编全唐五代文数据库以广大读者提供丰富便捷的古籍数字化阅读、查重、检索等服务为己任,力求为古籍保护以及传统文化传承添砖加瓦。可利用多项基本功能和多个辅助工具,轻松实现从研读、查重、检索到复制的一站式整理研究作业,从而帮助用户在获得空前广阔学术视野的同时,极大提高研究工作的效率。


收录内容:

收录唐代及五代十国文章共计约两千三百万字。


版本型号:

本公司研发的软件系统包含两个不同版本,用户版和管理员版。该软件对Windows系统64位、32位系统都兼容。本系统是免安装版,即点即用,双击即可点开。


查重系统:

避免word文档内部存在重复的内容,我们称之为“自查重”。自查重以段落为单位,将word文档中的段落两两进行对比,计算出相似度。此外,还需要避免word的内容与数据库中已存在的内容重复,我们称之为“查重”。查重的原理与自查一样,只是内容的来源不一样。同样对于相似度较高的内容,应当引起我们的注意。对于查重和自查重的速度可以进行秒级,便可查出重复内容。


检索系统:

存在的数据库,可以对其内容进行检索,检索包含四种:作者检索、篇名检索、全文检索和高级检索。

 

1、如何查看收书目录

全唐五代文专用数据库根据中国古籍自身的特点和当代科研教学的需要,首页根据添加书籍时填入的唐代皇帝进行分部,鼠标点击相应分部可查看该分部书籍,使之秩序井然,便于搜询。


微信图片_20220308153232.png


2、查重系统

自查重

word 文档添加到数据库之前,我们还有一个工作要做,那就是避免重复。首先就是要避免 word 文档内部存在重复的内容,我们称之为“自查重”。自查重以段落为单位,将word 文档中的段落两两进行对比,计算出相似度。对于研究者来说,自查后出现相似度较高的内容,研究者可以检查文档版本内容是否合适,是否需要更换或者删除,例如对于即将入库的文档,如果查重率结果显示超过35%,可以直接删除或者更换内容,以保证入库文档的独一无二性。对于重复率较高的文档可选择不入库。当然,如果你可以确定你编辑的 word 文档不存在任何可疑的重复,你可以跳过这一步。


00066.png


查重

此外,还需要避免 word 的内容与数据库中已存在的内容重复,我们称之为“查重”。查重的原理与自查一样,只是内容的来源不一样。对于研究者来说,查重后出现相似度较高的内容,研究者可以检查文档版本内容是否合适,是否需要更换或者删除,以保证入库文档的独一无二性。对于重复率较高的文档可选择不入库。同样,如果你可以确定word文档不存在与数据库中重复的内容,你可以跳这一步。


微信图片_20220308153645.png


重新加载

对于重复度较高的内容,我们首先应当查看当前界面的内容对比,以确定是否真的重复。如果确定存在重复,我们应当去 word 文档中找到对应的内容进行处理并保存,在处理掉尽可能多的可疑项之后,你需要点击“重新加载”,以加载新编辑的 word 内容,然后进一步进行自查和查重。


入库

经过自查和查重无可疑的 word 文档,可以直接入库了。 你也可以跳过自查和查重直接入库你的 word 文档,但一般不要这样做。

66663..jpg


3、检索系统

高级检索下面的关键字及“与或非”逻辑关系等详细选项进行了隐藏。其目的是将一般检索放置在中间突出位置,即把隐藏后的高级检索的地方腾出以突出一般检索。检索过程中只留了高级检索按钮,当点击时便可弹出详细选项。

微信图片_20220308153828.png


532a45de8d617e4741d512f3984e328.png

882e23b2730fc16a446effafcc4fbac.png

ae6b67be7e2cdf58e17497d05836016.png

a1ae78a1e04a0ec8652e03c79a00676.png


4、技术特点

(1)某篇文章中,使用ctrl+c复制,但单次复制只能选取20个字,复制内容每日上限200字。

 

802e09731745710821329a4d1cf2b17.png


(2)添加:目录编辑时添加一个新的目录项,默认的目录标题为“...”,三个点,刚刚添加完成之后,它是出于高亮选中状态的,这表示你应当立即修改一个你需要的标题文字。

删除:删除目录项的同时,将会删除其所有子项以及该目录项及其子项对应的内容数据。为了规避风险,请慎重选择。

上移:将某一个目录项在其兄弟之间的位置前移。

下移:将某一个目录项在其兄弟之间的位置后移。

编辑:无论任何时候,你都可以随时修改目录显示的标题。


a44976825aa2cd549b987dab8ce4e44.png



(3)检索界面弹出的子窗口与主界面窗口合并在一起,程序主界面与检索界面在一个界面上切换,且内容不会被新界面覆盖。

(4)可实现数据库加密功能。新建数据库的文件是加密的,其目的是为了保证数据库安全和版权。