碑文


碑文自动识别与检索系统是利用深度学习神经网络技术结合大量碑文训练出的能够从碑文中自动提取和识别文字的智能识别系统。


1-22022Q40642350.jpg




古代的碑文文字是宝贵的人类文化遗产,但千百年来饱受风霜侵蚀,字体繁杂,内容较多,辨识难度很大。

碑文文字密集,行间距小,人工识别需要不仅耗费时间,肉眼也比较难识别。亟需利用文字识别技术将其转换为文本文档。


碑文识别优势:文晟OCR为研究碑文政治和历史文化提供了丰富和可靠的资料。为更好地抢救、整理和利用碑文文晟科技启动了古籍电子化工作将其扫描转换成图像格式存储并向读者提供了电子化服务。在分析整词识别和基于切分的单词识别两种方案优缺点的基础上结碑文单词特点,提出了整词识别和基于切分的单词识别的混合策略对字形基元切分难度大的单词采用整词识别的方法进行识别对其余单词采用基于字形基元切分的识别方法进行识别。为达到理想的识别精度,需要大量样本训练用张量表示数据用计算图搭建神经网络结构用会话session 实行搭好得计算图通过不停地训练优化网络参数得到适合应用场景的网络模型。


1.生成数据集读取文件在构造数据集读取文件后,接着使用二进制文件tfrecords,来保存图片和标签,进而提高内存使用率。

2.前向传播部分计算图就是整个网络计算流程,一般由前向传播搭建。CNNs 的前向传播过程能够初始化模型权值参数和偏置量。为了方便调用,本文定义了在此过程中所使用的函数、整个前向传播过程和整个网络计算图。

3.反向传播部分反向传播里,我们一般通过训练集数据,不停地训练学习网络,调节网络的参数,使得最终损失函数变为最小值。在反向传播过程中,首先定义训练过程的超参数,接着调用前向传播过程,接着求损失值、实现学习率、实现滑动平均等等。


市场定位

高校、科研院所,出版社、大型图书馆、

博物馆、出版社

社会科学院、考古研究院、宗教机构

文化博物馆、民间书院等相关的应用领域。