基于深度学习的手写字符识别研究
基于深度学习的手写字符识别研究
手写字符识别是光学字符识别(OCR)领域的重要研究方向,近年来随着深度学习技术的发展,手写字符识别的准确率得到了显著提升。本文将探讨基于深度学习的手写字符识别技术,重点介绍卷积神经网络(CNN)和循环神经网络(RNN)在手写汉字识别中的应用。
一、深度学习的发展
在过去的几年中,深度学习获得了巨大的发展动力,深度学习领域的研究进展也非常迅速。机器学习(Machine Learning,ML)已经取得了无数成功,但是如今应用传统的ML算法通常意味着要花费大量的时间通过人工设计特征,对于视觉,音频,自然语言处理,机器人技术和其他领域中的许多问题,都是如此,为了解决这个问题,研究人员开发了深度学习算法,它可以自动学习输入数据的抽象特征。如今,这些算法使许多团队取都得了突破性的成果。
二、光学字符识别系统
2.1 光学字符识别系统的类型
在过去的几年里,光学字符识别的研究有许多方向。由此出现了不同类型的光学字符识别系统。我们可以根据图像采集模式、字符连接、字体限制等对这些系统进行分类。
光学字符识别系统在模式识别中占据了一席之地。它们的独特之处在于它不需要控制产生信息的过程。光学字符识别可分为印刷体字符识别和手写体字符识别,而根据输入类型,手写体字符识别又可分为离线识别和在线识别两个子类别,即在线系统和离线系统。前者是在用户书写字符时实时执行的,可以捕捉基于时间或空间的信息,即速度、笔画数、书写方向、起始点等,而离线识别系统的操作对象是静态数据,即输入是位图。
三、深度学习模型
深度学习模型由多个处理层构成,可以用来学习具有多个抽象特征的数据。这种方法极大地改进了语音识别,视觉对象识别,物体检测等许多其他领域的最新技术。深度学习通过使用反向传播算法来指示机器应如何更改其内部参数以此来发现大数据集中的复杂结构。深度卷积网络在给图像、视频等方面带来了突破,而循环网络则在文本和语音等序列数据中凸显出重大作用。
3.1 反向传播训练
从模式识别的早期阶段开始,研究人员的目标就已经是用可训练的多层网络取代手工特征,尽管它很简单,但直到20世纪80年代中期才得到广泛的理解。事实证明,多层架构可以通过简单的随机梯度下降进行训练。只要模块的输入功能和内部权重相对平滑,就可以使用反向传播过程计算梯度。
计算目标函数对多层模块权重梯度的反向传播过程,只不过是导数链式法则的实际应用。反向传播方程可以重复应用,以传播所有模块的梯度,从顶部的输出(网络产生其预测)一直到底部(外部输入)。一旦计算出这些梯度,就可以直接计算相对于每个模块的权重梯度。
实验效果
总结
汉字种类繁多、书写风格因人而异、形近字在中文汉字中也占有较大的比重,这些问题都使得汉字识别困难重重。但是近些年来,随着深度学习的发展,在各个领域,尤其是图像领域收获了巨大成功,特别是卷积神经网络在提取特征方面的优越性极大促进了图像分类任务等一些课题的突破。也正是结合当下研究的趋势,本文使用深度学习的方法对手写汉字进行识别,本文的内容主要包括以下几点:
- 调研了光学字符识别的发展历程,同时调研了手写体字符识别,尤其是手写中文汉字识别的国内外研究现状,并对本文主要内容加以详细阐述。
- 分析了不同识别分类的方法,对深度学习方法进行了详细的介绍,对卷积神经网络、循环神经网络进行了详细介绍,同时介绍了本文所采取的神经网络优化方法,指出解决过拟合问题及加速网络训练的方法。
- 基于卷积神经网络,对汉字进行特征提取,同时结合循环神经网络的特点,使用编码-解码的方式对手写汉字进行识别分类,提高手写体汉字识别的准确率。
- 总结分析实验结果,使用卷积神经网络将手写体汉字作为整体,提取特征进行全字符识别,同样使用卷积神经网络进行手写体汉字提取特征的方式,但是它考虑到了汉字本身的特点,结合汉字的部首结构和二维空间结构进行识别,提升了手写汉字识别的准确率。