基于SVM的手写体数字识别模型设计文献综述

 2022-08-23 12:08:44

手写体数字识别的SVM多分类算法模型综述

摘 要:手写体数字识别是手写字符识别的一个重要分支,又可分为在线手写体识别和离线手写体识别。前者识别系统通过记录文字图像抬笔、落笔、字迹上各像素的空间位置,以及各笔段之间的时间关系等信息,对手写体字符进行识别;而后者因为是离线识别,无法获取写字者抬笔、落笔等笔划信息,因此难度更大,但具有广泛的应用空间,如银行票据、工商报表、财务报表等,再如邮件自动分类等都需要对手写体数字进行识别。随着信息化及人工智能的发展,手写数字识别的应用市场已经越来越广泛。

支持向量机(Support Vector Machine, SVM) 是由 Vapnik 于 1995 年提出的针对分类和回归问题的统计学习理论,是在高维特征空间使用线性函数假设空间的学习系统。由于其对于解决小样本、高维数、非线性等问题有很好的 效果,受到了广泛的关注,成为继神经网络之后机器学习领域新的研究热点,并取得了快速的发展。同时 SVM 多类分类也是是近年来模式识别领域的热门方向,本文描述了SVM多类分类算法并将其应用在手写体数字识别中。

关键词:SVM ,多类分类,手写体数字

  1. 研究动态

手写体数字识别一直是多年来的研究热点,具有很广泛的应用范围及很高的商业价值。目前,市场上也出现了许多手写体数字识别系统的产品,在许多实际应用系统(如邮政编码自动识别系统、 银行支票自动处理系统等) 中都有广泛的应用。显然,高精度、高效率的手写体数字识别器能够提高实际应用系统的整体性能,然而现在还没有哪个手写体数字识别系统能够达到完美的识别效果。因此,进一步提高手写数字识别系统的识别精度和速率是每一位手写数字识别系统研究者的奋斗目标。

1929 年德国科学家 Taushek 利用光学模板匹配识别,开创了用机器识别文字符的先河。欧美国家为了将繁琐复杂的材料输入计算机,让其进行信息处理, 从 50 年代就开始了西文光学字符识别(Optieal Character Recognition, OCR) 的研究,OCR 的意思就演变为利用光学技术对文字和字符进行扫描的识别, 转化为计算机内码。1960~70 年代,世界各国相继开始了 OCR 的研究,OCR 可以说是一种不确定的技术研究,因为牵扯到书写者的书写习惯,识别的方法,训练测试的样本等因素,都会影响到识别的正确率。其正确率就像一个趋势函数, 只能趋近,而不能达到 100% ,大家都以100% 作为研究目标。

世界上第一个将该技术付诸实用的是日本东芝公司研发的手写体邮政编码识别的信函自动分拣系统,之后随着时间的推移,各种各样的产品、系统相继问世。中国对于 OCR方面的研究起步相对较晚,直到 1989 年,清华大学率先推出了国内第一套中文 OCR 软件—清华文通 TH - OCR,至此中国的 OCR 技术正式起步。

随着研究的进展,文字和数字识别市场稳步扩大,用户遍布世界各地。近几年来,中国国内对于手写数字识别的研究还是相当成功的,取得了很大的成绩。 手写数字识别技术可以用于邮政编码、统计报表、财务报表、银行票据等信息处理,一旦研究成功并投入应用,将产生巨大的社会和经济效益。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。