嵌入式课程设计论文.doc
《嵌入式课程设计论文.doc》由会员分享,可在线阅读,更多相关《嵌入式课程设计论文.doc(27页珍藏版)》请在沃文网上搜索。
1、 目录摘要2关键词:3第一章 绪论311引言312嵌入式系统概述413手写识别及原样保存的基本问题5131泰文手写识别存在的难点514手写汉字识别流程715样本处理过程7151笔画提取7152预处理8第二章 联机手写识别概述821联机手写识别922预处理923归一化924特征提取1025特征匹配方法1026多分类器的集成11第三章 泰文手写识别系统设计与实现1231嵌入式系统架构12311嵌入式系统总体架构12312触摸屏的基本原理1332识别系统整体设计1433预处理设计与实现1434分类器设计与实现15第四章 手写识别系统测试1641系统界面1642系统测试1743小结18第五章 结束语1
2、851术语解析1852工作原理1953在Linux系统中存储设备的两种表示方法2054 IDE接口硬盘,对于整块硬盘的两种表示方法;2055、IDE接口硬盘分区的两种表示方法:2156 本章小结22第六章 结束语2361本系统有以下优点:2362后续研究工作与展望23致谢24参考文献25基于嵌入式平台的手写识别及原笔迹存储系统的设计 摘要随着移动技术与相关技术的迅速发展,手机、个人掌上电脑(PDA)、笔记本电脑等各种电子设备变得流行,它们已成为人们工作和娱乐必不可少的随身用品。对于各种移动电子设备在中国的推广使用,原手写输入是一个必须考虑的问题,传统的输入方式大多使用键盘,不论是笔记本电脑使用
3、的标准键盘,还是各手机厂商设计的简化键盘,都是使用键盘采集信息,然后通过汉语拼音或者笔画输入等方式完成汉字输入。对于嵌入式小型设备来说,原有键盘设计引起占用空间大和输入汉字效率低等诸多问题。如何解决这些问题,同时保证设备足够的显示空间,又不添加新的复杂硬件设备,一种叫做触摸屏手写汉字输入的技术越来越受到人们的推崇。以 Windows CE 5.0 为运行平台,Embedded Visual C+ 4.0 为开发环境,设计和实现了一套屏幕手写识别系统,不仅能对现有汉字进行有效识别,用户还可以根据需要自行对字库扩展,有助于提高汉字的识别率。随着联机手写识别技术的发展,多种语言的联机手写识别系统都已
4、应用在各种嵌入式系统上。但泰文文字形状和结构特殊、相似文字多、手写体文字形变复杂,所以对泰文手写文字的识别有一定的难度,并且由于嵌入式系统CPU的运算能力较差,所以在嵌入式系统上实现泰文联机手写识别,需要依据具体情况进行设计,才能取得满意的效果。本系统在对联机手写识别技术和泰文文字深入分析的基础上,针对手写原样独特形状选择特征提取方法,并结合嵌入式系统的实际情况对识别系统各关键阶段预处理、字符分离和识别匹配阶段进行详细设计。在此基础上,本系统设计并实现了一个三级分类器集成的识别系统,其识别速度和准确性较原有系统得到了很大提高。最终在低性能嵌入式系统上实现了手写识别及。测试表明,本系统的识别速度
5、和识别率都达到了满意的效果,显示出本文所设计的识别系统的优越性。本文所采用的思想和设计的算法,具有一定的通用性,对与泰文文字识别相关的应用都有一定的借鉴意义。关键词:手写汉字识别,触摸屏,嵌入式系统泰文,联机手写识别,特征提取,存储系统,嵌入式系统第一章 绪论11引言随着科技进步和全球信息交流的扩大,个人便携式消费电子产品(包括手机、PDA、掌上电脑、电子词典等1迅速发展,手机和PDA等典型的电子产品更成了生活的一部分,其拥有的数量已经大大超过个人电脑而成为人们同常生活的必需品。嵌入式系统就是当Ijf各种电子产品的软件和硬件实现,是一种单片机技术的发展。随着市场的成熟和人们信息需求的提高,小体
6、积大屏幕的电子产品配备触摸屏幕和手写笔是必然趋势,而联机手写识别的文字输入方法成了此类产品最吸引人的功能。所以当前联机手写识别技术成为便携式电子产品的很大的竞争优势。泰文联机手写识别目前仅对单字进行识别,如果能够对连续输入的泰文文字进行识别,对用户来说更为方便和快捷。为达到此目标需要提高识别系统的性能和解决连笔问题,今后将会对相关算法作更为深入的研究。汉字识别是模式识别的分支,也是机器学习和智能化的一个方面,就目前的发展状况同时根据设备的依赖关系,可大致分为两类:联机识别和脱机识别 联机识别由于有强大的数据库服务器支持,所以识别率较高,但存在的缺点是响应速度慢,灵活性差。而脱机识别恰好相反,识
7、别率低但响应速度较快,灵活性好,所以哪种方案较好,只能根据使用场合判断。如银行的手写签名认证就适合采用联机识别,而脱机识别主要用在如移动电话、PDA 等。汉字识别的方法也主要有四种:结构模式识别,统计模式识别,统计与结构识别相结合。人工神经网络 结构模式识别需先提取笔端或基本笔画作为基元。由这些基元构成部件 再由部件组合及其相互关系来精确地对汉字加以描述,就像一篇文章有字、词、短语和句子并按语法规律所组成一样,所以这种方法也叫句法模式识别。统计模式发展教早,理论也较为成熟,其要点是提取待识别模式的一组统计特征。然后按照一定准则所确定的决策函数进行分类裁决,人工神经网络是一种模拟人脑神经元细胞的
8、网络结构,它是由大量简单的基本元件-神经元相互连接的自适应非线形动态系统,其缺点是规模大、复杂度太大,本系统将采用结构识别方法作为设计原则联机手写识别或称为在线手写识别(online Handwriting Recognition),它给用户提供了一种自然的文字输入方式。用户利用某种输入设备直接书写文字,经过系统识别处理后,转换为文字统一表示的输入方法。在嵌入式系统上的联机泰文手写识别输入,是通过压电式触摸屏幕来实现的。在书写时,手写笔在触摸屏上的接触点的电压变化可以转化为坐标,所以手写笔的运动轨迹被转化为坐标序列并被记录下来,从这些坐标序列可以比较容易地抽取书写文字的笔划和笔顺的信息,进而对
9、书写者所书写的笔迹进行识别,转化为泰文文字输出。从90年代以来,联机手写体的识别正逐步走向实用。各国的科研工作者相继研究出了多种语言的联机手写识别系统,包含英文、中文、韩文、日文等联机手写识别系统都已经应用在计算机和各种电子产品上。泰国是一个发展中国家,拥有6千万人口,电子产品和计算机软硬件技术也在迅速的发展,因此具有广泛的市场前景。过去20年泰文手写识别技术得到了很大的发展,尤其在过去10年内。但是目前泰文手写字符识别仅有少量的研究,大多集中于印刷体泰文字符的识别,这是因为泰文手写字符识别在某些方面比其他字符识别更困难,比如字符相似度很高、不同书写者的书写方式变化较大、文字内缺乏空隙等等,这
10、些导致对泰文文字特征提取和识别的困难。泰文文字是一种以字符为基础的文字,是由不同字符组合成的,并且字符中含有圆环、之字型、曲线和字符头部尾部的圆圈等等很多因素成为了泰文手写识别的难点,所以对泰文手写识别的研究具有一定的难度。过去的手写板只是文字输入的工具,并不能记录笔迹,无法传达出书写者的意愿情感。“原笔迹”的概念和技术都来源于国内厂商汉王,此后虽然有少数厂商进行了效仿,但在专业性和用户体验方面都远不如原汁原味的汉王手写。早在2007年,汉王就推出了汉王笔“墨宝”系列,这被认为是“原笔迹”的雏形,当然“墨宝”系列本身还是表现得非常成熟,它采用当时最新的微压传感技术,可以根据用户使用笔的力度来进
11、行感应,并传达出笔迹粗、细、浓、淡等效果,让电子设备上的手写文字和在纸质上书写无论手感还是效果都更加接近,乃至达到完全一样的效果。经过几年的发展,在今年汉王推出的TouchPad B16上,“原笔迹”技术已经相当完善,手写便签、手写邮件等应用都一应俱全,真正为商务认识打造出了最适合办公的平板产品。12嵌入式系统概述嵌入式系统【24l一般指非PC系统,有计算机功能但又不称之为计算机的设备或器材。它是以应用为中心,软硬件可裁减的应用系统,对功能、可靠性、成本、体积、功耗等综合性严格要求的专用计算机系统。简单地说,嵌入式系统集系统的应用软件和硬件于一体,具有软件代码小、高度自动化、响应速度快等特点,
12、特别适合于要求实时和多任务的体系。嵌入式系统主要由嵌入式处理器、相关支撑硬件、嵌入式操作系统及应用软件系统等组成,它是可独立工作的“器件”。嵌入式系统几乎包括了生活中的所有电器设备,如掌上PDA、移动计算设备、电视机顶盒、手机上网、数字电视、多媒体、汽车、微波炉、数字相机、家庭自动化系统、电梯、空调、安全系统、自动售货机、蜂窝式电话、消费电子设备、工业自动化仪表与医疗仪器等。嵌入式系统的硬件部分,包括处理器微处理器、存储器和I,o端口、图形控制器等。嵌入式系统大多使用EPROM、EEPROM或闪存(Flash Memory)作为存储介质。软件部分包括操作系统软件(要求实时和多任务操作)和应用程
13、序编程。应用程序控制着系统的运作和行为;操作系统控制着应用程序编程与硬件的交互。嵌入式系统在应用中,按其制造成本分类大致可以由高、中、低端三个层次组成。在高端应用中,成本往往不是考虑的主要条件,而更强调稳定性、J下确性、和功能性,有许多系统设计时通过增加系统冗余来保证系统稳定性和正确性。这种系统以军事工业和航天工业控制系统为典型代表。中、低端的应用一般是消费类电子产品,消费大众对价格的敏感导致了成本为第一要素,其CPU的计算能力和外部存储空间经常被压缩到最低。本文设计的泰文联机手写识别系统运行在一个低端嵌入式系统上,由于低端嵌入式系统CPU的运算能力较差,所以在嵌入式系统上实现泰文联机手写识别
14、,需要依据具体情况对识别系统进行设计和优化,才能取得满意的效果。13手写识别及原样保存的基本问题131泰文手写识别存在的难点对于嵌入式系统中联机泰文手写文字的识别存在着一定的困难,主要可以从下面几点体现:(1)相似文字多泰文字符在其结构特征上存在很高的相似性,相似字符所构成的文字之间的相似性也很高。如图14中每行字符其构成几乎相同,字符之间的差别仅在于很小得部分。起笔、落笔处或中间笔顺的弧度的差别等。同时,文字的这种相似性随着文字所含字符数量的增多而增加。这给文字识别过程中的预处理、特征提取乃至分类处理带来很大困难,在手写体文字识别情况下这一困难显得更为突出。图14列举了部分印刷体泰文相似文字
15、,图15列举出部分手写体题相似文字。(2)文字形变方式多样手写文字识别的最大难点在于由书写不同引起的模式结构的变形,这种变形因人而异,而且变形可能十分严重。抗干扰能力,也称为鲁棒性,对于联机手写识别系统的性能是非常重要的。因为泰文字本身是复杂的二维结构,书写的时候,笔画的畸变、丢失、多余笔段(如笔锋)的插入、字的倾斜、部件问相对位置和大小变化等,这些都是经常发生的现象,所以形变后的文字结构更加复杂。对于结构识别来说,会造成基元提取和识别的错误。传统的结构识别方法恰好在鲁棒性上是薄弱环节。因此,要想取得好的性能,必须对传统识别方法进行改进,增强其鲁棒性,从而增加实用性,如何吸收手写体文字中的个性
16、因素和环境因素是识别系统需要解决的关键问题之一。如图16列举了泰文字符的18种手写体变形Il”。 (3)笔顺问题由于不同人有不同的书写习惯,笔划的书写顺序经常发生变化。因此,单纯通过文字结构的串匹配进行识别难以达到理想效果。对手写泰文进行识别时,仅仅:通过笔段、笔划等细节特征进行分析是不够的,还需要增加对轮廓、笔划密度等整体分析。(4)识别系统的性能目前研究的很多泰文联机手写识别系统都能达到较高的识别率,然而其识别方法需要大量的数值运算,包括浮点运算。面大多数嵌入式系统由于成本的限制,所选取的CPU较低端,无法进行复杂的计算,更罕有浮点协处理器。浮点运算由编译器自带的浮点处理程序实现。一条普通
17、的浮点加法,需要消耗数百个时钟周期,更刁:用髓浮点乘除法了。所以对泰文丁J写识别系统各阶段的设计需要进行考量和优化,使其能够适应低端嵌入式系统。14手写汉字识别流程141建立字库142字型匹配15样本处理过程151笔画提取屏幕汉字输入面板的区域为 192*192,我们将用 STORE15300 结构体数组保存构成当前面板中手写汉字的点集信息,横纵坐标 15 表示最多能处理一个有 15 个笔画的汉字,300 表明一个笔画最多能包括 300 个点。实验证明 300 个点对于这片区域已经足够。如比较复杂的一笔画汉字“乙”也未超出该范围。所以这样的规定是能满足书写要求的,在面板内,当触摸笔与屏幕接触到
18、离开的过程,我们认为汉字的一个笔画的书写完成;如果用户在输入汉字的某个笔画的点的数目超过 300 系统则不认为用户的输入规范,同时提示用户再次输入一个较为规范的汉字。详细原因见开头对“乙”字的说明152预处理调整笔画顺序,汉字的书写顺序一般是自左向右、自上而下,而用户在书写时,也有可能不按照此顺序去书写。但汉字的呈现结果与正常书写顺序书写出的汉字是一样的,为了不至于因为用户习惯性笔画顺序影响特征点的提取,所以须对汉字结构体中每个笔画的顺序做判断。若不符合书写规范应则进行响应的调整。 调整,从右到左,为从左到右:如 “横”笔画,若发现一个笔画中所有点纵坐标相同,而横坐标递减,则说明该笔画为“横”
19、而书写顺序为从右到左,此时应将该笔画的所有点逆序排列,然后存回到笔画结构体中。调整,从下至上,为 从上至下。如“竖”笔画 若发现一个笔画中所有点横坐标相同,而纵坐标递减,则说明该笔画为“竖”而书写顺序为从下至上。此时应将该笔画的所有点逆序排列,然后存回到笔画结构体中。将一定倾斜度的“横”笔画规范为标准笔画,一般用户使用鼠标书写一个“横”笔画,不可能达到与屏幕水平线持平,总是或多或少的都有一定的倾斜角度 X 2 * Y 所以上面的笔画在以后的处理中会被归为“横”笔画。如图 4 所示:第二章 联机手写识别概述手写字符识别是模式识别学科的一个传统研究领域,它将人工语言输入转换成象征意义的符号或者编码
20、,手写识别分为两类口5l:(1)联机手写字符识别,又称在线手写识别:(2)光学字符识别OCR(Optical charactcr Recognition)或称离线 (Off-line)字符识别。联机手写字符识别通过与计算机连接的手写输入设备获取输入的字符。汉字识别的方法也主要有四种:结构模式识别,统计模式识别,统计与结构识别相结合。人工神经网络 结构模式识别需先提取笔端或基本笔画作为基元。由这些基元构成部件 再由部件组合及其相互关系来精确地对汉字加以描述,就像一篇文章有字、词、短语和句子并按语法规律所组成一样,所以这种方法也叫句法模式识别。统计模式发展教早,理论也较为成熟,其要点是提取待识别模
21、式的一组统计特征。然后按照一定准则所确定的决策函数进行分类裁决,人工神经网络是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件-神经元相互连接的自适应非线形动态系统,其缺点是规模大、复杂度太大,本系统将采用结构识别方法作为设计原则联机手写识别或称为在线手写识别(online Handwriting Recognition),它给用户提供了一种自然的文字输入方式。用户利用某种输入设备直接书写文字,经过系统识别处理后,转换为文字统一表示的输入方法。在嵌入式系统上的联机泰文手写识别输入,是通过压电式触摸屏幕来实现的。21联机手写识别联机手写识别的理论和技术,在经历了三十多年的发展之后,日臻
22、成熟,己形成了一个完整的体系。联机手写识别一般采用多阶段处理方式,主要包括预处理、特征抽取(模式表达)、特征匹配(模式匹配)等阶段,图21给出了相应的原理图。这是一个总体上的阶段划分,根据不同的识别方法,预处理、特征抽取和特征匹配阶段又可以进一步细分成各阶段。22预处理联机手写识别时,书写者用笔在图形输入板(也叫平板型数字化仪)上写字把笔相对于板的坐标位置(或是笔相对于前一点的坐标偏移值)检测出来,字笔划上各点的x,y坐标对(数字化信号)不断输入计算机,完成信号的模数转经过模数转换的数字信号不能直接用来识别,因为它含有各种干扰和噪声。对联机手写识别而占,干扰、噪声主要有人手抖动、笔的速度变化、
23、图形板的量化噪声、感应噪声等,取出这些干扰、噪声,把单字分割出来都需要预处理。噪声消除主要采用线性平滑算子(如低通滤波器)或非线性平滑算予(如中值滤波)来处理笔划数据。另外,还有一类笔划扰动是由人的书写不稳定产生的。例如,在抬笔和落笔时,手很可能会发生抖动造成笔划弯曲或抖动,这种噪声通常只出现在一个笔划的端点附近,因此可以采取适当的方法加以消除。23归一化手写文字的规一化是识别过程中的一个重要步骤。归一化的内容包括字符尺寸、位置、倾斜方向、笔划密度和方向等。归一化方法分为线性归一化方法和非线性归一化方法两大类120l。线性归一化针对的是尺寸缩放和位置偏移两种变形,在字符识别中使用也最为普遍,其
24、基本的方法是将去掉四边空白后的字符图像线性映射到归一化点阵中去;非线性归一化针对的是笔划密度不均匀等手写文字的形变问题,这也是手写文字识别中的关键问题。24特征提取特征选择与提取的基本任务是如何从许多特征中找出那些最有效地特征。特征选择就是从一组特征中选择出一些最有效地特征以达到降低特征空间维数的目的,特征提取就是通过映射(或变换)的方法将高维空间中的样本用低维空间表示。经过上述预处理变换可以得到一种简单象素点输入表达式,从而为特征提取打下基础。下列原则可以用来选取特征:1可区别性:对于属于不同类别的对象来说,特征值应具有明显的差异;2可靠性:对同类的对象特征值应比较接近;3独立性:所用的各特
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 嵌入式 课程设计 论文
