基于聚类分析的图像分割的研究和应用.doc
《基于聚类分析的图像分割的研究和应用.doc》由会员分享,可在线阅读,更多相关《基于聚类分析的图像分割的研究和应用.doc(33页珍藏版)》请在沃文网上搜索。
1、基于聚类分析的图像分割的研究和应用摘 要聚类分析是数据挖掘的重要研究内容之一,在识别数据的内在结构方面有极其重要的作用。数据挖掘技术是近几年国内迅速开始发展起来的一门新技术,其研究涉及机器学习、神经网络、统计学多个学科领域的知识,其发展对未来社会的各个领域的作用将会越来越大。图像分割是图像分析中的一个基本问题,随着技术的进步,图像使用的越来越多,对图像的分割也越来越引起人们的重视。本文主要是通过数据挖掘中聚类分析算法对图像进行分割。本文首先简要概述了本课题的背景、国内外动态;其次又详细介绍了数据挖掘的基本知识和聚类分析的各种算法;然后具体给出了如何利用聚类分析中的k-means算法在RGB和H
2、SV颜色空间下实现图像分割;最后,通过图像分割系统在遥感中的应用,验证系统的有效性。关键词 数据挖掘 聚类分析 图像分割 k-means HSVThe research and application of image segmentation based on clustering analysisABSTRACTClustering analysis is one of the most important directions of research of data mining and it plays an important role in the identification o
3、f datas intrinsic structure aspect. Data mining is a new technology which has developed rapidly in recent years. Its study involves machine learning, neural network, statistics and many other subjects and its development has been more and more significant to every field of the society. Image segment
4、ation is one of the basic problems of image analysis. With the development of technology, the image will be used more widely and image analysis will get more and more peoples closer attention.This paper mainly uses clustering analysis of data mining to implement image segmentation. It first briefly
5、outlines the topics background, the domestic and foreign tendencies. Next, it introduces detailed basic acknowledge of data mining and every algorithm of clustering analysis. Then it realizes the function of image segmentation by k-means algorithm under the colorful space of RGB and HSV. At last, th
6、e application of the image segmentation system in remote image will be used to test its validation.KEYWORDS Data Mining Clustering Analysis Image Segmentation K-means HSV目录1前言11.1 研究的目的和意义11.2 国内外研究动态11.3 研究的主要内容和论文结构22.数据挖掘中的聚类分析技术42.1 数据挖掘概述42.1.1 数据挖掘基本概念42.1.2 数据挖掘的分类42.1.3 数据挖掘过程52.1.4 数据挖掘方法62
7、.2 聚类分析算法介绍72.2.1 聚类概念82.2.2 聚类分析算法的类别83.基于K-means聚类算法图像分割系统的设计与实现153.1 图像分割153.2 RGB和HSV颜色空间153.2.1 RGB颜色空间153.2.2 HSV颜色空间163.2.3 RGB与HSV颜色空间比较163.3 图像分割系统的整体设计173.3.1 系统的整体功能模块设计173.3.2系统的整体处理流程设计173.4 图像分割系统的实现183.4.1 系统实现环境183.4.2 各功能模块实现183.2 实验分析224. 遥感图像在图像分割系统的应用234.1 遥感的基本概念234.1.1 遥感的定义234
8、.1.2 遥感的基本原理234.1.3 遥感数据的分类234.2 遥感图像分割244.2.1 遥感图像的RGB颜色空间下图像分割244.2.2 遥感图像的HSV颜色空间下图像分割254.2.3 RGB和HSV颜色空间下图像分割效果比较26总结27谢辞28参考文献291前言1.1 研究的目的和意义聚类分析研究有很长的历史,几十年来,其重要性及其研究方向的交叉特性得到人们的肯定。聚类分析是数据挖掘研究方向的重要研究内容之一,在识别数据的内在结构方面有极其重要的作用。数据挖掘技术是从上个世纪80年代开始发展起来的一门交叉学科,涉及到数据库、统计学、人工只能和机器学习多个领域。计算机的应用普及产生了大
9、量数据,数据挖掘就是利用上述学科的技术进行大量的数据处理。数据挖掘的应用范围非常的广泛,从农业生产的预测到基因分类,从信用卡欺诈到税务稽查,数据挖掘技术对未来社会的各个领域将起到越来越大的作用。图象分割是指将图像分解为各具特性的区域并提取出感兴趣目标的技术和过程,它是图像理解、模式识别和计算机视觉领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的关键步骤。图象分割在工业自动化、在线产品检验、生产过程控制、文档图象处理、遥感和生物医学图象分析、图象编码、保安监视,以及军事、体育和农业工程等方面已得到广泛的应用。图象分割是指在一幅彩色图像中分离出主要的色彩一致的区域,随着技术的进步,图
10、像使用的越来越多,对图像的分割也越来越引起人们的重视。据国外专家预测,在今后的510年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。1.2 国内外研究动态1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出“在数据库中的知识发现”(KDD: Knowledge Discovery in Database)技术,1991、1993、1994年又相继举行了KDD专题讨论会。1995年,在美国计算机年会(ACM)上,提出了数据挖掘(DM: Data Mining)的概念,即通过从数据库中抽取隐含的、未知的、具有潜在使用价值信息的过程。由于数据库中的数据
11、被形象地比喻为矿床,因此,数据挖掘一词很快流传开来。由于它应用的普遍性及由此带来的高效益,新型的数据分析技术-数据挖掘成为一个具有广阔应用前景的热门研究方向。KDD的研究吸引了大量的各个领域的专家和研究机构从事该领域的研究。许多公司纷纷推出了自己的数据挖掘系统。我国的数据挖掘研究开始于90年代中期,到90年代中后期,初步形成了知识发现和数据挖掘的基本框架。自90年代中期一批研究成果(学术论文)逐渐发表在计算机学报、计算机研究与发展、软件学报、人工智能与模式识别等刊物上,研究重点也正在从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。但是基本上还是以学术研究为
12、主,实际应用上处于起步阶段。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,如清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究;华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发
13、现以及Web数据挖掘;我校数据仓库与数据挖掘课题组在数据仓库与数据挖掘相结合方面的研究取得了较大的进展,目前正积极推进研究成果在金融、统计、商业和制造业领域的应用。因此,国内迫切需要对国外的数据挖掘技术记性剖析,在掌握核心技术的前提下才能真正超越。1.3 研究的主要内容和论文结构本文主要内容就是利用聚类分析中的K-MEANS算法在RGB和HSV颜色空间下实现图像分割系统,并应用于遥感图像,其具体有下面几方面内容:1、 了解数据挖掘的概念,熟悉聚类分析的思想算法,特别掌握k-means算法的思想及句体实现。2、 基于数据挖掘聚类分析方法,完成RGB颜色空间下的图像分割系统。3、 研究RGB和HS
14、V颜色空间的转换关系,实现RGB空间到HSV空间转换,从而实现HSV空间下的图像分割。4、 将图像分割系统应用于遥感图像分割,并对分割结果进行分析。按照本文的主要内容,本文的论文结构如下:第一章 :前言。本章主要简单介绍了本论文的目的和意义、国内外研究动态和研究的主要内容。第二章 :数据挖掘技术中的聚类分析技术。本章主要介绍了数据挖掘概述和聚类分析各种算法。第三章 :图像分割系统的实现。本章首先介绍了图像分割系统的概念,然后又具体给出了系统的结构设计和程序流程设计,最后给出了具体结构的各模块设计实现。第四章 :遥感图像在图像分割系统中的应用。本章主要是将图像分割系统应用到遥感图像的聚类分析中,
15、并在RGB、HSV两种颜色空间下进行图像分割,进行比较、总结。第五章 :总结。272.数据挖掘中的聚类分析技术2.1 数据挖掘概述2.1.1 数据挖掘基本概念数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。从这个角度数据挖掘也可以描述为:按企业制定的业务目标,对大量的企业数据进行探索和分析
16、,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。2.1.2 数据挖掘的分类数据挖掘设计的科学领域和方法很多,有很多种分类方法。根据挖掘任务,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模型发现、依赖关系或以来模型发现、异常和趋势发现等。下面将具体介绍各种方法。关联分析(association analysis)关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。
17、一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。 聚类分析(clustering)聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。分类(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。预测(predication)预测是利用历史数
18、据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。时序模式(time-series pattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。偏差分析(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。2.1.3 数据挖掘过程数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息
19、,并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如图2.1所示:逻辑数据库被选择的数据据预处理后的数据被转换的数据据据被抽取的信息息被同化的知识识选择 善而从 择择择预处理转换挖掘分析和同化图2.1过程中各步骤的大体内容如下:1确定业务对象,清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构不可预测,但要探索的问题应该是有预见的,为了数据挖掘而挖掘则带有盲目性,是不会成功的。2数据准备。(1)数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(2)数据预处理。研究数据的质量,进行数据的集成、变换、归约、压缩等为
20、进一步的分析作准备,并确定将要进行的挖掘操作的类型。(3)数据转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的这是数据挖掘成功的关键。3数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。4结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定,通常会用到可视化技术。5知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。2.1.4 数据挖掘方法神经网络方法神经网络由于本身良好的自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分
21、3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是黑箱性,人们难以理解网络的学习和决策过程。本文用到了Kohonen自组织神经网络,具体将在后面讲述。遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。决策树方法决策树是一种常用于预测模型的算法,它
22、通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式
23、表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。有人在传统模糊理论和概率统计的基础上,提出了定性定量
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 聚类分析 图像 分割 研究 应用