基于神经网络的网络信息挖掘的应用.doc
《基于神经网络的网络信息挖掘的应用.doc》由会员分享,可在线阅读,更多相关《基于神经网络的网络信息挖掘的应用.doc(14页珍藏版)》请在沃文网上搜索。
1、基于神经网络的网络信息挖掘的应用摘要:人工神经网络是二十世纪科学技术发展取得的重大成果之一,是人类认识自然道路上的一座里程碑。一门影响巨大、意义深远的科学技术,其发展过程必然揭示了科学发展的基本规律以及影响其发展的主要原因。本文简要介绍了人工神经网络的发展过程和基本特征,从神经网络具有自学习能力、联想存储能力、告诉寻找优化解的能力三个方面论述了其特点和优越性。然后本文针对网络文本挖掘,实现了网络信息挖掘中的数据预处理问题,包括中文分词和特征提取。针对网络信息文本挖掘的实际应用问题,提出将人工神经网络应用在网络信息挖掘技术当中,以实现文本挖掘中的分类功能,并将其实现。最后本文探讨和分析了人工神经
2、网络的发展前景。关键词:人工神经网络;模式识别;神经计算;网络信息挖掘;文本分类目录基于神经网络的网络信息挖掘的应用2目录31 人工神经网络的发展历程42 人工神经网络的基本特征和优越性52.1 人工神经网络的基本特征52.2 人工神经网络的优越性63 人工神经网络的模型64基于神经网络的网络信息挖掘的应用74.1 web挖掘预处理74.1.1 Web文本挖掘及其一般流程74.1.2 数据预处理技术84.1.3 特征提取算法94.2 改进神经网络算法104.2.1 BP算法训练网络步骤104.2.2 BP算法存在的问题114.2.3改进的BP算法115 人工神经网络的发展前景13结语14参考文
3、献14作为一门活跃的边缘性交叉科学,人工神经网络的研究与应用成为人工智能、认知科学、神经生理学、非线性动力学等相关专业的热点。近十年来,针对神经网络的学术研究大量涌现,它们当中提出了数百种神经网络,涉及联想记忆、自学习与自组织、计算机视觉等众多的方面,取得了引人瞩目的进展。1 人工神经网络的发展历程人工神经网络的研究始于40年代初。半个多世纪以来,经历了兴起、高潮与萧条、高潮及稳定发展的曲折道路。1943年,心理学家McCulloch和数理逻辑学家Pitts建立了神经网络和数学模型,称为MP模型。他们通过MP模型提出了神经元的形式化数学描述和网络结构方法,证明了单个神经元能执行逻辑功能,从而开
4、创了人工神经网络研究的时代。1949年,心理学家D.Hebb提出了突触联系强度可变的假设,根据这一假设提出的学习规律为神经网络的学习算法奠定了基础。60年代,人工神经网络的到了进一步发展,更完善的神经网络模型被提出,其中包括感知器和自适应线性元件等。MMinsky等仔细分析了以感知器为代表的神经网络系统的功能及局限后,于1969年出版了“Pereeptron”一书,指出感知器不能解决高阶谓词问题。他们的论点极大地影响了神经网络的研究,加之当时串行计算机和人工智能所取得的成就,掩盖了发展新型计算机和人工智能新途径的必要性和迫切性,使人工神经网络的研究处于低潮。1982年,美国加州工学院物理学家J
5、Hopfield提出了HNN模型,且易用集成电路实现。80年代以后人工神经网络及其应用,又得到发展。为适应人工神经网络的发展,1987年成立了国际神经网络学会,并决定定期召开国际神经网络学术会议。1988年1月Neural Network 创刊。1990年3月IEEE Transaction on Neural Network问世。 我国于1990年12月在北京召开了首届神经网络学术大会,并决定以后每年召开一次。这些为神经网络的研究和发展起了推波助澜的作用,人工神经网络步入了稳步发展的时期。90年代初,诺贝尔奖获得者Edelman提出了Darwinism模型,建立了神经网络系统理论。同年,Ai
6、hara等在前人推导和实验的基础上,给出了一个混沌神经元模型,该模型已成为一种经典的混沌神经网络模型,该模型可用于联想记忆。1991年,Hertz探讨了神经计算理论, 对神经网络的计算复杂性分析具有重要意义。1992年,Holland用模拟生物进化的方式提出了遗传算法, 用来求解复杂优化问题。1993年方建安等采用遗传算法学习,研究神经网络控制器获得了一些结果。1994年Angeline等在前人进化策略理论的基础上,提出一种进化算法来建立反馈神经网络,成功地应用到模式识别,自动控制等方面。1995年Mitra把人工神经网络与模糊逻辑理论、生物细胞学说以及概率论相结合提出了模糊神经网络,使得神经
7、网络的研究取得了突破性进展。1996年,ShuaiJW等模拟人脑的自发展行为, 在讨论混沌神经网络的基础上提出了自发展神经网络。1997、1998年董聪等创立和完善了广义遗传算法,解决了多层前向网络的最简拓朴构造问题和全局最优逼近问题。随着理论工作的发展,神经网络的应用研究也取得了突破性进展,涉及面非常广泛,就应用的技术领域而言有计算机视觉,语言的识别、理解与合成,优化计算,智能控制及复杂系统分析,模式识别,神经计算机研制,知识推理专家系统与人工智能。涉及的学科有神经生理学、认识科学、数理科学、心理学、信息科学、计算机科学、微电子学、光学、动力学、生物电子学等。美国、日本等国在神经网络计算机软
8、硬件实现的开发方面也取得了显著的成绩,并逐步形成产品。自1958年第一个神经网络诞生以来,其理论与应用成果不胜枚举。人工神经网络是一个快速发展着的一门新兴学科,新的模型、新的理论、新的应用成果正在层出不穷地涌现出来。2 人工神经网络的基本特征和优越性2.1 人工神经网络的基本特征人工神经网络是一种由大量处理单元互联组成的非线性、自适应信息处理的系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络的工作过程可分为训练和测试两个阶段。在训练阶段,以一组输入输出模式对作为训练样本集来训练网络。网络训练的过程即是网络参数(包括权值、阈值
9、等)的调整过程。在测试运行阶段,给定新的输入,网络即能计算得到相应的输出。人工神经网络具有四个基本特征:(1) 非线性非线性关系是自然界的普遍特性, 大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态,这种行为在数学上表现为一种非线性关系。具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量。(2) 非局限性一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之问的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。(3) 非常定性人工神经网络具有自适应、自组织、
10、自学习能力。神经网络不但处理的信息可以有各种变化,而且在处理信息的同时,非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。(4) 非凸性一个系统的演化方向在一定条件下将取决于某个特定的状态函数。例如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。2.2 人工神经网络的优越性人工神经网络的特点和优越性,主要表现在以下几个方面:(1)具有自学习能力。例如实现图像识别时,只要先把许多不同的图像样板和对应的识别结果输入人工神经网络,网络就会通过自学习能力,慢慢学会识别类似的图像。自学习能力对于预测有
11、特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测,其前途是很远大的。(2)具有联想存储能力。人的大脑是由联想功能的。如果有人和你提起你幼年的同学张某某,你就联想起张某某的许多事情。用人工神经网络的反馈网络就可实现这种联想。(3)具有告诉寻找优化解的能力。建筑一个复杂问题的优化解,往往需要很大的计算量,利用一个针对某问题而设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快就找到优化解。人工神经网络是未来微电子技术应用的新领域。智能计算机的构成可能就是作为主机的冯诺依曼计算机与作为智能外围机的人工神经网络的结合。3 人工神经网络的模型人工神经网络模型主
12、要考虑网络连接的拓扑结构、神经元的特征、学习规则等。神经网络的类型可分为前向神经网络、反馈神经网络、随机神经网络及自组织神经网络等。介绍下前向神经网络和反馈神经网络模型。(1) 前向网络网络中各个神经元接受前一级的输入,并输出到下一级,网络中没有反馈,可以用一个有向无环路图表示。这种网络实现信号从输入空间到输出空问的变换,它的信息处理能力来自于简单非线性函数的多次复合。网络结构简单,易于实现。反传网络是一种典型的前向网络。(2) 反馈网络网络内神经元间有反馈可以用一个无向的完备图表示。这种神经网络的信息处理是状态的变换,可以用动力学系统理论处理。系统的稳定性与联想记忆功能有密切关系。Hopfi
13、eld网络、波耳兹曼机均属于这种类型。4基于神经网络的网络信息挖掘的应用 网络信息挖掘是数据挖掘与知识发现技术的一个重要应用,网络信息挖掘是指在大量训练样本的基础上,得到数据对象间的内在特性,并以此为依据在网络资源中进行有目的的信息提取。人工神经网络是一种大规模的并行连接机制系统,具有对非线性数据快速建模的能力,能够模拟人脑来处理不完整或模糊的信息,可以通过对训练样本集的反复学习来调节自身的网络结构和连接权值,并对未知的数据进行分类和预测。人工神经网络适合处理非线性和含有噪声的数据,特别适合那些以模糊、不完整的知识和数据为特征的,缺少清晰分析数据的问题。近年来,人工神经网络技术在数据挖掘方面得
14、到很好的应用,越来越多的数据挖掘工具采用了神经网络技术。本章介绍的是基于神经网络的Web挖掘技术。4.1 web挖掘预处理Web挖掘的对象是大量的、异质的、分布的Web文档。由于Web文档本身是半结构或者无结构的,并且缺乏机器可理解的语义,所以需要对其进行Web预处理。4.1.1 Web文本挖掘及其一般流程本文研究的是Web文本挖掘,Web文本挖掘是指借鉴数据挖掘的基本思想和理论方法,从大量非结构化、异构的Web文档的集合D中发现有效的、新颖的、潜在可用的及最终可理解的知识K(包括概念、模式、规则、规律、约束及可视化等形式)的非平凡过程。把D看作输入K看作输出的话,那么Web文本挖掘的过程就是
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 神经网络 网络 信息 挖掘 应用