面向社会网络分析的数据挖掘方法研究数据挖掘课程论文.doc
《面向社会网络分析的数据挖掘方法研究数据挖掘课程论文.doc》由会员分享,可在线阅读,更多相关《面向社会网络分析的数据挖掘方法研究数据挖掘课程论文.doc(19页珍藏版)》请在沃文网上搜索。
1、面向社会网络分析的数据挖掘方法研究摘 要随着信息技术的发展,越来越多的社会关系数据被收集。如果能够有效地对它们进行分析,必将加深人们对社会学的理解,促进社会学的发展。但是数据量的增大同时对分析技术提出了巨大的挑战。如今社会网络的规模早已超出了原有分析手段的处理能力,必须借助更为有效的工具才能完成分析任务。数据挖掘作为一种帮助人们从海量数据中发现潜在有用的知识的工具,在很多领域发挥了重要的作用。社会网络分析又称为链接挖掘,是指用数据挖掘的方法处理社会网络中的关系数据。本文对数据挖掘和社会网络分析中的一些方法进行了介绍并对数据挖掘算法在社会网络分析的应用进行了概括。关键词:设会网络分析;数据挖掘;
2、链接挖掘RESEARCH ON SOCIAL NETWORK ANALYSIS-ORIENTED DATA MINING METHODABSTRACTWith the development of information technology, more and more social relation data have been collected. Effectively analyzing these data will help the human understand the properties of society, and promote the development of
3、 sociology. However, the growth of data presented a huge challenge to the analysis method. Now the scale of social network has already gone beyond the scope of the handling capacity of the original analytical methods. Some more effective tool should be utilized to complete the analysis tasks. Data M
4、ining helps people find a potentially useful knowledge from Massive Data, and play an important role in many fields. Social network analysis is also called linking mining. It use methods of data mining to deal with relational data in social network. This paper briefly introduces some methods in the
5、areas of data mining and social network analysis, and generalizes the application of data mining using in social network analysis.KEY WORDS: social network analysis; data mining; link mining目 录1.引言12.社会网络和数据挖掘方法介绍32.1社会网络分析方法32.1.1用户用户网络模型32.1.2用户事件网络模型42.2数据挖掘方法52.2.1关联规则分析62.2.2聚类分析83.数据挖掘在社会网络分析中
6、的应用93.1基于相似度度量方法103.2基于统计的方法123.3基于频繁模式挖掘的方法144.总结151.引言传统的机器学习处理的社会学中的对象是单独的数据实例,这些数据实例往往可以用一个包含多个属性值的向量来表示,同时这些数据实例之间假设是统计上独立的。例如要训练一个疾病诊断系统,它的任务是诊断一个被试者是否患有某种传染病。传统的学习算法用一个向量来表示一个被试者,同时假设两个被试者之间的患病情况是相互独立的,即知道一个确诊病人对于诊断其他被试者是否患病不能提供任何帮助。直观经验告诉我们这种假设是不合理的。直到二十世纪 30 年代,Jacob Moreno 和哈佛大学的一组研究人员分别提出
7、了社会网络模型来分析社会学中的现象和问题。现代社会学主要研究现代社会的发展和社会中的组织性或者团体性行为。社会学家发现社会实体之间存在着相互的依赖和联系,并且这种联系对于每个社会实体有着重要的影响。基于这样的观察,他们通过网络模型来刻画社会实体之间的关系,并进一步用来分析社会关系之间的模式和隐含规律。为了更好的研究这个问题,他们试图用图结构来刻画这种社会网络结构。一个社会网络由很多节点(node)和连接这些节点的一种或多种特定的链接(link)所组成。节点往往表示了个人或团体,也即传统数据挖掘中的数据实例,链接则表示了他们之间存在的各种关系(relation),如朋友关系、亲属关系、贸易关系、
8、性关系等。由于数据收集方式的限制,早期的社会网络局限于一个小的团体之内,往往仅包含几十个结点。借助于图论和概率统计的知识,人工处理可以从中分析出一些简单的性质和模式。但是,随着现代的通信技术的发展,越来越多的数据被收集和整合在一起,建立一个大的社会网络成为可能。例如,可以通过电子邮件的日志来建立使用者之间的联系网络,或者通过网络日志及网络通讯录等方式将用户提交的联系人信息建立社会网络。所以,现在的社会网络规模比早期网络庞大,通常包含几千或者几万的结点,甚至有多达百万个结点的网络。面对这样庞大复杂的网络,简单的数学知识和原始的人工处理已经不可能进行有效的分析。数据挖掘是从巨量数据中发现有效的、新
9、颖的、潜在有用的并且最终可理解的模式的非平凡过程。数据挖掘就是为了解决当今拥有大量数据,但缺乏有效分析手段的困境而出现的研究领域。目前,已经在包括生物信息学,自然语言处理等许多方面发挥了巨大的作用。与传统的数据挖掘只关注数据实例不同,社会网络分析对链接同样关注。从数据挖掘角度,社会网络分析又称为链接挖掘(link mining)。通过对链接的挖掘我们可以获得关于实例更丰富(如某个实例在整个网络中的重要性)、更准确(如预测某个实例所属的类别)的关系数据(relational data)。社会网络分析是关系数据挖掘的主要应用。关系数据挖掘的发展为社会网络分析提供了更有力的工具,促进了社会网络分析的
10、发展。本文分析了社会网络分析数据的方法以及任务和需求,介绍了几类适于社会网络分析的数据挖掘算法。2.社会网络和数据挖掘方法介绍2.1社会网络分析方法社会网络分析是一套用来分析多个个体通过相互联系构成的网络的结构,性质以及其他用于描述这个网络的属性的分析方法的集合。如社会网络分析方法提供了根据网络中节点的联系紧密情况将网络分层的方法,网络中节点相互作用模式识别,将网络分块,给用户评级,信息扩散,对社会网络提供图形描述,中心度的分布等。下面我们介绍社会网络分析最重要的两个模型,用户用户网络模型和用户事件网络模型2.1.1用户用户网络模型在网络模型中,我们把用户作为节点,用户之间的联系作为节点之间的
11、连线,构成一个社会网络。用户之间产生联系,一个用户对另一个用户的连接可以是一次也可以是多次,并且是带有方向的,因此这是一个带有数值的有向网络。如果用户 A 指向用户 B,则产生弧 AB,这条弧由 A 指向 B,连接的次数就是这条弧的值。整个网络中节点的数量用 l 表示。每个结点用i表示。图2.1 用户用户网络示意图图 2.1 给出了一个由 6 个用户构成的简单的“用户用户网络”示意图。图2.1 中,结点 1到2有1条弧,值为3,表示用户1与用户2有3次连接。结点2与3之间是双向弧,值为 1 和 3,表示用户2与用户3有1次连接,表示用户3与用户2有3次连接,以此类推。威望度计算:在一个有向带值
12、得网络中,一个结点的威望度是指这个结点的入度与所有节点的入度和的比值 6。 (式2.1)式2.1是威望度的计算公式,其中xi-表示节点i的入度。入度是指所有指向该结点的弧上的值的和。如图 2.1中,节点3的入度为 2+3=5,威望度为 5/14=0.385;节点6的入度为 1,威望度为 1/14=0.077;结点1的入度为 0,威望度为 0/13=0。一个结点的威望度越高,该结点所代表的用户被其他用户连接的次数就越多,该用户在网络模型所处的位置就越重要。计算表明在节点数量巨大的网络中所有的节点符合幂律分布而不是随机网络中的正态分布钟形曲线。我们将其记作,根据公式,其中参数就是幂次数。例如,在计
13、算过的万维网文档上的外指链接后,其链接符合公式,其中=2.57。中心度计算:在一个有向带值的网络中,一个结点的中心度是指这个结点的出度与所有结点的出度和的比值6。 (式2.2)式2.2是中心度的计算公式,其中xi+表示节点i的出度。出度是指所有该节点指向其他结点的所有弧上的值的和。如图2.1中结点1的出度为 2+3+2=7,中心度为7/14=0.538,结点3的出度为 1+1+1=3,中心度为3/14=0.154。一个结点的中心度越高,表示该结点连接别人的次数就越多,说明该用户在网络模型中越活跃。2.1.2用户事件网络模型在网络模型中,用户之间除了连接这种联系以外,用户还因为同时参与一个事件而
14、联系,而事件也因有相同的用户参与而联系。在模型中,通过用户与事件之间的联系构建网络拓扑图,假如用户参与了事件 e,则在v和e之间连线,因为我们这里主要研究事件传播的广度,因此我们不考虑用户对同一事件的多次参与,又因为这种联系只在两种不同类型的对象(用户和事件)之间存在,所以方向已经没有意义,因此这是一个不带值的无向图4。图 2.2 用户事件网络示意图图 2.2 给出了一个由6个用户和5个事件构成的简单的“用户事件网络”示意图。图中,左边的6个圆球表示6个用户,由i标出,i从1到6;右边的5个圆球表示5个事件,由ei标出,i从1到5。图中的线连接用户与事件,如1到e1有一条连线,表示用户1参与了
15、事件e1,以此类推。事件的中心度计算:事件的中心度是指参与该事件的人数与总人数个数的比值。 (式2.3)式(2.3)为事件中心度计算公式,其中 xi表示参与ei事件的用户,n表示该图中总的用户个数。如图2.2 中e2事件的参与人数为3,事件中心度为3/6=0.5。事件之间的联系。在图2.2中,事件之间没有直接联系,但是却存在间接联系,我们认为拥有相同的用户参与的两个事件之间存在联系,拥有相同用户的数量越多则两个事件联系越紧密。如,事件e1和e2拥有一个相同的用户(1),则它们的联系强度为1;事件e2和e3拥有 2 个相同的用户(3,4),则它们的联系强度为2。通过这种方式建立只有事件之间的联系
16、而把用户从网络中剥离出来得到新的“事件事件网络”模型,可以很方便的找出联系最紧密的事件。2.2数据挖掘方法数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据库中的知识发现(KDD Knowledge Discovery in Database)、数据分析、数据融合以及决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问
17、题。即所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型模式和描述型模式。第一种是预测型模式,即可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。第二种是描述型模式,即对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像于信息处理和空间数据分析
18、1。这里主要介绍关联规则分析和聚类分析。2.2.1关联规则分析在Jiawei Han的数据挖掘概念与技术中将关联规则的定义如下:设I=I1,I2,Im 是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事物T是项的集合,使得TI。每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当AT。关联规则是形如AB的蕴涵式,其中AI,BI,并且AB=。规则AB在事务D中成立,具有支持度s,其中s是D中事务包含AB(即集合A与B的并或A和B二者)的百分比。它是概率P(AB)。规则AB在事务D中具有置信度c,其中c是D中包含A的事务同时包含B的百分比这是条件概率P(BA)5。即
19、Support(AB)=P(AB)Confidence(AB)= P(BA)同时满足最小支持度阈值和最小置信度阈值的规则称为强关联规则。也说这样的关联规则是有趣的。一般来说关联规则的挖掘可以看成两步的过程:找出所有的频繁项集:根据定义,这些项集的每一个出现的频繁性至少与预定义的最小支持计数一样。由频繁项集产生的强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。关联规则的主要算法有Apriori算法Apriori算法是一种以概率为基础的具有影响的挖掘布尔型关联规则频繁项集的算法。其利用循序渐进的方式,找出数据库中项目的关系,以形成规则。其过程分为两步:一为连接(类矩阵运算),二为剪枝
20、(去掉那些没必要的中间结果)。在此算法中常出现项集的概念。项集 (itemset)简单地说就是项的集合。包含K个项的集合为k项集。项集的出现频率是包含项集的事务数,称为项集的频率。如果项集满足最小支持度,则称它为频繁项集。频繁k项集的集合计作LK.步骤说明(1)制定最小支持度及最小置信度。(2)Apriori算法使用了候选项集的概念,首先产生出物项集合,称为候选项集,若候选项集的支持度大于或等于最小支持度,则该候选物项集合为频繁项集合(Large Itemset).(3)在Apriori算法的过程中,首先由数据库读入所有的数据,得出候选1项集合C1(Candidate 1-itemset)的支
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向社会 网络分析 数据 挖掘 方法 研究 课程 论文