社交网络链接分析--计算机科学与技术专业毕业论文.doc
《社交网络链接分析--计算机科学与技术专业毕业论文.doc》由会员分享,可在线阅读,更多相关《社交网络链接分析--计算机科学与技术专业毕业论文.doc(63页珍藏版)》请在沃文网上搜索。
1、摘要随着网络社交的悄悄演进,一个人在网络上的形象更加趋于完整,这时候社交网络出现了。交友只是社交网络的一个开端,就像Google的开端只是每个网页的backlinks那么普通一样,社交网络的开端只是获取你的个人资料和好友列表。社交网络大体经历了这样一个发展过程:早期概念化阶段SixDegrees代表的六度分隔理论;结交陌生人阶段Friendster帮你建立弱关系从而带来更高社会资本的理论;娱乐化阶段MySpace创造的丰富的多媒体个性化空间吸引注意力的理论;社交图阶段Facebook复制线下真实人际网络来到线上低成本管理的理论。整个SNS发展的过程是循着人们逐渐将线下生活的更完整的信息流转移到
2、线上进行低成本管理,这让虚拟社交越来越 与现实世界的社交出现交叉。六度分割理论只是数学上的一个猜想。 理论指出:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。这就是六度分割理论,也叫小世界理论。论文第一章描述了开题的背景和需求,第二章描述该系统的关键技术和开发环境,第三章是系统的设计,第四章对框架的研究和系统中框架的运用,第五章是对系统安全性的研究以及在系统中的实现,第六章对系统进行测试。第七章就本次的设计进行了总结。关键词:社交网络,六度分割原理 ,小世界理论Social Network Link AnalysisAbstractAs th
3、e network of social quietly evolution, a person in the image of the network more tend to be complete, at this time the social network appeared. Making friends just social networks a beginning, like Google beginning just each page backlinks so normal, the beginning of the social network is to get you
4、r personal data and a friends list. Social networking experiences of such a development process: SixDegrees early conceptualization stage on behalf of six degrees of separation theory; Make stranger stage Friendster help you build weak relationship thus to bring higher social capital theory; MySpace
5、 recreation turn stage creation rich multimedia personalized space attracted attention theory; Facebook social graph stage copying offline real network of low cost management to online theory. The whole process of SNS development is followed, people gradually will line the life more complete informa
6、tion transfer to online the low cost management, it makes virtual social more and more with the real world social appear cross.Six degrees segmentation mere mathematical theory a guess. Theory that: you and any a stranger interval between the people cant more than six, that is, most through the six
7、people you can know any a stranger. This is six degrees segmentation theory, also called small world theory.Chapter one introduces the background and objects of the project. Chapter two discusses the key technology of clustering algorithm.Chapter three is about the data system design. Chapter four i
8、s an analysis digger system based on weka, and the last chapter is the conclusion.Keywords: social networking,SixDegrees Small world theory目录社交网络链接分析iv摘要ivAbstractv第1章 引言11.1系统目标11.2.1开发框架.NET21.2.2开发环境Visual Studio 201031.2.3 开发语言C#31.2.4 数据库MS SQLServer200841.2.5 数据库访问ADO.net4第 2章 系统设计52.1 数据库设计52
9、.2系统总体设计框架62.3系统界面的设计62.4系统功能模块设计7第3章 系统实现83.1整体模块的实现83.2 抓取数据模块的实现83.3 查看好友关系&查看拥有好友个数113.4生成A和B的好友路径模块的实现123.5生成gv格式的文件14第4章 运行结果测试与不足154.1测试目标154.2测试方法154.3测试结果164.3.1抓取数据测试:164.3.2查看好友关系和查看好友数量测试174.3.3生成好友路径194.4系统的不足23第5章 总结和展望245.1总结24参考文献26致谢27附录一:翻译28英文原文28中文译文32附录二:核心代码36附录三:任务书52附录三:开题报告5
10、4第1章 引言社交网络在人们的生活中扮演着重要的角色,它已成为人们生活的一部分,并对人们的信息获得、思考和生活产生不可低估的影响。社交网络成为人们获取信息、展现自我、营销推广的窗口。但是与此同时,社交网络也存在着一些弊端,包括个人信息的泄露等等。尤其是青少年,他们处在社交网络的前端,但同时也是受影响最深的。 研究中说,“一个社区账号可以是萌生浪漫的地方,也可以是冲突的舞台,在过去,谈话的中介是信件、电话或手机。现在,所有的互联网用户都接触到更广阔的网络用户。在这个新的环境里,关于行为和礼貌的社会规则仍然在形成中。” 对青少年来说超过22%的青少年的在线行为最终“使他们与某个人的友谊结束”;25
11、% 的青少年在社交网络上的行为最终导致了面对面的争吵或对抗;13% 的青少年在社交网络上有对抗之后,第二天去学校会感觉紧张,同样百分比的青少年因此与父母产生了问题;8% 的青少年因为社交网络上的事情最终产生了身体对抗,6% 的人因此在学校遇到了麻烦。 联盾护航360调查发现,未成年人借助社交网络,建立虚拟的人际信任关系。74.8%的未成年人觉得网络社交不会暴露自己的真实身份,70.0%的未成年人觉得网上聊天比面对面交谈让自己更加轻松自在,69%的未成年人强调,网络社交能结交到志同道合的朋友。网络社交在未成年人眼中有独特的魅力。此调查意味着,家长为了更好地保护孩子的网络社交安全,护航360提供了
12、自动化的工具,帮助实现家长的愿望。这次设计我将自动化遍历整个网络社区,抓取所有的用户链接,以此来验证六度分割原理是否符合某一个网络社区。1.1系统目标本系统的目标是开发一个可以从科学网中某一个博友开始,分析链接规律,获取博主ID,然后在遍历链接他的好友列表,直到遍历完整个博客社区。存储所捕获的信息(用户ID)。然后就是对捕获的信息做分析处理。有了前面所捕获的ID,我们就构建了一个六度空间,这样只要我们输入我们的ID(可确认的身份识别),输入对方的ID,就会搜索出我到他的关系,譬如:输入张三、李四。可能会返回这样的结果:张三和李四想要认识至少需要经过几个好友以及经过那几个好友是谁。同时利用Gra
13、phviz2.28生成好友之间的聚类关系,我们可以从分析好友之间的关系获得关系路径,生成字符串,保存为 .gv 格式的文件,然后通过Graphviz2.28工具就可以生成直观的关系网络结构图。要求系统具有以下特性:(1)能够直接“透视”数据库情况,尽量不和文件数据直接操作。(2)系统运行稳定,安全可靠。(3)操作简单,界面友好。第1.2节 开发工具和环境1.2.1开发框架.NET.NET框架是以一种采用系统虚拟机运行的编程平台,以通用语言运行库(Common Language Runtime)为基础,支持多种语言(C#、VB、C+、Python等)的开发。NET也为应用程序接口(API)提供了
14、新功能和开发工具。这些革新使得程序设计员可以同时进行Windows应用软件和网络应用软件以及组件和服务(web服务)的开发。.NET提供了一个新的反射性的且面向对象程序设计编程接口。.NET设计得足够通用化从而使许多不同高级语都得以被汇集。.NET Framework中的所有语言都提供基类库(BCL)。初级组成是CIL和CLR。CIL是一套运作环境说明,包括一般系统、基础类库和与机器无关的中间代码,全称为通用中间语言(CIL)。CLR则是确认操作密码符合CIL的平台。在CIL执行前,CLR必须将指令及时编译转换成原始机械码。 所有CIL(通用中间语言)都可经由.NET自我表述。CLR检查元资料
15、以确保正确的方法被调用。元资料通常是由语言编译器生成的,但开发人员也可以通过使用客户属性创建他们自己的元资料。 如果一种语言实现生成了CIL,它也可以通过使用CLR被调用,这样它就可以与任何其他.NET语言生成的资料相交互。CLR也被设计为作业系统无关性。 当一个汇编体被载入时,CLR执行各种各样的测试。其中的两个测试是确认与核查。在确认的时候,CLR检查汇编体是否包含有效的元资料和CIL,并且检查内部表的正确性。核查则不那么精确。核查机制检查代码是否会执行一些“不安全”的操作。核查所使用的演算法非常保守,导致有时一些“安全”的代码也通不过核查。不安全的代码只有在汇编体拥有“跳过核查”许可的情
16、况下才会被执行,通常这意味着代码是安装在本机上的。 通过.NET,你可以用SOAP和不同的Web services进行交互。图1.21:.Net FrameWork框架图。1.2.2开发环境Visual Studio 2010Visual Studio 是微软公司推出的开发环境。是目前最流行的 Windows 平台应用程序开发环境。Visual Studio 可以用来创建 Windows 平台下的 Windows 应用程序和网络应用程序,也可以用来创建网络服务、智能设备应用程序和 Office 插件。1.2.3 开发语言C#C#派生于C/C+,是Microsoft专门为使用.NET平台而创建的
17、一种新型编程语言,也是在移植到其他操作系统上的.NET版本中使用的主要语言。与Windows的体系结构相似,易为开发人员所熟悉。C#是面向对象的编程语言,具有面向对象编程语言的一切特性,封装性使代码逻辑清晰、易于管理;继承性和多态性使代码的可重用性大大提高。与其他语言相比,C#更安全,更强大。C#是一种安全的、稳定的、简单的、优雅的,由C和C+衍生出来的面向对象的编程语言。它在继承C和C+强大功能的同时去掉了一些它们的复杂特性(例如没有宏和模版,不允许多重继承)。C#综合了VB简单的可视化操作和C+的高运行效率,以其强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程的支持成为.
18、NET开发的首选语言。 并且C#成为ECMA与ISO标准规范。C#看似基于C+写成,但又融入其它语言如Pascal、Java、VB等。 微软c#语言定义主要是从C和C+继承而来的,而且语言中的许多元素也反映了这一点.C#在设计者从C+继承的可选选项方面比Java要广泛一些(比如说struts),它还增加了自己新的特点(比方说源代码版本定义).但它还太不成熟,不可能挤垮Java.C#还需要进化成一种开发者能够接受和采用的语言.而微软当前为它的这种新语言大造声势也是值得注意的.目前大家的反应是:这是对Java的反击. C#更像Java一些,虽然微软在这个问题上保持沉默.这也是意料中的事情,我觉得,
19、因为Java近来很成功而使用Java的公司都报告说它们在生产效率上比C+获得了提高.1.2.4 数据库MS SQLServer2008SQL Server 2008 是一个全面的数据库平台。为关系型数据和结构化数据提供了更安全可靠的存储功能,可以构建和管理用于业务的高可用和高性能的数据应用程序。此外 SQL Server 2008 结合了分析、报表、集成和通知功能。同时,SQL Server 2008具有完全的Web功能,通过对高端硬件平台及最新网络和存储技术的支持,可以为Web站点提供可扩展性和高可靠性。在安全方面,可以保护防火墙内外的数据,支持灵活的、基于角色的安全设置,并提供高级的文件加
20、密和网络加密功能。1.2.5 数据库访问ADO.netADO.NET是.NET应用程序的数据库访问模型。它能用于访问关系型数据库系统,如SQL Server 2000,及很多其它已配备了OLEDB供应器的数据源。为了实现数据库访问和数据操作的分离ADO.NET分别使用两类组件,即数据供应器(Data Provider)和数据集(Dataset)。数据供应器用于连接数据库,执行数据操作命令等。数据集则提供了一个与数据源无关的数据表达方式。使用数据供应器对数据库操作后的结果可以直接被处理,也可以放到数据集对象中。数据供应器提供了对底层数据源的访问,包括Connection,Command,Data
21、Reader、 DataAdaper四个对象。第 2章 系统设计2.1 数据库设计数据库设计是系统开发中关键的步骤之一,其设计质量的好坏,数据结构的优劣,直接影响到最终系统的成败。由于毕业设计管理系统涉及信息管理和操作,所以能否建立一个良好的数据组织关系和数据库,使整个系统的数据之间可以相互共享所拥有的信息资源,可迅速、方便、准确的调用和管理所需的数据,是衡量本系统开发工作好坏的重要指标,也是系统的基本要求。数据库设计的基本原则是在系统总体方案的指导下,数据库应当为它所支持的管理目标服务,所以,在设计系统数据库系统时,重点要考虑了以下几个因素10:(1)数据库必须层次分明,布局合理。(2)数据
22、库必须高度结构化,保证数据的结构化、规范化和标准化,这是建立数据库和进行信息交换的基础。数据结构的设计应该遵循国家标准和行业标准,尤其是要重视编码的应用。(3)在设计数据库时,一方面要尽可能地减小冗余度,减小存储空间的占用,降低数据一致性问题发生的可能性;另一方面,还要考虑适当的冗余,以提高运行速度和降低开发难度。(4)必须维护数据的正确性和一致性,在系统中,多个用户共享数据库,由于并发操作,可能影响数据的一致性,因此必须用“锁”等办法保证数据的一致性。(5)设定相应的安全机制,由于数据库的信息对特定的用户有特定的保密要求,安全机制必不可少。DB_Relation数据库表的设计:字段名类型Id
23、int 自动增长标识符mian_idnvcharNot NULLref_idnvcharNot NULL2.2系统总体设计框架 从网络抓取数据来支撑系统的运行,抓取数据存入数据库,系统对数据库中的数据进行操作分析,显示想要得到的结果。 图2.2:系统总体框架2.3系统界面的设计(1)符合windows程序的UI设计,风格布局一致的特点,没有过多的图案图片装饰设计。(2)便捷操作的菜单项 和 工具栏按钮(3)系统界面遵循操作简单、界面友好原则。(4)操作界面的一致性,各个小功能模块的设计都采用统一的设计。(5)系统配色简单大方,庄重舒适。(6)人机交互友好,用户能够方便地在各个功能模块之间切换。
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社交 网络 链接 分析 计算机科学 技术 专业 毕业论文