基于关注者相似度分析的微博用户标签推荐系统的设计与实现.doc
《基于关注者相似度分析的微博用户标签推荐系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《基于关注者相似度分析的微博用户标签推荐系统的设计与实现.doc(57页珍藏版)》请在沃文网上搜索。
1、摘 要近年来随着科学技术在我国较快速的发展,微博在我们的社会和生活中扮演了很 重要的角色,用户可以通过微博发送和获取大量的信息,也可以和其他用户进行交互, 来实现信息的实时评论、转发等操作。由于微博每天产生的信息量巨大,如何从大量 的微博信息中挖掘出有价值的信息,是现代互联网应用范围很广的一个产业,在这一 产业中,用户兴趣特征对挖掘微博的价值非常重要。然而,传统的用户兴趣挖掘方法 却无法较好的适应微博的特点。所以,本文在现有微博兴趣挖掘方法的基础上,设计 了基于关注者相似度分析的微博用户标签推荐系统,根据用户的标签信息来显示出用 户的兴趣所在。其中,本文挖掘的关注者主要包括当前用户的关注者和关
2、注当前用户 的粉丝。本文所做的主要工作包括以下几个方面:(1)针对微博特点,设计了基于关注者相似度分析的微博用户标签推荐系统,首 先对系统的整体框架进行了设计,然后,在微博数据的获取方式上,本文主要采用了 以新浪微博开放平台 API 接口为主,以网络爬虫为辅的方式来获取用户信息。(2)对获取的用户数据信息进行预处理,将重复和对推荐结果没有用的数据信息 在存放到数据库之前进行删除。然后,采用 SQL Server 2007 数据库来存放获取到的用 户信息。(3)进行标签推荐时,本文主要分析了基于 TF-IDF 与权重相结合的标签推荐算法 和基于用户交互关系的 TagRank 标签推荐算法。最后,
3、本文又整合了这两种算法提出 了基于关注者相似度分析的微博用户标签推荐算法,经过实验验证,发现本文提出的 算法得到的推荐较以上两种算法更准确。关键词:标签推荐,兴趣挖掘,微博,TagRank,TF-IDFIAbstractIn recent years, with the more rapid development of science and technology in China, the microblog plays a very important role in our society and life. The microblog users can send and recei
4、ve large amounts of information, and can also interact with other users, to achieve real-time information, commented, transfered and other operations. Due to the enormous amount of information generated by microblog every day, how to dig out the valuable information from a large number of microblog
5、information, is a wide range industry in the modern Internet applications. In this industry, the value of user interest feature on the dig microblog is very high. However the traditional user interest mining method can not adapt to the characteristics of microblog, so based on the existing micro-blo
6、g interest mining method ,the thesis designs a microblog users tag recommendation system which based on the similarity analysis of followers, according to the users label information to display the users interest.The mining of followers in this thesis, mainly includes the current users followers and
7、 the fans of the current user. The main contents of the thesis include:(1) According to the characteristics of microblog, the thesis designs a microblog users tag recommendation system which based on the similarity analysis of followers, firstly, the overall framework of the system is designed, then
8、, on the microblog data acquisition mode, the thesis mainly uses the open platform API interface of the sina microblog, supplemented by web crawlers way to get user information.(2) The preprocess of the users data and information obtained, the repeated and uselessinformation which without help to th
9、e recommendation result will be delete before is stored in theIIIdatabase. Then, using the SQL Server2007 database to store the acquired user information.(3) In label recommendation, the thesis mainly analyzes a label recommended algorithm which based on the combination of TF-IDF and weights,and ana
10、lyzes the TagRan algorithm which make recommendation based on the interactions between users. Finally, combining the advantages of two algorithms, the thesis proposes the microblog users tag recommendation algorithm which based on the similarity analysis of followers , through experimental verificat
11、ion, the recommendation got by the proposed algorithm was more accurately than the above two algorithms.KEY WORDS: label recommendation, interest mining, microblogging, TagRank, TF-IDF目 录摘 要IAbstractIII1 绪 论11.1 研究背景和意义11.2 国内外研究现状11.3 相关技术介绍21.3.1 数据挖掘技术21.3.2 社交网络数据挖掘技术31.4 论文的内容结构42 用户标签推荐数据获取72.
12、1 基于新浪微博 API 的微博数据获取82.2 基于网络爬虫的微博数据获取122.2.1 网络爬虫技术122.2.2页面解析技术152.3 两种获取方式的比较与选择163 用户标签推荐数据预处理193.1 新浪微博 API 获取数据预处理193.2 网络爬虫获取数据预处理223.3 用户标签推荐数据库设计223.3.1 数据库分析223.3.2 数据库详细设计253.3.3 数据库操作类设计264 用户标签推荐方法研究314.1 基于 TF-IDF 与权重相结合的用户标签推荐算法314.2 基于用户交互关系的 TagRank 标签推荐算法33V4.3 基于关注者相似度分析的标签推荐算法344
13、.4 用户标签推荐方法的相似度过滤和排名355 实验与性能评估375.1 实验数据与实验环境375.2 实验设计与结果396 总结和展望436.1 总结436.2 展望44参 考 文 献45致 谢491 绪论1 绪 论1.1 研究背景和意义近年来随着互联网技术在我国的飞速发展,截止到 2012 年 6 月底,中国网民数量 为 5.38 亿,互联网普及率达到了 39.9%,超过了 2011 年互联网普及率 30.2%的世界平均 水平。从国外比较流行的 MSN、Facebook,再到国内比较流行的 QQ,以及新浪微博的 使用,各种各样的网络平台不断的出现1。微博是一个实现用户信息分享、传播和获 取
14、信息的平台,用户可以使用网页或者客户端登录微博账号,发布微博信息,并且与 其他用户进行信息分享2。微博是一个使用门槛低、操作简单、易实现的交互性平台3。 在短短的几年时间里,微博的使用人数就已经破亿。在微博的研究领域,信息的主动发出者是用户,他是微博研究的核心。通过当前 用户可以了解到其他用户所发布的微博内容,以及通过研究用户之间的潜在关系,可 以为重要的用户提供个性化的服务4,并能为他提供新产品的推荐等商业活动5。然而, 在信息如此爆炸的时代,信息层出不穷的出现导致了信息的泛滥,对于用户来说,如 何能够更加快速、准确地推荐给当前用户他所感兴趣的信息十分重要,因此对信息的 高效提取,提供给当前
15、用户个性化的服务,从中筛选出高质量的内容,并降低提取信 息所用的时间和金钱成本变得越来越重要了。然而,用户的兴趣发现是从微博中提取 用户感兴趣信息的前提,用户的标签信息则更能直观的反应当前用户的兴趣特征,因 此,如何准确地获取用户的标签信息变得非常重要。同时,对于使用微博进行营销或 者广告促销的运营商来说,能够发掘出当前用户的标签兴趣特征,根据当前用户的标 签特征来进行商品的推荐,给自己也给用户带来了很多的方便。1.2 国内外研究现状用户的标签兴趣特征主要是根据当前好友中的标签信息来推荐相似度高的标签, 通过对用户标签的推荐,可以为当前用户提供他所感兴趣的信息。这是近年来应用非 常广泛的一种个
16、性化推荐方法。用户的标签兴趣特征主要分为显示的标签信息和隐式5的标签信息。其中,显示的标签信息主要是用户注册时,对标签信息的填写,然而, 对于大多数用户来说,他们并不想直接向网站描述自己的兴趣,所以我们需要通过隐 式的方式来获取当前用户的标签信息,从而根据用户的标签信息进行用户兴趣特征的 推荐。在国内,Li6等人通过对网页的标签分享网站 del.icio.us 等进行研究,将频繁使用 的标签通过关联规则挖掘的方法进行提取,将同现频率超过一定阀值的标签集合作为 话题,对话题中的用户和 URL 分别使用聚类的方法,根据用户的标签信息来发掘出用 户的兴趣。Liu7等人通过对微博内容中关键词的提取来发
17、掘用户的兴趣特征,他采用 TF-IDF 与统计机器翻译相结合的方式,将微博中出现次数较多的关键词推荐给当前用 户。Wu8等人通过采用 TF-IDF 和 TextRank 这两种方法来提取出微博中的关键词,从而 进行标签的推荐。陈渊9等人通过对国内外微博的特点和用户特征进行分析,提出了 针对不同群体的微博标签推荐方法。在国外,Adomavicius 和 TuzhiUn10通过对用户的访问记录进行挖掘得出用户之间 的关联规则,之后通过用户之间的关联规则和个人信息来发掘出用户之间的标签兴趣 模型。Sofia Stamou 和 Alexandras Ntoulas11根据网页的主题信息和关键词来发掘出
18、用户的 标签兴趣特征。Schwab12,13等人通过用户对感兴趣网页的选择作为样本,通过对网页 上指定位置出现的关键词进行选择来描述用户的兴趣14。Hochul Jeon 等15根据用户动 态的更新策略来对用户的兴趣特征建模。Wen16将收集到的微博整合成一个大本文, 利用 LDA 模型发现用户潜在的兴趣特征。根据微博用户的数据特点,Michelson17采用 维基百科中的分类的标签实体,将不同的标签进行了分类。1.3 相关技术介绍由于在进行关注者相似度分析的微博用户标签推荐研究时,我们需要用到相关的 数据挖掘方面的知识,本小节主要对数据挖掘方面的相关技术进行介绍。1.3.1 数据挖掘技术在这
19、个信息爆炸的时代,信息过量成为现代互联网领域需要面对的问题,如何从 这些海量的信息中及时发现有用的知识,提高信息利用率,需要用到数据挖掘方面的 知识18。数据挖掘不仅查询过去的信息,还能找出数据与数据之间的关系19,它是人工智 能和数据库技术领域的研究热点,它将大量的数据信息利用各种分析工具,在这些信 息中发现模型和数据间关系的趋势,这些模型和趋势可以被收集在一起来定义为挖掘 模型,从而应用于特定的数据挖掘与分析20。数据挖掘是一个多步骤的过程,主要分 为理解数据和数据的来源、了解相关知识与技术、集成数据与检查数据、去除错误与 不一致的数据、建立模型、处理挖掘到的数据信息、测试和验证挖掘结果等
20、 7 个步骤。 其中,在挖掘的过程中,大量的准备工作与规划要提前完成,而且至少 60%的费用要 花在数据收集上,而至少 60%的精力和时间要花在数据的净化、数据格式的转换、变 量整合以及数据表的链接上21。数据挖掘的主要功能有:(1)分类:是将数据库中的数据项分别分到每一个数据 库的表格中22;(2)数据总结:数据挖掘是从大量的数据信息中挖掘出有用的信息, 然后对它进行统计,分析23;(3)预测:通过对对象的发展规律做出分析,来做出对 未来的预测24;(4)关联分组:就是寻找数据库中值之间的联系,两种常用的技术是 关联规则和序列模式25。关联规则就是寻找在同一个事件中出现的不同项之间的联系 2
21、6;序列模式就是寻找事件在时间上的联系性 27。(5)聚类分析:就是将整个数据库 分成不同的群组,相同或者相似的数据分到一组,不同的分组之间有一定的差异28。(6)偏差检测:对研究的数据之间进行少数的、极端的特例的描述,并说明内在的原 因。1.3.2 社交网络数据挖掘技术随着 Facebook 的上市,社交网络又一次成为了人们关注的焦点。与传统的社交工 具相比,现代的社交网络成为了连接人与人之间、人与物之间更加方便、快捷的桥梁, 它使得现实世界和虚拟世界有了很好的沟通。从国外现有的 Facebook、Twitter、LinkedIn 这 3 种发展较好的社交网络来看,Facebook 主要是关
22、于朋友之间强关系的社交网络, 使用 Facebook 可以方便朋友之间的交流和信息的传递;Twitter 主要是关于单向关注的 用户之间弱关系的维护,Twitter 更方便应用于公司内部或者企事业单位内部上级向下 级消息的传达;LinkedIn 是主要针对于商务人士的社交网络,使用 LinkedIn 社交网络可 以方便商务人士交流、办公以及求职招聘等29。另外,从国内来看,随着 web2.0 网络应用形式的出现,2009 年新浪微博开始正式上线30。在新浪微博发展的这 6 年时间里,新浪微博的每一个功能和第三方应用功 能的变化,都对新浪微博中信息的传播和用户的行为产生了或大或小的影响31。例如
23、, 微博中出现的文字图片应用,使得现在所有基于分词技术微博信息分析器出现了失效 现象;又如在很早以前的微博版本中,微博只能够满足单张图片的添加,而其他的微 博信息则需要通过 URL 的形式加载在微博内容中,而今天的微博则可以满足视频、音 乐、大量图片、长微博、LBS 服务等内容32,其中任何一个功能的应用,都会对微博 中数据挖掘技术的应用产生影响。鉴于上述的种种现象,社交网络每天都有大量的用户信息(UGI,User Generated Information)以及各种各样的新应用出现,并且这些信息具有一定的规模性和群体性, 从而吸引了大量的研究者想从这些信息中发掘出有价值的信息。正如概率统计中
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 关注 相似 分析 用户 标签 推荐 系统 设计 实现