数据挖掘技术在电信计费系统中的应用.docx
《数据挖掘技术在电信计费系统中的应用.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在电信计费系统中的应用.docx(33页珍藏版)》请在沃文网上搜索。
1、 摘要本毕业论文所介绍的是数据挖掘技术在电信计费系统中的应用。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但又是潜在有用的信息和知识的过程。随着网络的高速发展,一些大型厂商推出了服务器出租这项业务。为了使得出租商快捷、方便以及高效的统计出用户的登录信息及应缴费情况,本论文开发了一个电信计费系统。本系统采用C/S架构,在UNIX环境下以C+为主要的开发语言开发完成。客户端的功能包括定时从服务器日志文件采集用户数据,匹配登入/登出信息,向服务器发送数据;服务端的功能包括接收客户端发送过来的数据,存储数据和整合数据等。关键词:毕业设计;电信计费系统;数
2、据匹配;数据整合 The Application of Data Mining Technology in the Telecom Toll SystemAbstractDescribed in this thesis is the application of data mining technology in the telecommunications billing system. Data mining is implied from a large number of incomplete, noisy, fuzzy, random data in which, not known
3、 in advance, but potentially useful information and knowledge. With the rapid development of the Network, some large companies such as China Telecom launched the server rent business. In order to statistic user login information and charge more fast, conveniently and efficiently, a Telecom toll syst
4、em is developed in this paper. This system is programmed by C+ language with C/S architecture in UNIX operating system. The functions in client port include reading user information from server log file ,matching data and sending data to a server. The functions in sever port include receiving data f
5、rom client, data storage and integrating data. Keywords: Graduation design, the Telecom toll system, Data match, Data integration目 录第1章 绪论11系统背景在电信的业务中,有一种Unix实验室出租业务。只要用户向电信运营商申请一个Unix帐号,就可以远程登录Unix实验室,并使用Unix系统。用户使用电信运营商提供的Unix实验室的服务需要缴纳一定的费用,电信运营商需要一套数据采集系统,把用户登录实验室的时间长度数据采集起来,便于在指定的时间范围内作为对用户的收费
6、依据。要求数据采集系统必须采集如下信息:登录用户名,登录的时间,登出的时间,登录总的在线时间,登录的实验室IP,用户的终端IP等信息。系统需要开发这样一个通用的数据采集系统程序来采集Unix机器记录的用户登入和登出的原始记录,并将这些记录解析匹配成用户的登录记录,然后发送给数据采集服务器,在服务器端将这些数据以日期为单位保存在数据库中,然后整合这些数据形成日报表,月报表和年报表。12系统原理任何用户登录Unix系统,Unix系统都会记录用户的登录信息,所有用户登入/登出的信息都保存在Unix的系统日志文件中。数据采集系统就是通过读取Unix系统日志文件中用户登入/登出信息,并找出成对的登入/登
7、出记录,得到用户登录实验室的登入时刻、登出时刻、登录时间长度等电信用户收费需要使用的数据,最后把匹配处理好的数据保存成电信工作人员可以阅读的文本文件,做为电信收费依据。用户登录Unix系统的日志记录文件在Unix的/var/adm目录下,文件名是wtmpx,日志记录文件是一个二进制文件,在Unix中可以使用last指令查看,last命令格式为:last -a -n number | -number -f filename name | ttywtmpx文件中一条登录记录包含372字节,每条记录包含的数据项格式说明如下表1-1所示: (其中黄色背景标识的数据项就是要采集的数据项) 位置范围字节长
8、度含义000-03132/* 用户登录名 */032-0354/* inittab id */036-06732/* device name (console, lnxx) */068-0714/* 进程ID*/072-0732/* 登录类型7-登入,8登出 */074-0752/* process termination*/076-0772/* exit status*/2/* 这是C数据类型补齐产生的空位*/080-0834/* 登录时刻*/*单位是秒 */084-0874/* and microseconds */088-0914/* session ID, used for windo
9、wing */092-11120/* reserved for future use */112-1132/* significant length of ut_host */114-371257/* 登录IP*/【表1:用户登录记录数据项格式】登录记录总数计算公式为:登录记录总数=日志文件大小/372。数据名数据含义是否需要采集备注说明logname用户登录名是匹配同一次登录会话的必须数据之一pid进程ID匹配同一次登录会话的必须数据之二type登录类型7-登入,8登出Type的值在1-8之间,但只处理7与8两种情况logtime登录时刻*/*单位是秒是要采集的数据,logtime是登入或登
10、出时刻logip登录IP是要采集的数据表1-2:要读取的原始记录数据数据名数据含义备注说明logname用户登录名logintime登入时刻logouttime登出时刻durations登录时间长度logip登录终端的ip地址表1-3:匹配登录记录数据用户的登录信息数据在每一台机器上匹配好后需要发送到服务器来,服务器接收到这些匹配好的数据记录后将其保存在数据库中,形成用户登录记录明细表。然后我们的程序需要定期的整理出日报表,月报表和年报表。在数据库中保存的用户登录记录明细表结构如下:数据名数据含义备注说明logname用户登录名logintime登入时刻logouttime登出时刻durati
11、ons登录时间长度logip登录终端的ip地址labip用户登录的实验室IP整理成日报表后形成如下数据项:数据名数据含义备注说明logname用户登录名logip登录终端的ip地址DAY_TIME日登录时间长度Labip用户登录的实验室IPMonth用户登录月份整理成月报表后形成如下数据项:数据名数据含义备注说明logname用户登录名Logip登录终端的ip地址MONTH_TIME月登录时间长度Labip用户登录的实验室IPYear用户登录年份整理成年报表后形成如下数据项:数据名数据含义备注说明Logname用户登录名Logip登录终端的ip地址YEAR_TIME年登录时间长度Labip用户
12、登录的实验室IP第2章 需求分析2.1 功能概述系统主要实现以下核心功能:数据读取,数据匹配,数据发送,数据接收,数据存储,数据整合。2.1.1 数据读取该功能模块的主要任务是读取Unix机器的用户登录记录文件,将文件的信息解析为程序对象,以方便匹配模块的匹配。2.1.2 数据匹配该模块的主要任务是将数据读取模块读取到的数据按照登入/登出的关系匹配成一条完整的登录记录。2.1.3 数据发送该模块的主要任务是建立客户端网络连接,将匹配好的用户登录记录以字符串的形式发送到服务器。2.1.4 数据接受该模块的主要任务是建立服务器端网络连接,从客户端读取匹配好的用户登录记录字符串。2.1.5 数据存储
13、该模块的主要任务是将数据接收模块接收到的数据保存到指定的数据库表中。2.1.6 数据整合该模块的主要任务是将数据库中保存的用户登录记录明细表的数据整合成日报表,月报表和年报表。2.2 系统描述2.2.1 数据采集用例名称数据采集功能简述管理员运行程序,完成数据采集的功能前置条件程序已正确安装并部署基本流1. 管理员启动服务端程序2. 管理员启动客户端程序3. 客户端程序读取上次未匹配的登入记录4. 客户端程序读取用户登录数据文件5. 客户端程序得到用户登入/登出记录列表6. 客户端程序将用户的登入和登出记录按照对应关系匹配成完整的登录记录7. 客户端程序将不能成功匹配的登入记录写到文件中保存8
14、. 客户端程序将匹配好的登录记录发送到数据采集服务端9. 服务端程序接收采集的数据10. 服务端程序将数据写到服务端文件中保存下来分支与异常第1步,若启动服务端程序失败,则报告异常。第2步,若启动客户端程序失败,则报告异常。第3步,若上次未匹配的登入记录文件不存在,则跳过到第3步。第4步,若读取用户登录数据文件失败,则报告异常。第7步,若指定的写出目录不存在,则创建目录。第7步,若创建目录或写文件失败,则报告异常。第8步,若发送数据失败,则定时重传。第10步,若写入文件失败,则报告异常。后置条件无备注无2.2.2 数据读取用例名称数据读取功能简述程序读取系统数据文件和上次未匹配的登入记录,形成
15、用户登录记录列表。前置条件客户端程序启动基本流1. 根据系统配置信息确定上次未匹配的登入记录文件的位置。2. 读取上次未匹配的登入记录,形成用户登录记录列表。3. 根据系统配置信息确定用户登录数据文件的位置。4. 读取数据文件,将文件内容解析成用户登录记录。5. 将上一步中解析得到的用户登录记录添加到列表中。6. 返回用户登录记录列表。分支与异常第2步,若上次未匹配的登入记录文件不存在,则跳过到第3步。第4步,若用户登录数据文件不存在,则报告异常。后置条件无备注无2.2.3 读取上次未匹配的登入记录用例名称读取上次未匹配的登入记录功能简述程序读取上次未匹配的登入记录,形成用户登录记录列表。前置
16、条件客户端程序启动基本流1. 根据系统配置信息确定上次未匹配的登入记录文件的位置。2. 读取文件内容,将数据解析成用户登入记录。3. 创建内存列表,保存读取到的登入记录数据。4. 清空未匹配的登入记录文件。分支与异常第2步,若上次未匹配的登入记录文件不存在,则结束此用例。第2步,若读取文件失败,则报告异常。第4步,若清空文件失败,则报告异常。后置条件无备注无2.2.4 读取用户登录数据文件用例名称读取用户登录数据文件功能简述程序读取用户登录数据文件,形成用户登录记录列表。前置条件客户端程序启动基本流1. 根据系统配置信息确定数据文件位置。2. 备份数据文件,并删除原始数据文件。3. 根据系统配
17、置信息确定上次未匹配的登入记录文件的位置。4. 读取上次未匹配的登入记录,形成用户登录记录列表。5. 读取数据文件,将文件内容解析成用户登录记录。6. 将上一步中解析得到的用户登录记录添加到列表中。7. 返回用户登录记录列表。分支与异常第2步,若找不到数据文件,则报告异常。第2步,若备份数据失败,则报告异常。第3步,若上次未匹配的登入记录文件不存在,则跳过到第4步。第4步,若读取备份数据文件失败,则报告异常。第6步,若指定的写出目录不存在,则创建目录。第6步,若创建目录或写文件失败,则报告异常。第7步,若指定的写出目录不存在,则创建目录。第7步,若创建目录或写文件失败,则报告异常。后置条件无备
18、注无2.2.5 数据匹配用例名称数据匹配功能简述程序读取用户登入/登出记录列表,按照登入/登出的对应关系匹配成完整的用户登录记录,并将本次未匹配的登入记录写到指定文件。前置条件已经获得用户登入/登出记录列表基本流1. 访问用户登入/登出记录列表,按照登入/登出的对应关系匹配登录记录。2. 将未匹配的登入记录写到文件中。分支与异常后置条件无备注无2.2.6 匹配登录记录用例名称匹配登录记录功能简述将用户登入/登出记录按照对应关系匹配成用户登录记录,以便计算用户登录时长。前置条件已经获得用户登入/登出记录列表基本流1. 定义两个列表分别用来保存登入记录和登出记录。2. 循环访问用户登入/登出记录列
19、表,将登入记录和登出记录分检出来,分别存入登入记录列表和登出记录列表。3. 循环访问登出记录列表,每找到一条登出记录后循环访问登入记录列表,找到与之对应的登入记录,将两条对应的记录组合成用户登录记录,并将这两条记录从列表中删除。4. 循环直至所有的登出记录都处理完成。分支与异常后置条件无备注无2.2.7 保存未匹配的登入记录用例名称保存未匹配的登入记录功能简述将匹配之后剩余的登入记录数据保存到文件中,以便下次匹配。前置条件匹配登录记录完成基本流1. 将匹配完成后,登入记录列表中剩余的记录写到文件中保存。分支与异常第1步,若找不到指定文件,则创建。第1步,若创建文件失败,则报告异常。后置条件无备
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 电信 计费 系统 中的 应用