1、 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 1 页,共 48 页 产品名称 密级 GSM RNP 内部公开 产品版本 共 48 页 1.0 GSM KPI监控和优化指导书(仅供内部使用)拟制:日期:2008-12-25 审核:GSM技术支持中心 日期:2008-12-26 批准:日期:华为技术有限公司 版权所有 侵权必究 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 2 页,共 48 页 修订记录修订记录 日期日期 修订版本修订版本 修订描述修订描述 审核审核 作者作者 GSM KPI 监控
2、和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 3 页,共 48 页 目目 录录 1 概述概述.8 2 监控及优化监控及优化 KPI 对象对象.9 2.1 建议监控的 KPI.9 2.2 KPI 关联子性能.11 2.2.1 TCH掉话率相关子性能.12 2.2.2 切换成功率相关子性能.12 2.2.3 拥塞相关子性能.13 2.2.4 TBF掉话率相关子性能.13 3 KPI 监控评判标准监控评判标准.15 3.1 KPI 监控标准的来源.15 3.1.1 合同KPI要求.15 3.1.2 指导书默认底线.15 3.2 KPI 默认底线.15 3.2.1 底线概
3、念.16 3.2.2 底线相关性.16 3.2.3 默认KPI红线.17 3.2.4 现场监控KPI选择建议.18 3.3 KPI 监控数据的要求.18 3.3.1 KPI监控数据的可信性.18 3.3.2 KPI数据采集周期建议.19 4 KPI 监控及优化应用策略监控及优化应用策略.20 4.1 KPI 监控及优化思路.20 4.2 网络级 KPI 监控及优化.21 4.3 区域性 KPI 监控及优化.22 4.4 TOPN 坏小区的筛选.22 5 KPI 监控及优化分析监控及优化分析.24 5.1 CS 域可用性分析.24 5.2 CS 域资源利用率分析.25 5.2.1 SDCCH拥塞
4、率.25 5.2.2 TCH拥塞率.26 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 4 页,共 48 页 5.3 CS 域掉话率分析.26 5.4 切换成功率分析.27 5.5 CS 域接入性分析.28 5.6 CS 域寻呼成功率分析.28 5.7 PS 域接入性能(ACCESSABILITY)分析.28 5.7.1 TBF拥塞率.29 5.7.2 PDCH分配成功率.29 5.7.3 TBF建立成功率.29 5.8 PS 域 TBF 掉话率(TBF DROP RATE)分析.30 5.9 PS 域 TBF 重传率(RETRANSMISSI
5、ON RATE)分析.30 6 KPI 监控基于监控基于 NASTAR 的实现的实现.31 6.1 NASTAR GSM 日周月报.31 6.2 网络监控报告(CS 业务).35 6.3 PCU 监控报告.40 6.4 坏小区导出及分析.42 6.5 GSM 网络扩容综合分析.44 7 总总 结结.48 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 5 页,共 48 页 图目录图目录 图 1 KPI 监控及优化基本流程.21 图 2 日报菜单.32 图 3 日报页面设置.33 图 4 日报导出高级设置.34 图 5 导出日报格式.35 图 6
6、网络监控报告菜单项.36 图 7 网络监控报告基本设置.37 图 8 网络监控报告高级设置.38 图 9 输出的监控报告.39 图 10 PCU 监控报告菜单.40 图 11 PCU 监控报告设置.41 图 12 输出的 PCU 监控报表.42 图 13 增强型话务统计设置.43 图 14 输出话务统计报表.44 图 15 网络扩容综合分析设置.45 图 16 查询对象设置.46 图 17 生成无线资源优化报告.47 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 6 页,共 48 页 表目录表目录 表 1 CS 域建议监控 KPI.9 表 2
7、PS 域建议监控 KPI.10 表 3 TCH 掉话率相关性能列表.12 表 4 切换成功率相关性能列表.12 表 5 TCH 拥塞率相关性能列表.13 表 6 TBF 掉话率率相关性能列表.14 表 7 监控及优化 KPI 网络级基线值cs 业务.17 表 8 监控及优化 KPI 网络级基线值ps 业务.17 表 9 需要监控的 KPIs 汇总信息表.18 表 10 不同对象 KPI 数据建议采集周期.19 表 11 TOPN 小区筛选 KPI 相关参数.23 表 12 可用率低原因分析及优化动作.24 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩
8、散 第 7 页,共 48 页 GSM KPI监控和优化指导书 关键词:关键词:GSM KPI TOPN小区 摘摘 要:要:本文定位为GSM网络KPI监控和优化的引导性指导书,用于指导现场及合作工程师进行KPI的监控、判决及问题分类,并根据分类问题索引到优化手册进行问题处理。GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 8 页,共 48 页 1 概述概述 随着GSM网络规模的扩大,GSM网络的日常维护工作重心逐渐改变,以往通过DT&CQT、逐单的用户投诉来排查问题的方法可执行度逐渐降低。那么我们通过什么办法来监控网络的运行,如何评论网络运行的质量
9、,甚至如何处理好网上出现的问题呢?本指导主要介绍了KPI监控需要监控的对象,如何通过每项KPI的底线标准判定网络运行质量是否需要提升,发现一项KPI出现问题后如何进行简单的判断。并指导读者根据初步判断情况,选择现场问题处理需要参考的KPI专题优化手册。为确保监控的可执行性,本文定位于设备导出KPI的监控及优化分析,不包含DT&CQT等测试项KPI。本文第1章概要介绍文档的目的和内容;第2章列举用于监控网络性能的KPI项及定义;第3章介绍KPI监控及优化应用策略;第4章介绍KPI监控优化流程;第5章为KPI分类优化思路及相关指导书;第6章为KPI监控策略借助NASTRA的实现;第7章为总结。GS
10、M KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 9 页,共 48 页 2 监控及优化监控及优化KPI对象对象 什么是KPI?KEY performance indicator,KEY就是说该项参数能够明显的表征出网络/网元的某一方面的性能,然后根据具体的取值及评定方法,确定这一性能的优劣(相对性),以及随后是否需要优化提升。2.1 建议监控的KPI 监控时应该选择哪些KPI?能够考评网络质量的KPI在不同运营商有多种定义方法,在指导书中我们选取多数运营商采用,并能有效表征网络运行质量的KPI。同时考虑到现场工作的执行难度,选择的KPI应该具有概括性、
11、典型性。表1 CS域建议监控KPI KPI 名称 KPI 名称 BSC 级/小区级短名 BSC 级/小区级短名 KPI 公式 KPI 公式 SDCCH 可用率 ZTR105A/RR300 SDCCH 可用率 信道可用平均数目(SDCCH)/信道动态配置平均数目(SDCCH)*100%TCH 可用率 ZTR109A/RR307 TCH 可用率 信道可用平均数目(TCH)/信道动态配置平均数目(TCH)*100%SDCCH 拥塞率 ZTR103A/RR370 SDCCH 拥塞率(遇全忙)SDCCH 占用遇全忙次数/SDCCH 占用请求次数*100%TCH 拥塞率(遇全忙)ZTR106A/K3045
12、 TCH 拥塞率(遇全忙)(TCH 占用遇全忙次数(信令信道)+TCH占用遇全忙次数(业务信道)+TCH 切换占用遇全忙次数(业务信道))/(TCH 呼叫占用请求次数(信令信道)+TCH 呼叫占用请求次数(业务信道)+TCH 切换占用请求次数(业务信 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 10 页,共 48 页 KPI 名称 KPI 名称 BSC 级/小区级短名 BSC 级/小区级短名 KPI 公式 KPI 公式 道))*100%立即指配成功率(cs)K3045/RA303G 立即指配成功率建立指示次数(电路业务)/信道请求次数(电路业
13、务)*100%TCH 指配成功率 ZTR102A/RCA313 TCH 指配成功率指配成功次数/指配请求次数*100%SDCCH 掉话率 ZTR104A/ZTR104C SDCCH 掉话率SDCCH 掉话次数/SDCCH 占用成功次数*100%TCH 掉话率(含切换)ZTR107A/ZTR304 TCH 掉话率(含切换)业务信道掉话次数/(TCH 呼叫占用成功次数(信令信道)+TCH 呼叫占用成功次数(业务信道)+TCH切换占用成功次数(业务信道)*100%BSC 整体切换成功率 ZK3180/RH303 切换成功率(BSC 内入小区切换成功次数+BSC 间出小区切换成功次数)/(BSC 内入
14、小区切换请求次数+BSC 间出小区切换请求次数)话务量(ERL)ZK3014/K3014 无 寻呼成功率 寻呼成功率(一次寻呼响应次数二次寻呼响应次数)/(一次寻呼次数)*100%*由由 MSC 统计统计?TCH掉话率(含切换)有助于各级网元(BSC级、小区级别)掉话问题分析,指导书建议采用。如和现场考核标准不一致时,参照现场KPI定义。?寻呼成功率为关注项,在可能提取的情况下监控。表2 PS域建议监控KPI KPI 名称 KPI 名称 KPI 公式 KPI 公式 TBF 掉话率 TBF 掉话率TBF 掉话次数(上、下行 GPRS/EGPRS)/TBF 建立成功次数(GPRS/EGPRS 上下
15、行)上行 TBF 建立成功率 上行 TBF 建立成功率上行 TBF 建立成功次数/上行 TBF 建立尝试次数 下行 TBF 建立成功率 下行 TBF 建立成功率下行 TBF 建立成功次数/下行 TBF 建立尝试次数 PDCH 分配成功率 PDCH 分配成功率1-(手机无响应导致上行 TBF 建立失败手机无响应导致下行 TBF 建立失败)/(上行 TBF 建立尝试次数下行TBF 建立尝试次数)上行 TBF 拥塞率 上行 TBF 拥塞率无信道资源导致上行 TBF 建立失败次数/上行TBF 建立尝试次数 下行 TBF 拥塞率 下行 TBF 拥塞率无信道资源导致下行 TBF 建立失败次数/下行TBF
16、建立尝试次数 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 11 页,共 48 页 KPI 名称 KPI 名称 KPI 公式 KPI 公式 上行 EGPRS TBF 拥塞率 上行 EGPRS TBF 拥塞率无信道资源导致上行 EGPRS TBF 建立失败次数/上行 EGPRS TBF 建立尝试次数 下行 EGPRS TBF 拥塞率 下行 EGPRS TBF 拥塞率无信道资源导致下行 EGPRS TBF 建立失败次数/下行 EGPRS TBF 建立尝试次数 上行 RLC 数据块重传率 上行 RLC 数据块重传率(上行 CS1CS4 的 RLC 数
17、据块个数BSS 接收的上行 CS1CS4 的 RLC 数据块个数)/上行(CS1-CS4)的RLC 数据块个数 下行 RLC 数据块重传率 下行 RLC 数据块重传率(下行 CS1CS4 的 RLC 数据块个数BSS 接收的下行 CS1CS4 的 RLC 数据块个数)/下行(CS1-CS4)的RLC 数据块个数 上行 EGPRS RLC 数据块重传率 上行 EGPRS RLC 数据块重传率(上行 MCS1MCS9 的 RLC 数据块个数BSS 接收的上行 MCS1MCS9 的 RLC 数据块个数)/上行(MCS1-MCS9)的 RLC 数据块个数 下行 EGPRS RLC 数据块重传率 下行
18、EGPRS RLC 数据块重传率(下行 MCS1MCS9 的 RLC 数据块个数BSS 接收的下行 MCS1MCS9 的 RLC 数据块个数)/下行(MCS1-MCS9)的 RLC 数据块个数?根据现场开通情况选择GPRSEGPRS业务是否需要监控 需要说明的是:1、无论上表是否提到,现场要求考核的、无论上表是否提到,现场要求考核的KPI都必须列入监控;都必须列入监控;2、如果一项、如果一项KPI现场有定义,则使用现场现场有定义,则使用现场KPI公式;现场未定义且未提出考核的,可以采用华为设备默认定义;若无设备默认定义,参照建议公式进行;公式;现场未定义且未提出考核的,可以采用华为设备默认定义
19、;若无设备默认定义,参照建议公式进行;3、如果合同、如果合同KPI要求项已经包含建议监控要求项已经包含建议监控KPI,或者考核同种性能,则可只选择合同,或者考核同种性能,则可只选择合同KPI的监控。的监控。2.2 KPI关联子性能 对于每项性能每个阶段都有不同的参数来考核,在对全网及不同网元进行监控,就会有很多的性能统计项。监控选择的KPI只是其中具有概括意义的综合统计项,但是在问题分析时我们还必须考虑到与监控KPI相关的性能统计。因此在提取KPI项时,也有必要关注其相关子性能。?子性能主要用于发现KPI问题后的辅助分析,不作为监控评判的依据。GSM KPI 监控和优化指导书 内部公开 201
20、0-1-30 华为机密,未经许可不得扩散 第 12 页,共 48 页 2.2.1 TCH掉话率相关子性能 TCH 掉话主要分为以下部分:业务信道稳态无线口掉话次数、业务信道切换无线口掉话次数业务信道稳态无线口掉话次数、业务信道切换无线口掉话次数、业务信道长期无MS测量报告掉话次数、业务信道Abis口地面链路故障掉话次数、业务信道设备故障掉话次数、业务信道强制切换掉话次数、环回启动失败掉话次数、环回切换失败掉话次数、环回恢复失败掉话次数。其中常见掉话为稳态无线口掉话和切换无线口掉话;在分析时候还可以更详细的分析出其掉话类型,如稳态无线口掉话有错误指示、连接失败、释放指示三类和更详细的分类,在具体
21、问题分析时可以先定位具体分类后,再查询优化手册以快速定位问题。在分析 TCH 掉话率问题前了解其掉话原因大类,有利于快速定位问题。表3 TCH掉话率相关性能列表 KPI 名称 KPI 名称 KPI 公式 KPI 公式 TCH 无线丢失率 TCH 无线丢失率(业务信道稳态无线口掉话次数+信令信道稳态无线口掉话次数)/(TCH 呼叫占用成功次数(信令信道)+TCH呼叫占用成功次数(业务信道)+TCH 切换占用成功次数(业务信道)TCH 切换丢失率 TCH 切换丢失率切换失败造成的掉话次数/(TCH 呼叫占用成功次数(信令信道)+TCH 呼叫占用成功次数(业务信道)+TCH切换占用成功次数(业务信道
22、)话务掉话比 话务掉话比TCH 总话务量*60/TCH 掉话次数 2.2.2 切换成功率相关子性能 由于切换统计对象、切换原因、切换方向不同,切换包含多种分类。按照切换的方向不同分类为:入小区切换,出小区切换;按照切换中源小区、目标小区的归属分类有:小区内切换、BSC内小区间切换,BSC间小区间切换;按照切换的小区频段、切换的小区同心圆功能也有相应的分类。无线切换成功率是排除无限资源受限、链路丢失等原因造成的切换失败后,以网络发送切换命令(handover command)为起点统计的切换成功率,主要用于快速定位切换失败是否发生在空中接口(Um口)。表4 切换成功率相关性能列表 KPI 名称
23、KPI 名称 KPI 公式 KPI 公式 入小区切换成功率 入小区切换成功率入小区切换成功次数/入小区切换请求次数 出小区切换成功率 出小区切换成功率出小区切换成功次数/出小区切换请求次数 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 13 页,共 48 页 KPI 名称 KPI 名称 KPI 公式 KPI 公式 BSC 内切换成功率 BSC 内切换成功率 BSC 内切换成功次数(所有)/BSC 内切换请求次数(所有)BSC 内无线切换成功率 BSC 内无线切换成功率 BSC 内切换成功次数(所有)/BSC 内切换次数(所有)出 BSC 切换成
24、功率 出 BSC 切换成功率出 BSC 切换成功次数/出 BSC 切换请求次数出 BSC 无线切换成功率 出 BSC 无线切换成功率出 BSC 切换成功次数/出 BSC 切换次数入 BSC 切换成功率 入 BSC 切换成功率入 BSC 切换成功次数/入 BSC 切换请求次数入 BSC 无线切换成功率 入 BSC 无线切换成功率入 BSC 切换成功次数/入 BSC 切换次数双频切换成功率(900-1800)双频切换成功率(900-1800)切换成功次数(900-1800)/切换请求次数(900-1800)双频切换成功率(1800-900)双频切换成功率(1800-900)切换成功次数(1800-
25、900)/切换请求次数(1800-900)BSC 内小区内切换成功率(内圆-外圆)BSC 内小区内切换成功率(内圆-外圆)=BSC 内小区内切换成功次数(内圆-外圆)/BSC 内小区内切换请求次数(内圆-外圆)BSC 内小区内切换成功率(外圆-内圆)BSC 内小区内切换成功率(外圆-内圆)=BSC 内小区内切换成功次数(外圆-内圆)/BSC 内小区内切换请求次数(外圆-内圆)2.2.3 拥塞相关子性能 考虑到信道拥塞某些时候是由于突发的话务量所致,而性能分析及扩容建议倾向于采用实际承载业务量来确定。因此进行拥塞分析时应该注意统计如下相关性能:表5 TCH拥塞率相关性能列表 KPI 名称 KPI
26、 名称 KPI 公式 KPI 公式 TCH 每线话务量(Erl)TCH 每线话务量(Erl)TCH 话务量/信道可用平均数目(TCH)TCH 话务量(Erl)无 TCH 信道可用平均数目 无 2.2.4 TBF掉话率相关子性能 PS业务为上下行非对称业务,且GPRS业务和EGPRS业务可能分布在不同信道、不同载频上,所以分类统计在不同业务类型时的TBF掉话率有助于快速定位。GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 14 页,共 48 页 表6 TBF掉话率率相关性能列表 KPI 名称 KPI 名称 KPI 公式 KPI 公式 上行 TBF
27、掉话率 上行 TBF 掉话率上行 TBF 掉话次数(GPRS/EGPRS)/上行 TBF 建立成功次数(GPRS/EGPRS)*100%下行 TBF 掉话率 下行 TBF 掉话率下行 TBF 掉话次数(GPRS/EGPRS)/下行 TBF 建立成功次数(GPRS/EGPRS)*100%上行 GPRS TBF 掉话率 上行 TBF 掉话率上行 GPRS TBF 掉话次数/上行 GPRS TBF 建立成功次数*100%下行 GPRS TBF 掉话率 下行 TBF 掉话率下行 GPRS TBF 掉话次数/下行 GPRS TBF 建立成功次数*100%上行 EGPRS TBF 掉话率 上行 TBF 掉
28、话率上行 EGPRS TBF 掉话次数/上行 EGPRS TBF 建立成功次数*100%下行 EGPRS TBF 掉话率 下行 TBF 掉话率下行 EGPRS TBF 掉话次数/下行 EGPRS TBF 建立成功次数*100%GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 15 页,共 48 页 3 KPI监控评判标准监控评判标准 3.1 KPI监控标准的来源 3.1.1 合同KPI要求 合同要求KPI是项目在交付前必须达到的KPI底线,是网络优化的根本工作目标。在工程期间此要求作为KPI提升目标,监控任务是时刻关注尚未达标的KPI,并提醒对其重
29、点处理。维护项目中,KPI监控可以及时发现网络在某项KPI方面的恶化,并尽快启动性能优化。3.1.2 指导书默认底线 由于目前尚有部分项目和运营商对一些相对重要KPI未制定考核标准,本着利于现场判断,整体把握网络运行KPI,不至于在局方调整考核KPI时被动的原则,无线网络规划部根据华为在网设备性能制定底线值,供现场没有考核标准时使用。KPI默认底线值未对不同网络类型进行分类,属于非强制性参考标准。在现场有定义、现场KPI明显好于或者差于默认底线时,现场RNP团队应根据具体网络情况制定考核标准。3.2 KPI默认底线 在确定监控KPI后,需要有一个标准确定该KPI的好坏。针对不同的网络,好的标准
30、可能有很多,但是很多KPI差到一定限度后会对网络造成很大的影响。因此针对全网级别、小区级,分别定义了黄线(预警)和红线(要求优化)两底线。GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 16 页,共 48 页 3.2.1 底线概念 红线:合同交付最低要求、足以引起性能事故或者能够造成网络质量无法容忍的底线值 黄线:接近并满足考核标准,但又无法确定不会恶化到考核标准的预警值 在KPI恶化到黄线时,监控工程师开始缩短该项KPI的监控周期,并根据现场情况向RNP团队提起性能预警。同时查看影响该KPI的相关性能,如果是某一原因或者网络中某几个小区原因所致
31、,则针对部分小区或某一原因进行处理。如果已经接近红线,则可以考虑提前处理,否则可以根据网络情况只保持预警。小区KPI恶化到黄线时,作为TOPN小区的候选项。具体见4.4TOPN坏小区的筛选 如果比较接近红线,或者黄线小区数量较少,可以按照红线处理。另外若该小区为VIP小区或者一直处于该项KPI的TOPN小区中,也需要按照红线对待,及时进行优化。整网某项整网某项KPI好于黄线值时,只需要处理红线好于黄线值时,只需要处理红线TOPN小区。小区。3.2.2 底线相关性 0.8X,X,1.5X,2X定义:在KPI评判时,我们设置整网KPI红线值为X。0.8X标识性能失败量是红线的80%。如果是失败量K
32、PI,如掉话率红线设置为1%,则0.8X表示0.8%;如果是成功率,如切换成功率红线设置为90%,0.8X表示失败率是原来的0.8,即切换失败率是0.8*(1-90%),即0.8X表示切换成功率要求为92%整网红线:网络整体KPI的红线(X)直接参照合同约定、性能事故或者指导书默认值。整网黄线:考虑到KPI具有一定波动性,黄线值设置为红线恶化量的80%(随后使用0.8X)。小区红线:小区红线设置为2X。当整网KPI恶化到红线时且红线小区可能超过全网的5,此时通过TOPN小区处理解决网络问题将会很难,确定为全网普遍性问题;如果红线小区低于5%(或者更低),则可以判定为个别小区引起的问题。当整网性
33、能好于黄线时,红线小区比例一般在1%以下,建议逐个分析处理。小区黄线:用于选择TOPN的一项标准,设置为1.5X。当整网性能好于黄线时,可以不处理黄线小区。GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 17 页,共 48 页 3.2.3 默认KPI红线 网络级KPI基线值如下:表7 监控及优化KPI网络级基线值cs业务 类型 类型 KPI KPI 红线 红线 可用性 SDCCH 可用率 90%TCH 可用率 90%利用率 SDCCH 拥塞率(遇全忙)5%TCH 拥塞率(遇全忙)5%话务量(ERL)增加或减小超过 20%接入性 立即指配成功率(c
34、s)96%TCH 指配成功率 96%SDCCH 掉话率 1%保持性 TCH 掉话率(含切换)1%移动性 切换成功率 93%寻呼性能 寻呼成功率 85%表8 监控及优化KPI网络级基线值ps业务 类型 类型 KPI KPI 红线 红线 保持性 TBF 掉话率 8%接入性 上行 TBF 建立成功率 90%下行 TBF 建立成功率 85%PDCH 分配成功率 92%上行 TBF 拥塞率 5%下行 TBF 拥塞率 5%上行 EGPRS TBF 拥塞率 5%下行 EGPRS TBF 拥塞率 5%Um 口传输 上行 GPRS RLC 数据块重传率 10%下行 GPRS RLC 数据块重传率 10%上行 E
35、GPRS RLC 数据块重传率 20%下行 EGPRS RLC 数据块重传率 20%?由于GPRS/EDGE数据块重传率受无线环境和传输质量影响较大,造成重传率KPI波动和考核要求差别比也较大。因此工程师在进行监控时应当根据所在国家无线环境情况适当调整红线标准。无线环境和传输环境好的网络可以参考中国区普通网络标准:上行GPRS/EDGE RLC数据块重传率:5%,下行GPRS/EDGE RLC数据块重传率:网络中的哪个网元有问题-什么问题?针对每项KPI问题监控:KPI是否有问题?-相关KPI的影响?-如何解决?两种思路综合起来会有多种组合,根据以往性能监控思路,我们选择普遍采用的思路:先以网
36、络拓扑结构的级别从整体KPI到小区KPI,在同一网元中优先从KPI到相关KPI这样逐步细化的过程。KPI监控基本流程如下:GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 21 页,共 48 页 图1 KPI监控及优化基本流程 4.2 网络级KPI监控及优化 网络监控的任务确定网络KPI是否达标,也即逐项对比KPI是否达差于红线、黄线。网络级KPI监控由于指标量小,易于最快速度的确定网络级重大问题,提高对重大问题的判断和响应速度。网络级 KPI 待优化 KPI 数据导出 及分析 区域性 KPI 待优化 是是是Top N 小区 KPI 待优化 KPI
37、 专题优化 整网某 KPI专题优化专题优化区域级 KPITop N 小区处理寻呼成功率提升 指配成功率提升TCH 掉话率改善PS 业务性能提升拥塞率问题解决KPI 问题解决否 开始新的周期性KPI监控过程否 否 KPI 监控优化基本流程监控优化基本流程 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 22 页,共 48 页 KPI差于红线时,如无特别情况(差于红线时,如无特别情况(极少数小区由于已知原因引起,或者局方明确表示不关注,或者资源受限无法处理等情况),则启动全网级),则启动全网级KPI专题优化专题优化。KPI差于黄线,则需要判断KPI是
38、否接近或向红线下滑,是否一种问题的影响,还是部分网元问题的影响。如果如果KPI已经偏向红线或有恶化可能,则依照已经偏向红线或有恶化可能,则依照KPI差于基线值处理;差于基线值处理;如果某一问题对对全网造成影响,则针对影响全网的问题进行专题优化;如果部分网元问题的影响,则分析网元分布,转为区域性KPI优化或者TOPN小区优化;如果为发现特别问题,可以只保持对该KPI监控。4.3 区域性KPI监控及优化 区域性问题的判断依据可以根据网络拓扑结构划定的cluster级问题,如某BSC/BM上基站、某传输环站点出现同类问题;也可以根据小区分布划定的cluster级问题,如一条高速公路出现问题,某一行政
39、区域问题等。当全网级KPI出现黄线,部分问题网元分布有区域性规律时,按照区域性KPI监控;单独处理TOPN小区时,如发现小区呈区域分布,也可以升级到区域性问题处理。出现区域性KPI问题时,筛选该区域相关网元KPI进行汇总,然后将该区域作为整网进行分析判决。也可以直接启动区域性KPI专题优化。区域性监控及优化时,KPI判决基线值参照KPI网络级基线标准。4.4 TOPN坏小区的筛选 TOPN筛选简单的说就是根据每项KPI进行排序,然后取最差的N个。但是到底取多少个?处理顺序就完全按照排序的结果么?1、TOPN小区数量一般建议取整网5%,不建议超过50个,且不要求为确定数目。原则上不将好于黄线的小
40、区列入TOPN,如果网络中所有小区均优于黄线,该项KPI不进行 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 23 页,共 48 页 TOPN小区处理。2、小区KPI差于红线(2X)的,直接归入TOPN坏小区进行处理小区KPI差于红线(2X)的,直接归入TOPN坏小区进行处理。对经常达到红线的小区,应重点对待,建议限时处理。如果超过5%或者50个,则考虑按照整网/区域问题处理。红线小区超过5%且数量超过50个时,建议将问题升级到区域/全网专题优化红线小区超过5%且数量超过50个时,建议将问题升级到区域/全网专题优化。3、对于差于黄线的小区,一般
41、建议根据相关权重项的情况确定处理顺序,选择10个或者不超过2%的小区归入TOPN坏小区。如果按照相关权重项排名在20%,排名50名以后的小区,如果没有多余资源,可以不予处理。如果小区分析时,黄线小区较少(少于10个),建议直接列入TOPN小区处理。如果小区分析时,黄线小区较少(少于10个),建议直接列入TOPN小区处理。处理方法如下:例如:筛选TCH掉话率TOPN坏小区时,根据掉话次数占全网掉话比例的权重确定坏小区是否需要处理,是否优先处理。如果按照掉话率排名进入了TOPN,但是掉话次数只有1次,则可以不予处理。表11 TOPN小区筛选KPI相关参数 类型 类型 KPI KPI 相关权重项 相
42、关权重项 利用率 TCH 拥塞率(遇全忙)TCH 拥塞次数 SDCCH 拥塞率(遇全忙)SDCCH 拥塞次数 接入性 立即指配成功率(cs 业务)立即指配失败次数(电路业务)TCH 指配成功率 TCH 指配失败次数 移动性 切换成功率 切换失败次数 保持性 TCH 掉话率 TCH 掉话次数 SDCCH 掉话率 SDCCH 掉话次数 PS 域 TBF 掉话率 TBF 掉话次数 TBF 建立成功率 TBF 建立失败次数 PDCH 分配成功率 手机无响应导致 TBF 建立失败次数 TBF 拥塞率 无信道资源导致 TBF 建立失败次数 TBF 重传率 RLC 数据块个数TBF 重传率 GSM KPI
43、监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 24 页,共 48 页 5 KPI监控及优化分析监控及优化分析 根据KPI分析从整体小区,从主要KPI到次要相关KPI分析这样逐步细化的原则,在进行KPI整体分析时,根据不同类别KPI的影响,CS域分析顺序为:可用性、拥塞率(利用率)、掉话率(保持性)、切换成功率(移动性)、接入性。寻呼成功率作为独立项,根据现场要求单独监控或者不监控。PS域分析顺序为:接入性能、TBF掉话率、TBF重传率。每项分析中本着先监控类KPI到相关KPI的顺序,最终关联到优化操作指导 5.1 CS域可用性分析 在进行KPI分析前,最关注的
44、应该是数据的完整性和可信度。对于可信度,主要是看全网有没有出现设备中断等问题造成网络KPI不可信。当可用率(TCH可用率、SDCCH可用率)低于黄线时候,要求现场确认中断设备是否对网络造成影响,根据不同原因,建议采取不同的动作。表12 可用率低原因分析及优化动作 可用率问题 可用率问题 问题原因 问题原因 监控优化动作 监控优化动作 低于黄线 冗余数据(*为测试等目的而配置的小区数据,实际上并没有设备运行,日常表现为设备故障)继续 KPI 监控分析,联系设备侧工程师删除冗余数据 部分站点问题 绕过这些站点继续整体 KPI 监控。问题站点划归 TOPN 小区,由设备维护人员处理普遍站点问题(偶尔
45、出现)绕过问题时段继续 KPI 监控分析 普遍站点问题(长期出现)要求设备维护侧限期处理。KPI 监控分析无意义,可以停止 低于红线 冗余数据 要求设备侧进行软件检查解决问题,而后 GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 25 页,共 48 页 可用率问题 可用率问题 问题原因 问题原因 监控优化动作 监控优化动作 再重新提取数据进行 KPI 监控分析 部分站点问题 限期处理,只分析完全不相关网元 KPI 普遍站点问题(偶尔出现)向设备侧确认无重大问题后,绕开问题时段进行 KPI 监控分析 普遍站点问题(长期出现)向设备侧确认网络问题。不
46、需要监控分析 5.2 CS域资源利用率分析 因为负荷较重的网络各项性能都会有所下降,所以在各项分析中一般把拥塞率KPI放在前面,相应的在解决拥塞问题后,网络中相关KPI会自动改善。CS域资源利用率主要包括SDCCH拥塞率和TCH拥塞率。本节拥塞率分析是在排除可用率因素后的分析,由于可用率问题造成的拥塞率超出黄线问题,先从处理设备故障开始解决。5.2.1 SDCCH拥塞率 由于SDCCH数量在一般网络规划后不会出现过大问题,另外因为SDCCH信道对整网资源消耗并不大,一般信道资源不足造成拥塞时,维护工程师都会增加SDCCH信道,所以很少出现SDCCH拥塞率整网指标不达标,甚至不会恶化到黄线。当出
47、现SDCCH拥塞率差于黄线,首先需要判断是普遍问题还是个别小区问题。存在普遍问题时,一般是业务量突增,个别情况下有全网干扰或者BSC以上级故障、软件BUG等造成。但是因为全网干扰,BSC以上网元故障的话,全网会有多方面严重问题,这些现象会在周期性KPI监控分析前已有迹象(如投诉,紧急告警等)。确定业务量突增判断的方法是生成业务量变化趋势图,采用一周每24小时业务量变化趋势图,和一天每小时业务量,寻找业务量突增的时间段,确定是否业务量突增原因。对业务量突增造成拥塞原因,可以通过BSS侧打开“SDCCH动态分配”和“立即指配到TCH”功能,依然不能解决时由局方协调平衡突发业务量,在无法取消突发业务
48、的情况下尽可能将业务量分配到足够长的时间段内。如:要求在一区域(如地市)内5分钟内完成所有用户的问候短信,可以延长到一个小时甚至更长;注意全省(多地区)范围的短信群发要求SMS侧避免以号码区号标志位排序连续下发,国内应该以电话号码后4位或者后三位排序,将每地区(LAC)业务扩展到整个时段,而非集中在某一更短时段完成。GSM KPI 监控和优化指导书 内部公开 2010-1-30 华为机密,未经许可不得扩散 第 26 页,共 48 页 如果是个别小区原因,按照小区级KPI底线对比,筛选出SDCCH高拥塞率TOPN坏小区,TOPN小区数量选取参照TOPN坏小区的筛选。首先分析SDCCH高拥塞率小区
49、是否为负荷原因,如果是在很短段时间段的拥塞建议开通动态SDCCH分配;如果每天多段时间出现负荷原因拥塞,则增加SDCCH信道。开通立即指配TCH功能一定程度上也能缓解SDCCH拥塞,但是开通后会造成信道浪费,且影响到部分运营商定义的考核KPI,所以除非现场要求,不建议使用。发现SDCCH拥塞率高并分析出具体原因后,参考GSM BSS 网络性能KPI(SDCCH拥塞率)优化手册处理。如果全网SDCCH拥塞率达标,可以只处理TOPN坏小区中差于红线的小区。5.2.2 TCH拥塞率 TCH拥塞率分析优先考虑KPI是“TCH拥塞率(包含切换)”,指导书以该参数确定红线衡量网络拥塞程度。同时考虑到网络信
50、道资源全忙因素,“TCH拥塞率(遇全忙)”也是主要考虑参数。TCH拥塞率(含切换)不达标时,且与TCH拥塞率(遇全忙)值接近时(差别不超过1%),可以判定网络负荷原因造成TCH拥塞。定位出TCH拥塞率(遇全忙)问题后,参考GSM BSS 网络性能KPI(TCH拥塞率)优化手册处理。注:虽然TCH拥塞可以分解为部分小区拥塞,但是考虑到扩容的执行周期,只要全网TCH拥塞率达到黄线以上,就可以在整体分析阶段输出网络扩容建议。如果全网因为频率资源受限造成无法直接扩容时,应适时提起双频网、同心圆等组网方案。如果全网TCH拥塞率达到黄线以上,排除负荷问题外,还可能是全网外部干扰、BSC级以上网元BUG或者