华为数通设备健康检查
一、 健康检查内容主要由以下项目构成:
1、 基本运行情况及管理性检查 本项主要检查设备的软件版本、补丁加载、时钟设定、log日志等基本信息。 2、硬件运行情况
本项主要检查设备的单板状态、硬件告警、主备倒换等硬件运行情况。 3、接口运行情况
检查各端口的端口状态、双工情况、POS口的时钟设置、上行端口流量、端口描述配置等接口运行情况。 4、路由协议运行情况
检查BGP、ISIS、OSPF等路由协议运行情况,核对路由表,检查MPLS、LDP等协议的运行情况。 5、路由器安全检查
检查设备登录控制等安全机制、检查各路由协议的安全配置情况。 6、路由器冗余备用情况
检查设备的各项冗余配置及网络的荣誉设计,以确保任一节点故障不影响业务、任一板卡故障不影响业务、任一接口或电路故障不影响业务、任一路电源故障不影响业务。 7、局数据核查
对各设备的局数据按规范进行比对核查,查找局数据不规范项目。
二、数据数设备巡检Checklist:
检查父项 检查Paf和License 信息中心是否打开 不使用的网络服务端口要关闭 DEBUG开关检查 运行文件和保存文件的一致性检查 团体名称检查 查看用户的分屏显示是否配置为0 设备基本配置 检查设备是否配置半双工模式 检查log日志是否记录成功 检查设备接口板数量 检查系统升级是否完成 检查时间设置与当地时间一致性 用户名巡检 ACL规则组中是否存在重复的规则 检查LPUK VB单板TM 下挂RLDRAM ECC问题风险是否已解决 检查V3R3打包版本冷补丁是否已正确打上 检查子项 检察LPUA、LPUG配24GE接口卡端口overflow问题风险是否已解决 检察LPUF、LPUK单板及相应子卡电压误告警问题的是否已解决。 本地CCC是否有入接口跟出接口只有一端有tagged的情况 CPOS接口配置不生效 CPOS接口配置丢失 日志信息检查 单板状态检查 电源状态检查 风扇状态检查 查看电压状态信息 CPU占用率检查 内存占用率检查 风扇转速检查 查看ECM通道状况 设备运行情况 CFCARD故障检查 主备倒换状态检查 检查接口板的子卡重启原因 lsp数量检查 检查设备主备关系是否正常 新增子卡状态巡检项 检查接口板CPCAR配置 网板改包检查 随板采样断业务问题 子卡状态检查 MPLS LSR-ID配置检查 MPLS lsp-trigger配置检查 NTP协议状态检查 vsi组播流量转发不通 路由转发不通 检查LDP的接口状态 查看RSVP GR是否配置正确 检查FIB容量是否超过接口板规格 路由配置及状态 检查同一ip-prefix下是否存在index个数超过32的配置 isis协议状态检查 查看PIM配置是否为极限配置 查看OSPF配置是否为极限配置 新增检查OSPF Router id配置是否符合存在风险 查询TCAM中FIB/ARP 表项是否有错误 查看PIM配置是否极限配置 LPUB板在位,组播转发不通 ISIS协议状态检查 版本 软件版本检查 查看备用主控补丁 查看主控补丁 查看接口板补丁 查看补丁下次启动的状态并修复 查看断言记录 查看接口板重启记录 单板重启记录查看 告警频率分析 网板异常重启查询 备用主控板deadloop检查 业务板的exception 业务板的reboot记录 查看主控板的exception 系统异常状况 主控板deadloop检查 备用主控板的reboot记录 备用主控板的exception 主控板的reboot记录 ISIS报文接收错误情况 查看系统当前正在发生的告警信息 查看主备倒换记录 业务板deadloop检查 故障检测 负载分担错误 接口板的工作时钟状态 交换网板工作时钟状态 检查主控时钟状态 主控板jtag芯片测试 主控板jtag芯片环回测试 底板状态测试 主控板FLASH数据完整性测试 工作时钟测试 锁相芯片测试 信号处理芯片测试 接口芯片测试 逻辑芯片测试 查询LPUN板pic卡状态是否正常 查询LPUK板pic卡状态是否正常 查看PIC卡信息 端口流量检查 查询LPUF板pic卡状态是否正常 查询NPUI-20板的pic卡状态是否正常 检测硬件时钟是否正常 查看转发引擎Rainer状态 检测报文控制块内存是否发生ECC 检测报文控制块内存是否异常 检测发送报文内存是否正常 检测网板信元重组是否正确 转发引擎状态寄存器第1组 转发引擎状态寄存器第2组 转发引擎状态寄存器第5组 转发引擎状态寄存器第6组 查询流量管理芯片丢包 查看LPUK状态 查看LPUN状态 查看LPUF状态 下行微引擎活动性检查 上行微引擎活动性检查 上行微引擎状态检查 下行微引擎状态检查 上行Watchdog检测信息 下行Watchdog检测信息 上行微引擎重启信息 下行微引擎重启信息 上行重启信息 下行重启信息 上行计数检查 查看转发引擎2800状态 下行计数检查 在诊断模式下采集2800外挂RAM的状态寄存器 转发引擎下行微引擎活动性检查 转发引擎下行微引擎重启信息 转发引擎上行计数检查 转发引擎上行微引擎重启信息 转发引擎下行计数检查 转发引擎下行Xscale重启信息 转发引擎上行微引擎活动性检查 转发引擎上行微引擎状态检查 转发引擎下行微引擎状态检查 转发引擎上行Xscale重启信息 转发引擎下行Watchdog检测信息 转发引擎上行Watchdog检测信息 查看588状态 查看LPUF-20状态 查询588下行的运行情况 查看588是否收到错误报文 查询X11接口状态 查询单板心跳状态 V3R2版本收编 整改 11年1季度V3R3补丁归一 11年1季度V3R3版本归一 11年整改项 查看灵活插卡LPUF状态 查看TCAM配置 查看TCAM配置 查看LPUF-10单板 TCAM配置 查看主控板用户计数情况 查看用户接入信息 查看接口板用户错误计数 查看radius用户错误计数 查看产品和VRP协议开关状态情况 查看防攻击情况 查看产品mpls状态 查看2800单板应用层联动car配置下发状态是否正确 查看588单板应用层联动car配置下发状态是否正确 查询产品tunnel表项状态 查看低速卡的get接口错误信息 查看低速卡的set接口错误信息 查看低速卡的MPgroup状态 查看低速卡信息 查看低速卡的物理端口信息 查看低速卡的获取接口错误信息 查看低速卡的设置接口错误信息 查看低速卡的流程计数 查看588-0是否收到错误报文 查看588-1是否收到错误报文 查看LPUF-40状态 查询单板1路心跳状态 查询单板0路心跳状态 查询X11A接口状态 查询X11B接口状态 检查业务运行情况 接口状态 查看NPUI-20状态 查看设备上VPLS over TE运行情况 查看接口管理队列状态 查询TM-1丢包及反压 查询TM-0丢包及反压 查询NP-3接口状态 查看PHY芯片状态信息 5830下行外挂RLDRAM检查 TM子卡检查 查询5830反压 查看时钟状态信息 查询5830丢包 查询流量管理芯片上行和下行外挂RLDRAM检查 查看从核状态 查看从核是否复位 查看从核内存是否泄漏 5812-1 I2C总线检测 5812-0 PCIE总线检测 查看5812状态 5812-1 PCIE总线检测 5812-0 I2C总线检测 5812 serdes链路状态检测 5812寄存器状态检测 查看LPUF-101状态 5852 ASE-DDR模块寄存器状态检测 5852 ASE-Rldram模块寄存器状态检测 查看NPUI状态 5852 LTB模块寄存器状态检测 5852 TCAM模块寄存器状态检测 5822寄存器状态检测 CPU DDR寄存器bitmatch状态检测 CPU DDR参数寄存器状态检测 CPU Boot参数寄存器状态检测 CPU SMI参数寄存器状态检测 5852普通寄存器状态检测 查看5822-0模块级反压 查看5822-1模块级反压 查看5822状态 查看5822-1芯片级反压 查看5822-0芯片级反压 5822-1 CPU接口检测 5822-0 CPU接口检测 CPU DDR参数寄存器状态检测(LPUF41) 5812寄存器状态检测(LPUF41) 5852 普通模块寄存器状态检测(LPUF41) 5852 TCAM模块寄存器状态检测(LPUF41) 查看LPUF-41状态 CPU DDR 寄存器bitmatch状态检测(LPUF41) 5852 ASE模块寄存器状态检测(LPUF41) CPU SMI参数寄存器状态检测(LPUF41) 5822寄存器状态检测(LPUF41) CPU Boot参数寄存器状态检测(LPUF41) 5852 LTB模块寄存器状态检测(LPUF41)