数据仓库系统日常维护标准文档
下面列表内容为日常维护检查系统的具体情况:
序号 1 2 3 4 5 6 7 8 9 10 项目 了解系统运行状况 查看全系统状态 查看全系统日志 查看阵列状况 查看AWS文件系统 记录检查信息 查看空间节点情况 查看节点日志 查看系统运行时间 检查bynet连接 详细操作 向系统管理员了解系统有无异常等 SWS console,查看全系统状况 打开 SWS fault Viewer查看报错信息 Symplicity 删除过期的大文件和临时文件 Script PM_date.out Psh dfspace or df –k 1,??? less /var/log 2,??? errpt –f /var/adm/streams/* |pg 检查系统运行时间(who –b或uptime) 检查bynet连接(bam –s) psh pdestate –a查看数据库状态 vprocmanager?status not 11 检查数据库状态 vprocmanager –s 1,? 检查pdedump区上的dump 结果 csp –mode list 2,? 检查数据库内的dump csp –mode list –source table 保存必要的dump,删除无用的dump 12 13 查看dump 检查数据库空间使用情况 Exec disksum 检查数据库物理空间使用情况 (script /tmp/showspace09****.txt?cnsterm 6 ?ferret 14 检查数据库物理空间使用 ?showspace) sel databasename, tablename, sum(currentperm)/1024/1024/1024, 1-avg(currentperm)/max(currentperm) from dbc.tablesize group by 1, 2 having 1-avg(currentperm)/max(currentperm)>0.5 and 15 16 17 18 19 检查数据库的倾斜度 检查nv server 检查netvualt的各个日志,以及备份任务有没有报错 关闭TVI 更换可以在线更换的部件 NA AWS TVI软件?打开TVI service 窗口。 如硬盘,电源等 Tpareset –x comments(检查WAL和session情况) 重启前只要wal基本都归零了不必要清session,只有wal有问题才需要做步骤2. 1,psh pdestate –看是不是所有节点都正常的。 sum(currentperm)/1024/1024/1024>5 NA ?????? 登出所有用户:(登出前跟客户联系一下。) # cnsterm 6 open the database supervisor screen Input Supervisor Command: ??????? abort session *.* logoff? Is the data base quiescent? (Verify all sessions are gone.) # /tpasw/bin/vprocmanager –s DBS State: Logons are enabled – The system is quiescent PDE State: TPA If system is not quiescent (still users are logged on), perform a dbs coldwait restart from vprocmanager. Otherwise continue with “Bring database down”: # /tpasw/bin/vprocmanager Enter a command, HELP or QUIT: restart coldwait to clear session table 20 通知客户关闭数据库 Wait for the database to come up again. Is the data base quiescent? (Verify all sessions are gone.) # /tpasw/bin/vprocmanager –s
DBS State: Logons are enabled – The system is quiescent PDE State:TPA
??????? 检查wal的大小:(bteq登录,systemfe|service)?select currentperm ,vproc
from dbc.tablesize
where databasename = ‘DBC’ and tablename = ‘transientjournal’ order by 1 desc;
4,
# vprocmanager > status not > quit
---应该没有amp显示出来。
5,
# ctl (Linux) > screen debug > 0=off > write > quit
6,
# tpareset –f restarttdcs
7,等所有的启动完成后,确认所有的node状态是TPA/READY。在PDN NODE上运行: # psh pdestate
8,# vprocmanager > status not > quit ---应该没有amp显示出来。 9,停数据库: # tpareset –x stopDB 10,psh pdestate---null/stop 21 22 23 24 25 26 关闭需要维护的节点 如果超过1个月未重启,重启其他节点。 检查所有节点情况 检查系统时间 检查客户网路连接 检查备份服务器 Shutdown –y –g0 –i6 更换配件 Memsize cpuinfo dkconfig –las bam –s verify_pdisk 如有必要同步系统时间 确认PLAN/SLAN/CLAN所有网络正常(ildconfig) NA 光纤卡和controller的 psh /opt/lsiUtil/lsiUtil –r 27 清除光纤统计计数 登录controller(infiniti)--fcall ?fc 90 确认数据库状态logon enabled 1通过SYMplicity管理工具确认所有的阵列都是optimal状态 2确认Teradata所有的pdisk是online状态的。从PDN节点运行: # psh -t 120 verify_pdisks 3检查所有节点PDE的状态 # psh pdestate 4所有节点的PDE应该都是TPA/READY状态。如果有的PDE状态不是TPA/READY,启动PDE并再次确认状态。使用如下命令: # psh “/etc/init.d/tpa start” # psh pdestate 5使用Vprocmanager工具来确认所有的VPROC状态是online的: # tdatcmd vprocmanager 28 启动数据库 > status not > quit ---应该没有amp显示出来。 6设置Start DBS 标识为“on”,从控制节点的设置这个标识: # ctl (Linux/Windows) > screen debug > 0=on > write > quit 7重启Teradata的DBS: # tpareset –f resettd 8确认所有的PDE状态是TPA的。运行: # psh pdestate 9确认所有节点的VPROC状态是online的,并且登录是激活的: # vprocmanager > status not > status sysstate > quit 如有必要执行cnsterm 6 ?start ferret? packdisk 29 30 31 32 33 34 35 36 37 38 执行packdisk 重启SWS 运行SHR1.2 如果有软件或硬件变化运行shr3 如果更换了电池 取出相关信息文件 系统交付客户使用 检查现场备件情况 FSP=15 /home/support/run_shr12.pl 是否有未解决的问题请注明 无 备注