《服务器运维管理手册.pdf》由会员分享,可在线阅读,更多相关《服务器运维管理手册.pdf(6页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 1 XXX有限公司 服务器运维管理手册 XXXX 有限公司 运维服务部 212/830 一、文档简介 错误!未定义书签。二、文档目的.错误!未定义书签。三、文档范围.错误!未定义书签。四、事件处理流程 错误!未定义书签。五、具体操作说明.错误!未定义书签。1)服务器硬件管理.错误!未定义书签。)服务器系统管理 错误!未定义书签。1.Winows 系统管理 错误!未定义书签。2 Linux 系统管理.错误!未定义书签。六、相关文档.错误!未定义书签。一、文档简介 本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事
2、件处理能力,使之服务运维能力更为主动可控。二、文档目的 标准服务器故障处理方法指引,服务器管理知识库积累.2 三、文档范围 服务器硬件故障判断与标准处理操作 服务器系统日常性能检测与标准检测 四、事件处理流程 五、具体操作说明 1)服务器硬件管理 1检查与故障判断:服务器硬件的主动检查方式主要分三种:设备面板指示灯检查 硬件系统日志检查 第三方工具检查(一)面板指示灯检查 BM 服务器上面有,电源指示灯,硬盘/IDE 设备活动指示灯,网卡指示灯,系统过热报警灯。硬盘槽还有硬盘指示灯.HP 服务器上面指示灯一般为 UID,内部和外部健康灯,其他就是电源网口灯了,DEL 的机种有的上面有风扇,内存
3、,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多。图示说明 详细描述:(二)系统日志检查 检查内容 硬件历史异常报错信息 计算机管理系统工具事件查看器,查看系统日志 重点关注:红色高危事件信息、日常频繁硬件报错信息 备注:查看硬件历史异常故障情况,分析硬件性能与使用生命周期 3 (三)第三方检测工具检查 检查内容 硬件历史异常报错信息 H 诊断工具:打开开始程序P Sse ol-P Inight aostis onlne Eiin fr WindowsHP nsiht Dignsic olin Eitn for Windos。EL诊断工具:第三方硬件设备诊断工具 IBM
4、 诊断工具:IM ystems iret、BM Sysem ircto cive Enrgy Manager、IB eeud 相关图解:进入诊断网页,在第一选项卡Survey 中,上部有个下拉项,左侧选择 Adnced,右侧选择 Al,会显示出更多硬件信息,点击右下的 Save 按钮保存。此界面可以看到服务器所有硬件信息。2硬件设备变更操作标准:判断并确定最快恢复时间 判断是否有做冗余设置 判断是否需要关机操作 磁盘设备检测并确定阵列信息,确定有做数据备份 是否对其它关联应用有影响 制定回退方案,保证数据与应用的可用性 设备变更操作 设备兼容性测试 应用系统运行测试 设备变更后正式应用 4 3
5、相关巡检记录单:备注:服务器信息列表 服务器指示灯巡检表 2)服务器系统管理 服务器系统管理主要分为:Widows 系统管理 Linux 系统管理 1 Wd系统管理 1.1.磁盘空间使用 计算机管理-磁盘管理 磁盘空间使用率是否已经到达0%1.2.进程监控 任务管理器进程 查看进程的 CP使用率和内存使用率是否超阀值 1.3.U 性能 任务管理器性能 查看 CPU 最高峰值与一般使用率是否超阀值 1.4.内存性能 任务管理器-性能 查看内存最高峰值与一般使用率是否超阀值 1.5.网络查看 任务管理器联网 检查是否能正常访问站点页面 1.6.日志 记录错误报警信息 应用程序日志 由应用程序或者系
6、统程序记录的事件-安全性日志 查看有效和无效的登录尝试事件,以及资源使用相关的事件-系统日志 Windows 系统组件记录的事件 内 存 使 用 率 是 否 超 过70%或者其他定义阀值 5 2 Lu系统管理 1.1.平均负载(utie)描述:uptime 命令过去只显示系统运行多久.现在,可以显示系统运行多久、当前有多少的用户登录、在过去的,5,15 分钟里平均负载时多少。1.2.磁盘空间使用率(df h)描述:ilesystem 文件系统 Size 文件系统容量 sd 文件系统已经使用的容量 se文件系统使用百分比 Mounted on 挂载的目录 1.3.进程监控(p e|gep av)
7、查看应用程序启动进程数是否正常 1.4.内存监控(re m)描述:al:总计物理内存的大小 use:已使用多大 fee:可用有多少 shared:多个进程共享的内存总额 bfersahed:磁盘缓存的大小。第三行(+bufferschd):used:已使用多大。fre:可用有多少.1.5.P占用率(to)描述:top 提供一个当前运行系统实时动态的视图,也就是正在运行进程.在默认情况下,CP使用率最高的任务排在第一行,并每 5 秒钟刷新一次。1.6./O 监控(vmtat 2 10)proes:r:等待 rutme 的进程数 b:在不可打断的休眠状态下的进程数 memory:wp:虚拟内存使用
8、量(B)fre:闲置内存使用量(B)buff:被当做 bfe使用的内存量(B)wa:si:sap 到磁盘的内存量(KBp)so:从磁盘 swap 出去的内存量(KBps)I:每秒读取的块数(bloks/)bo:每秒写入的块数(blcks/s)系统:in:每秒中断数,包括时钟中断 cs:每秒上下文切换数。PU(以百分比表示):us:用户进程执行时间(us tim)sy:系统进程执行时间(sysem im)id:空闲时间(包括等待时间)a:等待时间 1.7.日志系统-系统日志(ca/valo/messges gre Jul 23|rep ero)记录报警信息 硬件启动日志(dmesg rep eror)记录系统启动错误信息 6 -应用系统日志 服务器各个应用的日志系统,比如:/var/lg/httd/rolog 等等 备注:系统主机信息表 系统主机巡检表 系统事件记录表 六、相关文档 系统主机信息表 系统主机巡检表 系统事件记录表 服务器指示灯巡检表 服务器信息列表 IDC 环境管理制度