《服务器运维管理手册.doc》由会员分享,可在线阅读,更多相关《服务器运维管理手册.doc(15页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、XXXX有限公司服务器运维管理手册XXXX有限公司运维服务部2012/8/30一、文档简介2二、文档目的3三、文档范围3四、事件处理流程3五、具体操作说明41)服务器硬件管理42)服务器系统管理91Windows系统管理92Linux系统管理9六、相关文档10一、 文档简介本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服务运维能力更为主动可控。二、 文档目的标准服务器故障处理方法指引,服务器管理知识库积累.三、 文档范围服务器硬件故障判断与标准处理操作服务器系统日常性能检测与标准检测四、 事件
2、处理流程五、 具体操作说明1) 服务器硬件管理1 检查与故障判断:服务器硬件的主动检查方式主要分三种:设备面板指示灯检查硬件系统日志检查第三方工具检查(一) 面板指示灯检查IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报警灯.硬盘槽还有硬盘指示灯。HP服务器上面指示灯一般为UID,内部和外部健康灯,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多.图示说明详细描述:(二) 系统日志检查检查内容硬件历史异常报错信息计算机管理-系统工具事件查看器,查看系统日志重点关注:红色高危事件信息
3、、日常频繁硬件报错信息备注:查看硬件历史异常故障情况,分析硬件性能与使用生命周期(三) 第三方检测工具检查检查内容硬件历史异常报错信息HP 诊断工具: 打开开始-程序HP System ToolsHP Insight Diagnostics online Edition for WindowsHP Insight Diagnostics online Edition for Windows。DELL诊断工具:第三方硬件设备诊断工具IBM诊断工具:IBM Systems Director 、 IBM Systems Director Active Energy Manager、IBM Serve
4、rGuide相关图解:进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选择All,会显示出更多硬件信息,点击右下的Save按钮保存.此界面可以看到服务器所有硬件信息。2 硬件设备变更操作标准:判断并确定最快恢复时间判断是否有做冗余设置判断是否需要关机操作磁盘设备检测并确定阵列信息,确定有做数据备份是否对其它关联应用有影响制定回退方案,保证数据与应用的可用性设备变更操作设备兼容性测试应用系统运行测试设备变更后正式应用3 相关巡检记录单:备注:服务器信息列表 服务器指示灯巡检表2) 服务器系统管理服务器系统管理主要分为:Windows系统管理Linux系统
5、管理1 Windows系统管理1.1. 磁盘空间使用计算机管理磁盘管理磁盘空间使用率是否已经到达80%1.2. 进程监控任务管理器进程查看进程的CPU使用率和内存使用率是否超阀值1.3. CPU性能任务管理器性能查看CPU最高峰值与一般使用率是否超阀值1.4. 内存性能任务管理器性能查看内存最高峰值与一般使用率是否超阀值内存使用率是否超过70%或者其他定义阀值1.5. 网络查看任务管理器联网检查是否能正常访问站点页面1.6. 日志记录错误报警信息 应用程序日志由应用程序或者系统程序记录的事件-安全性日志查看有效和无效的登录尝试事件,以及资源使用相关的事件系统日志Windows系统组件记录的事件
6、2 Linux系统管理1.2.2.1. 平均负载(uptime)描述:uptime命令过去只显示系统运行多久。现在,可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少.2.2. 磁盘空间使用率(df h)描述:Filesystem 文件系统 Size 文件系统容量 Used文件系统已经使用的容量 Use文件系统使用百分比 Mounted on挂载的目录2.3. 进程监控(ps ef grep java)查看应用程序启动进程数是否正常2.4. 内存监控(free -m)描述:total:总计物理内存的大小used:已使用多大free:可用有多少shared:多个
7、进程共享的内存总额buffers/cached:磁盘缓存的大小。第三行(/+ buffers/cached):used:已使用多大.free:可用有多少。2.5. CPU占用率(top)描述:top提供一个当前运行系统实时动态的视图,也就是正在运行进程.在默认情况下, CPU使用率最高的任务排在第一行,并每5秒钟刷新一次。2.6. I/O监控(vmstat 2 10)process: r: 等待runtime的进程数 b: 在不可打断的休眠状态下的进程数memory: swpd: 虚拟内存使用量(KB) free: 闲置内存使用量(KB) buff: 被当做buffer使用的内存量(KB)sw
8、ap: si: swap到磁盘的内存量(KBps) so: 从磁盘swap出去的内存量(KBps)IO: bi: 每秒读取的块数 (blocks/s) bo: 每秒写入的块数 (blocks/s)系统:in: 每秒中断数,包括时钟中断cs: 每秒上下文切换数。CPU(以百分比表示):us: 用户进程执行时间(user time)sy: 系统进程执行时间(system time)id: 空闲时间(包括IO等待时间)wa: 等待IO时间2.7. 日志系统系统日志(cat /var/log/messages | grep Jul 23 grep error)记录报警信息硬件启动日志(dmesg grep error)记录系统启动错误信息-应用系统日志服务器各个应用的日志系统,比如:/var/log/httpd/error_log等等备注:系统主机信息表系统主机巡检表系统事件记录表六、 相关文档系统主机信息表系统主机巡检表系统事件记录表服务器指示灯巡检表服务器信息列表IDC环境管理制度15