事件管理流程
概述
数据中心事件管理是确保对各类事件进行快速响应、有效处理、及时恢复的关键管理流程,通过标准化的事件处理流程,最大限度减少事件对业务的影响。本文档详细规定了事件管理的流程、分类和处理要求。
事件分类
按影响程度
-
重大事件(P1)
定义:
- 核心系统中断
- 业务完全中断
- 影响范围广泛
- 损失严重
标准:
- 业务影响:完全中断
- 影响用户:全部用户
- 持续时间:预计>4小时
- 经济损失:重大损失
响应要求:
- 响应时间:≤5分钟
- 处理级别:最高级别
- 资源调配:全部资源
- 升级频率:每15分钟 -
严重事件(P2)
定义:
- 重要系统故障
- 业务部分中断
- 影响范围较大
- 损失较严重
标准:
- 业务影响:严重受影响
- 影响用户:大部分用户
- 持续时间:预计1-4小时
- 经济损失:较大损失
响应要求:
- 响应时间:≤15分钟
- 处理级别:高级别
- 资源调配:主要资源
- 升级频率:每30分钟 -
一般事件(P3)
定义:
- 一般系统故障
- 业务轻微影响
- 影响范围有限
- 损失较小
标准:
- 业务影响:轻微受影响
- 影响用户:部分用户
- 持续时间:预计30分钟-2小时
- 经济损失:轻微损失
响应要求:
- 响应时间:≤30分钟
- 处理级别:中等级别
- 资源调配:常规资源
- 升级频率:每2小时 -
低级事件(P4)
定义:
- 次要系统问题
- 业务基本无影响
- 影响范围很小
- 损失很小
标准:
- 业务影响:基本无影响
- 影响用户:个别用户
- 持续时间:预计<30分钟
- 经济损失:很小损失
响应要求:
- 响应时间:≤2小时
- 处理级别:低级别
- 资源调配:最少资源
- 升级频率:每8小时
按事件类型
-
硬件事件
类型:
- 服务器故障
- 网络设备故障
- 存储设备故障
- 供配电故障
- 空调故障
特点:
- 物理损坏
- 需要更换
- 处理时间长
- 影响直接
处理:
- 硬件更换
- 备件启用
- 厂商支持
- 应急方案 -
软件事件
类型:
- 系统崩溃
- 应用故障
- 数据库错误
- 中间件问题
- 配置错误
特点:
- 逻辑错误
- 可快速恢复
- 影响间接
- 需要调试
处理:
- 重启服务
- 回滚版本
- 修复补丁
- 配置调整 -
网络事件
类型:
- 网络中断
- 带宽拥堵
- 路由故障
- DNS故障
- 安全攻击
特点:
- 影响面大
- 传播快
- 诊断复杂
- 恢复快
处理:
- 路由切换
- 带宽调整
- 安全阻断
- 备用链路 -
安全事件
类型:
- 病毒攻击
- 入侵检测
- 数据泄露
- DDoS攻击
- 权限异常
特点:
- 危害性大
- 扩散快
- 隐蔽性强
- 影响深远
处理:
- 隔离感染
- 阻断攻击
- 恢复数据
- 加强防护
事件流程
事件发现
-
监控发现
自动监控:
- 系统监控:自动告警
- 网络监控:流量异常
- 应用监控:性能异常
- 安全监控:威胁检测
监控指标:
- 可用性:服务不可用
- 性能:响应超时
- 容量:资源耗尽
- 错误:错误率激增
告警机制:
- 实时告警:立即通知
- 告警分级:按级别处理
- 告警聚合:避免告警风暴
- 告警通知:多渠道通知 -
用户报告
报告渠道:
- 服务台:热线电话
- 邮件系统:事件邮箱
- 在线门户:自助申报
- 即时通讯:IM工具
- 移动APP:移动申报
报告内容:
- 事件描述:详细描述
- 影响范围:影响范围
- 发生时间:准确时间
- 联系方式:联系方式
- 紧急程度:紧急程度
受理流程:
- 记录事件:完整记录
- 初步分类:初步判断
- 分配处理:分配处理人
- 回复确认:确认受理 -
巡检发现
巡检方式:
- 日常巡检:例行检查
- 专项巡检:针对性检查
- 定期巡检:周期性检查
- 临时巡检:临时检查
检查内容:
- 设备状态:运行状态
- 环境参数:温湿度等
- 日志检查:错误日志
- 性能指标:性能数据
发现处理:
- 立即报告:立即上报
- 现场确认:现场确认
- 初步处理:初步处理
- 升级处理:必要时升级
事件记录
-
事件登记
登记内容:
- 事件编号:唯一编号
- 事件标题:简明扼要
- 事件描述:详细描述
- 发生时间:准确时间
- 发现时间:发现时间
- 影响范围:影响范围
- 紧急程度:紧急程度
- 事件状态:当前状态
- 处理人:负责人
- 联系方式:联系方式
登记要求:
- 及时登记:立即登记
- 信息准确:信息准确
- 内容完整:内容完整
- 格式规范:格式规范 -
事件分类
分类维度:
- 影响程度:P1-P4级
- 事件类型:硬件/软件等
- 业务影响:业务影响度
- 紧急程度:紧急程度
- 处理难度:处理难度
分类标准:
- 明确标准:标准明确
- 便于判断:易于判断
- 统一规范:统一规范
- 动态调整:适时调整
事件诊断
-
初步诊断
诊断目的:
- 确认事件:确认真实性
- 判断影响:评估影响
- 初步定因:初步原因
- 制定策略:处理策略
诊断方法:
- 经验判断:基于经验
- 工具检测:使用工具
- 日志分析:分析日志
- 状态检查:检查状态
诊断输出:
- 影响评估:影响评估
- 原因分析:原因分析
- 处理建议:处理建议
- 资源需求:资源需求 -
深度诊断
诊断场景:
- 复杂事件:原因复杂
- 重复事件:重复发生
- 重大事件:影响重大
- 疑难事件:难以诊断
诊断方法:
- 专家会诊:专家参与
- 厂商支持:厂商协助
- 工具分析:专业工具
- 测试验证:测试验证
诊断结果:
- 根本原因:根本原因
- 解决方案:解决方案
- 预防措施:预防措施
- 改进建议:改进建议
事件处理
-
快速恢复
恢复策略:
- 应急方案:快速恢复
- 备用系统:切换备用
- 临时措施:临时处理
- 回退操作:回退变更
恢复操作:
- 操作授权:获得授权
- 按章操作:按规程操作
- 实时监控:监控效果
- 效果确认:确认效果
恢复验证:
- 功能验证:验证功能
- 性能验证:验证性能
- 业务验证:业务确认
- 用户确认:用户确认 -
根本解决
解决策略:
- 彻底解决:根治问题
- 技术方案:技术方案
- 流程优化:优化流程
- 预防措施:预防为主
解决实施:
- 方案制定:制定方案
- 评审批准:评审批准
- 实施执行:按计划执行
- 测试验证:测试验证
解决确认:
- 问题解决:确认解决
- 效果评估:评估效果
- 文档更新:更新文档
- 知识沉淀:知识积累
事件关闭
-
关闭条件
技术条件:
- 故障解决:问题解决
- 系统恢复:系统正常
- 功能验证:功能正常
- 性能达标:性能达标
业务条件:
- 业务确认:业务确认
- 用户满意:用户满意
- 影响消除:影响消除
- 服务恢复:服务恢复
管理条件:
- 文档完整:文档完整
- 知识更新:知识更新
- 经验总结:经验总结
- 相关确认:相关确认 -
关闭流程
关闭申请:
- 处理人申请:处理人申请
- 关闭原因:关闭原因
- 解决方案:解决方案
- 效果说明:效果说明
关闭审核:
- 技术审核:技术审核
- 业务审核:业务审核
- 质量审核:质量审核
- 管理审核:管理审核
正式关闭:
- 系统关闭:系统关闭
- 通知相关:通知相关
- 归档保存:归档保存
- 统计分析:统计分析
升级管理
升级触发
-
时间升级
升级规则:
- P1事件:15分钟无进展
- P2事件:30分钟无进展
- P3事件:2小时无进展
- P4事件:8小时无进展
升级内容:
- 通知上级:通知上级领导
- 增加资源:增加处理资源
- 扩大范围:扩大影响范围
- 提升级别:提升处理级别 -
影响升级
升级条件:
- 影响扩大:影响范围扩大
- 用户增加:影响用户增加
- 业务加重:业务影响加重
- 损失增大:经济损失增大
升级动作:
- 重新评估:重新评估影响
- 调整级别:调整事件级别
- 调配资源:调配更多资源
- 启动预案:启动应急预案 -
复杂升级
升级条件:
- 原因不明:原因难以确定
- 方法无效:处理方法无效
- 反复发生:问题反复发生
- 超出能力:超出处理能力
升级动作:
- 专家介入:专家介入处理
- 厂商支持:厂商技术支持
- 外部协助:寻求外部协助
- 专项小组:成立专项小组
升级流程
-
升级申请
申请内容:
- 事件概况:事件基本情况
- 处理进展:当前处理进展
- 升级原因:申请升级原因
- 升级建议:升级处理建议
- 资源需求:所需资源支持
申请方式:
- 系统升级:系统自动升级
- 人工升级:人工申请升级
- 强制升级:强制升级机制
- 紧急升级:紧急升级通道 -
升级审批
审批权限:
- 主管级:一般升级
- 经理级:重要升级
- 总监级:重大升级
- 管理层:特别重大升级
审批内容:
- 升级必要性:是否需要升级
- 升级合理性:升级是否合理
- 资源配置:资源配置是否合理
- 处理方案:处理方案是否可行 -
升级执行
执行要求:
- 接手处理:接手事件处理
- 资源调配:调配所需资源
- 方案调整:调整处理方案
- 进度跟踪:跟踪处理进度
执行监控:
- 进度监控:监控处理进度
- 效果监控:监控处理效果
- 资源监控:监控资源使用
- 风险监控:监控处理风险
沟通管理
内部沟通
-
团队沟通
沟通内容:
- 事件状态:当前状态
- 处理进展:处理进展
- 遇到问题:遇到的问题
- 需要支持:需要的支持
沟通方式:
- 即时沟通:即时通讯工具
- 会议沟通:定期会议
- 邮件沟通:邮件通报
- 电话沟通:电话沟通
沟通频率:
- P1事件:每15分钟
- P2事件:每30分钟
- P3事件:每2小时
- P4事件:每8小时 -
跨部门沟通
沟通部门:
- 技术部门:技术支持
- 业务部门:业务影响
- 安全部门:安全事件
- 运营部门:运营影响
沟通机制:
- 通报机制:定期通报
- 协调机制:协调处理
- 决策机制:快速决策
- 反馈机制:及时反馈
外部沟通
-
用户沟通
沟通内容:
- 事件通知:告知事件
- 影响说明:说明影响
- 处理进展:处理进展
- 恢复通知:恢复通知
沟通方式:
- 系统公告:系统公告
- 邮件通知:邮件通知
- 短信通知:短信通知
- 电话通知:电话通知
沟通原则:
- 及时性:及时通知
- 准确性:信息准确
- 透明度:适度透明
- 安抚性:安抚用户 -
厂商沟通
沟通厂商:
- 设备厂商:硬件问题
- 软件厂商:软件问题
- 服务商:服务问题
- 供应商:供应问题
沟通内容:
- 故障描述:详细描述
- 支持需求:支持需求
- 响应要求:响应要求
- 解决方案:解决方案
沟通管理:
- 联系人管理:联系人管理
- SLA管理:服务水平管理
- 合同管理:合同管理
- 关系管理:关系管理
知识管理
知识积累
-
事件记录
记录内容:
- 事件详情:完整记录
- 处理过程:详细过程
- 解决方案:解决方案
- 经验教训:经验教训
记录要求:
- 及时记录:及时完整
- 准确记录:准确无误
- 规范记录:格式规范
- 便于检索:便于查询 -
知识提取
提取内容:
- 问题类型:问题分类
- 解决方法:解决方法
- 最佳实践:最佳实践
- 预防措施:预防措施
提取方法:
- 专家评审:专家评审
- 团队讨论:团队讨论
- 案例分析:案例分析
- 经验总结:经验总结
知识应用
-
知识库建设
知识库内容:
- 事件案例:典型事件
- 处理手册:处理手册
- FAQ:常见问题
- 最佳实践:最佳实践
知识库管理:
- 分类管理:分类管理
- 版本管理:版本控制
- 权限管理:权限控制
- 质量管理:质量保证 -
知识共享
共享方式:
- 培训分享:培训分享
- 会议分享:会议分享
- 文档分享:文档分享
- 平台分享:平台分享
共享机制:
- 激励机制:激励分享
- 评价机制:评价质量
- 更新机制:及时更新
- 推广机制:推广应用
相关技术链接
行业规范标准
- ITIL 4 Framework: ITIL 4框架
- ISO/IEC 20000-1:2018 IT服务管理体系
- COBIT 2019: IT治理框架
- GB/T 28827.1-2012 信息技术服务 运行维护
- ITIL Practitioner: ITIL实践指南