像 IBM Maximo 这样的企业资产管理 (EAM) 系统对于资产密集型组织来说是至关重要的。停机、数据丢失或性能不佳可能会导致巨大的运营、安全、监管或财务风险。随着越来越多的组织将 Maximo 迁移到云或混合云环境中,或者选择完全托管的云 EAM,了解如何构建高可用性、正常运行时间保障、灾难恢复和冗余至关重要。

选择合适的云合作伙伴成为一项战略决策。以下是需要注意的问题、最佳实践以及 Naviam 的云产品如何与这些要求保持一致。

高可用性和冗余:关键注意事项

高可用性 (HA) 意味着即使出现硬件、网络、软件等组件故障,甚至数据中心级别的问题,您的 Maximo 环境仍能继续运行。要到达那里,你需要解决以下问题:

  1. 消除单点故障 (SPOF)
    • 使用多个应用程序服务器实例。如果一台服务器出现故障,其他服务器将继续为用户提供服务
    • 负载均衡器位于 Web 服务器或 JVM 前,因此流量可以动态分配,并在节点出现故障时重新路由
    • 冗余 Web 服务器、冗余负载均衡器、冗余网络路径
  2. 数据库冗余和集群
    • 需要数据库复制、群集或高可用性配置。IBM 的 Maximo 支持 DB2 HADR、Oracle RAC 等。
    • 适当时使用只读副本(用于报告、卸载读取),但要确保写入耐久性和一致性
  3. 地理位置分散的基础架构/多区域/多区域部署
    • 跨多个可用区域或数据中心进行部署,这样一个区域或数据中心中断就不会导致系统停机
    • 可能适用主动-被动或主动-主动拓扑,具体取决于业务连续性和预算。IBM 为本地 HA、被动灾难恢复站点和混合架构制定了指导方针
  4. 弹性存储和文件系统
    • 共享存储(附件、集成文件、日志)必须冗余且高度耐用
    • 确保存储复制、镜像或分布式存储,以免磁盘故障或存储节点中断丢失数据
  5. 网络和负载平衡
    • 冗余网络、多条网络路径、冗余防火墙/路由
    • 负载均衡器本身需要具有高可用性(有时是主动/备用或集群方式)
  6. 基础设施修补、升级和维护
    • 即使是计划内维护,也必须以不会显著降低可用性的方式进行处理(滚动升级、蓝/绿等)
    • 必须仔细规划操作系统、应用程序服务器、中间件和数据库维护窗口的补丁周期

备份和灾难恢复 (DR)

高可用性可以处理许多故障,但灾难恢复的目的是为严重的(通常是站点级故障)做好准备:自然灾害、数据中心丢失、灾难性软件或基础设施事件。

Maximo 灾难恢复和备份策略的关键组成部分包括:

  • 定义 RPO 和 RTO
    • 恢复点目标 (RPO): 你愿意丢失多少最近的数据(例如 15 分钟、1 小时等)
    • 恢复时间目标 (RTO): 灾难发生后系统恢复在线需要多长时间
  • 频繁可靠的备份
    • 以足够的节奏进行数据库备份(完整、增量、事务日志备份)以满足 RPO
    • 文件系统备份/对象存储附件、配置文件、日志等的快照
    • 异地备份(或跨区域)以防范区域灾难
  • 待机环境
    • 冷待机(备份数据但除非需要否则不运行)
    • 热待机(某些服务正在运行;可以升级)
    • 热备用或活动副本(接近实时复制,几乎可以立即接管)
  • 测试和故障转移程序
    • 灾难恢复计划必须记录在案,但也必须定期测试
    • 故障转移测试包括提升待机状态、数据准确性、一致性、完整性,以及确保集成、用户目录 (LDAP/SAML) 等正常运行
  • 版本/配置匹配
    • 灾难恢复站点或备用环境在软件版本、配置、补丁级别、网络等方面应与生产环境相匹配。否则恢复可能会延迟或出现问题

正常运行时间、服务级别协议 (SLA) 和监控

为 Maximo 选择云提供商或托管服务合作伙伴意味着签订服务级别协议,定义可用性、性能、支持以及未实现目标时的处罚(或积分)。


需要注意的事项:

  • 正常运行时间百分比保证
    • 常见等级为 99.9%(“三个九”)、99.95%、99.99%(“四个九”)等。每个增量都表示允许的停机时间差异很大。
  • SLA 的范围
    • 到底涵盖了什么(应用程序层/中间件/数据库/网络/存储)
    • 是否包括外部依赖关系(例如,集成、第三方系统)?
  • 排除项
    • 定期维护窗口
    • 不可抗力事件
    • 客户造成的问题(例如配置错误、自定义代码)
  • 处罚或补救措施
    • 违反 SLA 时的服务积分、退款等
    • 对停机时间进行清晰的报告和审计
  • 支持和响应时间
    • 提供商将以多快的速度响应事件(严重性级别、紧急升级)
    • 服务台可用性(全天候与工作时间对比)
  • 监控、警报和报告
    • 实时监控仪表板
    • 当系统或数据库处于压力下时主动发出警报
    • 定期报告正常运行时间、性能指标

常见的权衡和实际问题

为高可用性和灾难恢复而构建需要付出成本和复杂性。组织需要做出一些权衡决策:

  • 成本与正常运行时间: 更多的冗余、多区域部署、更快的 RTO/RPO 都需要更多的成本。
  • 复杂性与简单性: 更易于操作,活动部件较少;但它们会增加风险。更多的节点和更大的地理分散度会增加故障模式。
  • 数据一致性与延迟: 同步复制可确保零或最小的数据丢失,但往往会增加延迟;异步复制可以减少延迟,但可以容忍一些数据丢失。
  • 监管/合规要求: 一些行业要求一定级别的可用性、数据保留、地理分离等。

Naviam 的云解决方案如何满足这些需求

Naviam 是 Maximo/EAM 领域的领先提供商,拥有丰富的经验和专为解决 Maximo 部署的可靠性、正常运行时间、灾难恢复和冗余问题而设计的产品。以下是 Naviam 的云功能如何映射到组织的需求。

在全力以赴之前要检查什么和要问的问题

即使选择像Naviam这样的云提供商,明智的做法是审查细节。以下是要问的战略问题:

  1. 正常运行时间 SLA 的确切范围是什么?(包括/排除哪些层,哪些层存在冗余等)
  1. 实际上,您选择的层级的 RPO 和 RTO 指标是什么?
  1. 灾难恢复站点在配置和版本(操作系统、中间件、应用程序、集成)方面是否与生产相匹配?它多久更新一次?
  1. 灾难恢复/故障转移测试的频率如何?您有何权观察或参与?
  1. 对于增长/扩展(用户、交易、附件),实际限制(数据库大小、并发性、负载)是多少?如何监控和改进性能?
  1. 您在备份/定制/集成/配置方面的职责是什么(客户与提供商)?
  1. 升级、修补和维护是如何完成的?它们在滚动、蓝/绿、低冲击力吗?
  1. 如果违反 SLA,有哪些补偿或服务抵免?

在云端扩展 IBM Maximo 的意义不仅仅是提升和迁移虚拟机。要真正从成本节约、灵活性和性能中受益,您需要一个为高可用性、冗余和灾难恢复能力而构建的环境,并以可靠的 SLA、强大的备份和恢复以及专家支持为后盾。

Naviam 的云解决方案非常适合需要强大可靠性的组织,无需自己管理每个层面的开销,也不会给内部团队带来负担。无论您是从小规模起步,还是需要企业级、受监管的全天候运营,Naviam 都能提供分层云产品,这些产品与 Maximo 领域的 HA/DR 的许多标准最佳实践相适应。

如果您正在评估将Maximo迁移到云端或考虑切换到托管提供商,则值得比较一下您当前的停机或数据丢失风险。相对于迁移到将可用性、冗余和灾难恢复作为其产品核心的云合作伙伴的增量成本,这种 “保险” 成本往往被低估。

Unlock the Ultimate Guide to IBM Maximo Application Suite (MAS)

Discover everything you need to know to modernize your asset management strategy.

Inside, you’ll learn:

  • What’s new in IBM Maximo Application Suite 9.0
  • Key differences between Maximo 7.6 and MAS
  • How AppPoints and OpenShift change the game
  • Industry use cases across energy, manufacturing, and transportation
  • Step-by-step guidance for upgrading and migration readiness
Cover of 'The Ultimate Guide to MAS Maximo Application Suite' by Naviam featuring a man in a yellow construction helmet and safety vest holding a tablet.
×

ActiveG, BPD Zenith, EAM Swiss, InterPro Solutions, Lexco, Peacock Engineering, Projetech, Sharptree, and ZNAPZ have united under one brand: Naviam.

You’ll be redirected to the most relevant page at Naviam.io in a few seconds — or you can go now.

Read Press Release