产品

助力企业逐步实现自动化

活动与资讯

解决方案

嘉为蓝鲸,助力企业从运维走向运营

嘉为蓝鲸

活动与资讯

助力企业逐步实现自动化

活动与资讯

活动与资讯

助力企业逐步实现自动化

活动与资讯

关于嘉为

19年行业积淀,嘉为助力企业从运维走向运营

关于嘉为
搜索
搜索
搜索
/
/
/
【运维思考】如何做好云上运维服务?

【运维思考】如何做好云上运维服务?

2020-11-09 10:37

上云后需要运维吗?当然需要。上云确实可以简化一部分运维工作,比如对于服务器的日常运维,但由于云计算的特性(即开即用、灵活扩展等)以及云产品的快速迭代,相比与传统运维的稳态,云运维更体现出敏态特性。如何做好云上运维服务呢?除了做好云运维基础服务保障系统不出问题外,更应该做好增值核心运维服务。同时,云计算技术日新月异,运维人员的能力也需要与时俱进。云时代正在重塑IT运维。

 

 

云运维与传统运维的区别

 

云计算发展如火如荼,从互联网行业向制造、金融、交通、医疗等传统行业不断渗透和融合,促进传统行业转型升级,企业正在享受着云计算释放的巨大红利。但是,上了云就万事大吉了吗?当然不是,要想享受到云计算红利,需要用好云,云运维服务工作必不可少。

 

云运维与传统运维有什么区别呢?云与传统数据中心的建设目标是一致的,都是为企业提供IT服务;运维的职责都是为了保障IT服务的质量,围绕服务等级协议SLA展开各种运维活动。但由于云计算的特性,云运维相比传统运维还是有很大区别:

 

运维对象区别

传统运维,接触的起点大都是硬件,如服务器、网络设备、存储设备和风火水电,在云计算时代,运维人员已经无法见到物理的任何设备,云运维的对象更加偏软一些。

 

运维要求区别

由于云计算的特性,在云平台上实现应用的快速部署、快速更新、实时监控等方面对云运维提出了更高要求;同时对灵活扩展、云原生等云特性优势的运维服务也提出了更高要求。

 

运维形态区别

云厂商的产品在不断快速迭代,相比与传统运维的稳态,云运维更处于一种敏态过程中,运维人员需要伴随着云产品的升级迭代而不断更新自己的知识库。

 

 

云上运维服务的重点


做好云上运维服务,需要先清楚服务的内容和重点,以及服务的方式方法,云上运维服务体系如下图:

 

01 云运维基础服务

云运维基础服务主要体现在三个方面:监控告警、安全运维、日常问题处理。

 

监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。 监控既涉及到基础架构如主机CPU、内存、磁盘IOPS、网络流量等监控,也涉及到应用APM监控,同时运维人员是否确认收到告警信息、对告警问题是否在处理、处理的过程和结果进行跟踪管理同样重要。

 

安全运维包括安全加固、漏洞扫描、补丁修复、安全架构优化。安全加固是对安全基线检查以及安全基线配置加固,漏洞扫描针对应用进行安全扫描,补丁修复对操作系统、中间件、数据库进行补丁更新或漏洞修复,安全架构优化针对现有架构和安全产品进行安全能力提升。

 

日常问题处理,包括云上各类资源产品的安装配置、升降配、备份服务、技术问题的及时处理等。

 

02 云运维核心服务

云运维基础服务保障的是系统运行不出问题,对于企业来讲,这还远远不够。企业需要的是更规范、更标准、更低成本、更低风险、更好扩展性的保障系统运行,对于运维人员来讲,需要投入更多精力在运维服务的核心方面。

 

云运维的核心服务也体现在三个方面:云最佳实践标准、云成本优化、云深度巡检与优化。

 

云最佳实践意味着云上的部署都是按最优标准来配置的。包括架构的最佳实践、云资源选择和配置的最佳实践、云上管理的最佳实践。对于任何一个上云的企业来说,都希望按照最佳实践标准来使用云。

 

比如,下面这个混合云架构,就是按照最佳实践标准来设计的。

 

企业本地IDC与公有云之间通过专线或VPN打通,在公有云跨可用区部署应用,通过负载均衡分发用户请求,形成高可用架构,数据库尽可能使用云数据库,在网络、主机、应用、数据库等不同层次部署云安全产品全方位保障应用和数据安全,文件、数据库通过云原生备份服务进行定时备份,使用堡垒机、访问控制服务、云监控等产品辅助运维管理。

 

同样,在云资源方面,云资源传统五大件(计算、存储、网络、数据库、安全)和其他资源的选择和配置也需要建立标准。比如是规划一个VPC还是多个VPC,交换机子网网段如何规划设计、虚机的命名规范、虚机的选配标准、安全组端口开放原则等等,只有按照最佳实践标准来选配,未来运维才更高效,扩展性也才更好。

 

云上管理的最佳实践包括备份、容灾、账号、权限等等方面。

 

云运维的另一个核心服务,就是帮助企业节省成本。据专业咨询机构RightScale的一份调研报告显示,当下的企业级用户在云计算支出一项的浪费高达30%。

 

如何做好云成本优化运维服务?涉及到云成本优化体系的建立,建立一套从事前规划到事中分析,再到事后评估改善的不断循环的成本优化体系。

 

体系重在落实,比如事中分析如何降低云资源浪费,可以从下图中的5个维度进行审视分析:

 

 

云深度巡检与优化,通过定期(比如每季度一次)对架构、资源、配置和费用等全面健康巡检,发现可能存在的不合理配置及薄弱环节,进行调整优化,提升资源使用效率、减少系统出现故障的概率。

 

云深度巡检务必对所有的云资源进行巡检,巡检对象包括整体架构、安全、成本、网络、计算、存储、数据库、监控、账号、备份。

 

对发现的问题进行高、中、低分级,级别为高的问题已经对系统运行、可用性、功能产生影响,建议立即采取行动。级别为中、低的问题建议采取行动或保持关注。

 

03 使用工具平台辅助云运维

运维的工作量和复杂度达到一定程度后,就需要自动化工具平台来协助,比如自动化巡检、自动化发布、告警事件的自动处理等,提升效率的同时减少人工处理的出错率。

 

另外,很多中大型企业在进行云战略规划时会选择多云战略,如何对多云进行统一的管理,比如在统一的界面中对各种云平台资源进行全生命周期管理、如何对资源的申请审批流程管理、如何进行用量分析、成本分析等,此时就需要多云管理平台。

 

 

云运维服务的进一步思考

 

云运维工作是一项繁琐、高要求的工作,除了常规的日常运维服务之外,有时还需要做好专项运维支持服务。比如企业高并发的电商业务放到云上后,在类似618、双11等促销期,往往还需要做好高并发护航的专项支持工作,比如全链路压测、数据库调优、容灾演练等等,确保在活动期间系统稳定运行。

 

云计算技术日新月异,容器、无服务器、微服务、IOT、人工智能等新兴技术在带来更强优势与便利的同时,对云运维人员也提出了更高的要求,运维人员的能力需要与时俱进。云时代正在重塑IT运维。

嘉为云帆
广州总部 电话:020-38851616
深圳嘉为 电话:0755-83668518
北京嘉为 电话:010-51705705
上海嘉为 电话:021-61269880
© 2019 广州嘉为科技有限公司. All rights reserved. 粤ICP备06004568号
  • 嘉为
  • 嘉为
    嘉为
  • 嘉为

    服务热线:
    广州总部 020-38851616
    深圳嘉为 0755-83668518
    北京嘉为 010-88578622
    上海嘉为 021-61269880

  • 嘉为
  • 嘉为