Hold不住的云账单,云上降本增效难在哪?

王文婧
+ 关注
2022-12-08 11:30
2007次阅读

近年来,随着上云率的提升,企业从传统自建机房的重人力模式中摆脱出来。然而上云并非一劳永逸,云服务计费模式的复杂、企业对云资源管理经验的不足,造成企业较大的成本负担。

在《2022年云状态报告》中,国际知名软件资产管理商Flexera通过对近千家企业进行调查得出:企业云支出浪费高达32%,这意味着,企业每100万的云支出中,大约32万被浪费。

在业务趋缓与高昂成本的双重夹击下,部分海外企业掀起“云回迁”的声浪。国内市场方面,根据IDC发布的《中国公有云服务市场(2022上半年)跟踪》报告:2022年上半年,中国公有云服务市场同比增长30.7%,较去年同期下滑18%。

无论对企业还是服务商而言,云上降本,都已成为关乎生存与发展的迫切问题。

在腾讯云开源项目Crane负责人胡启明看来,和传统的硬件管理模式相比,云成本管理的难度可归结为两点,“一方面,云产品的种类多,型号多,计费方式复杂;另一方面,随着业务迭代的加快,云资源的规模加速增长,按年按季度制定预算的采购模式已不适用于互联网节奏。业务驱动的资源采购方式,促使技术、财务、业务需要合力开展云成本管理。”
 
选择合理的计费模式,是企业云成本管控的开始。以云服务器为例,按量计费和包年包月是最为常见的计费模式。按量付费,适用于限时抢购、红包雨等临时性的扩展场景;包年包月,则适合长期使用,可享受较大力度的价格优惠。

Hold不住的云账单,云上降本增效难在哪?

按量计费超出一定时长,可能比包年包月还要贵;竞价模式虽然便宜,但对企业服务架构提出了更高的稳定性要求。多位行业人士表示,在选择云服务器时,企业需要了解不同产品的适用场景,结合自身的技术架构与业务情况。如果选错,一定会影响到成本。

以双十一、活动推广等短时高并发场景为例,如按照“8核-16GiB-计算型c6的实例规格、50G ESSD云盘、100Mbps的带宽规格”,以一个月的时间计算,综合比较三家头部云厂商的两种主要计费模式,可得出近万元的差额:

Hold不住的云账单,云上降本增效难在哪?

云服务器在不同计费模式下的价格对比(以一个月计)

当用户在按量计费模式下,使用时长为331小时(约14天)时,阿里云的价格是8494.95元,已经约等于其包年包月模式一个月的费用(8523元)。也就是说,若企业使用时长大于14天,且小于一个月,为节省成本再去选用按量计费,反而不划算。在其他两家云厂商的计算中,我们也得到了较为接近的数据结果。

某上市公司IT总监雨生表示,特别是对多云用户来说,费率计算更为复杂,到最后可能需要的是一个财务精算师的角色。

为了让企业拥有更多的控本选择,最近几年,部分云厂商又引入了海外的竞价实例、预留实例、节省计划等计费模式。但据业内人士观察,多数客户的云服务器资源仍以包年包月为主,这在一定程度上体现出对零散计费方式的避险。

然而通过多买来获取较大力度的折扣,治标不治本。若后期使用不当,依然会出现成本“Surprise”。

作为云计算的先行者,海外市场已有诸多因使用不当意外超支的案例:

2018年,Adobe的云成本曾在一段时间内每天超支8万美元,当企业发现问题时,云账单已像滚雪球一样超出50万美元。

 

2020年,海外初创公司Milkie Way曾因内部测试期间的疏忽,几个小时内花掉7.2万美元,险些导致公司破产。

后面这家初创公司的经历非常具有戏剧性。据了解,该公司的产品是一款安全通知平台,主要发布地震、海啸等类似的突发消息。疫情期间,为优化服务体验,公司计划实施一个由AI驱动自动发布信息的测试项目。

经综合考虑,他们决定在谷歌云平台上的Cloud Run(一款Serverless无服务器服务)上部署测试版,并配合使用Firebase数据库。他们在谷歌云平台上创建了一个新的项目,设置了7美元的使用预算,并选择了Firebase数据库的免费计划。到了测试运行的第二天,公司收到来自谷歌云平台的提醒邮件,提示Firebase已升级为收费用户,原本在云平台设定的7美元预算已超支,因信用卡支付失败,云账户已被停用。

当公司创始人登录后台查看账单时,惊讶地发现账单金额已达到5000美元,远超信用卡的100美元限额。而此时,账单金额还在增长,5分钟后,变成15000美元;20分钟后,涨到25000美元;2小时后,最终定格在72000美元。

造成天价账单的原因,不仅与企业自身部署了有问题的算法有关,云账单的延迟性,更成为催化剂,令缺乏资源管理经验的企业一招毙命。

根据中国信通院发布的相关调研,缺乏“业务-应用-平台-资源”的穿透管理视图、缺少成本感知、缺乏相关系统和工具支撑,是当前企业在IT资源精细化运营过程中遇到的三大难点。

IT资源成本预测是企业在IT资源成本管理上最为突出的困难。44.14%的企业认为资源成本难以预测正影响企业的IT资源成本管理,显著高于其他影响因素;缺乏有效机制减少资源浪费占28.57%;资源成本无法估量占27.82%;财务与IT人员认知不统一、IT人员成本意识不足、缺乏成本管理工具等问题均占25.4%。

在预算管理上,多数企业仍在采用年底上报财务的传统方式,并试图通过预留一定浮动比例,来控制IT成本变动。当新需求或突发状况来临时,这一机制就会立刻失效。

某科技公司研发部负责人赵刚表示,他所在的企业过去采用的是单服务架构,由于服务不稳定,经常出现网站报错的情况。技术团队重组后,针对这一问题,进行了从单服务转向微服务的底层架构升级,因此不可避免地增加了一定的服务器成本,而这次重要的技术调整在年度预算上报时并未预料到。

对于眼下的超支问题,他感到很无奈。“除非企业的业务线稳定,扩展速度慢,预算才会相对可控。但凡业务有迭代需求,很难形成准确的预判。”赵刚说。

还有一部分企业则受困于超买导致的资源闲置。

产品经理小宅所在的游戏团队,在将游戏分发业务拓展到移动端的初期,选择了每款游戏各跑一台服务器的方案。开展商业模式后,用户有了普通用户与VIP用户之分,为保证VIP用户体验,公司给这部分用户又单开了一台服务器。 运行一段时间后,她发现,由于游戏人数少,云服务器经常空跑,而公司又要承担这笔费用。

对此,团队的解决办法是在高频率推进爆款游戏上云的同时,提出所有游戏在相同服务器上混跑的方案。最终,云服务器的利用率得以提升。

小宅认为,“云上的浪费或超支,可能存在业务发展停滞不前或没找到合理方式平衡云成本等原因。现阶段,企业要考虑上云后能否取得超出云成本的收益,或节省大笔成本。”

随着IT资源使用方式从强监管变为自助式,参与部门的增多,财务部门精细化运营的负担加重。即便每年年初制定预算,使用过程中IT人员尽职尽责,所有的资源利用率都得到紧密监控,可最终一些企业依然会出现超支问题,指标管理和数据分析平台供应商Kyligence早期做产品时也有过这样的困惑。Kyligence合伙人兼副总裁李栋认为,在业务驱动的模式下,容易忽视的一点是,云成本指标在各部门间的对齐。

“公司内部每个员工都有自己的KPI,当员工与员工之间的KPI形成一种对齐的关系,才能拧成一股绳,公司的增长也会更快。当企业以数据或指标为出发点,将IT、业务、财务团队统一到一盘棋上,摆脱各部门各自为政的局面,加强过程管理,在企业内部就创造出了一种数据文化。”李栋说道。

这一理念与一项在国内兴起的新技术——FinOps云成本优化,似乎有着异曲同工之处。

2017年,随着云计算面临的财务支出和问责制度的挑战,一项名为FinOps的云成本优化解决方案在海外崭露头角。根据FinOps基金会的定义:

FinOps是一种云的运营模式,实现了集系统、最佳实践、文化于一体的转变,从而提升组织理解并权衡云计算成本的能力。正如DevOps通过打破孤岛、提高敏捷性而彻底改变开发一样,FinOps通过建立一套技术、业务和财务人员共同协作的新管理流程,提升云计算的业务价值。

通俗来讲,FinOps,相当于Finance+DevOps的结合体,倡导技术、业务与财务融为一体的管理方式,将财务责任制贯彻到整个企业中去,以数据系统的指标和企业制定的KPI为指针,帮助企业进行精细化的成本观测,并提供科学的成本预测、成本结构优化方案。

上市公司IT总监雨生,曾有过一段短暂的FinOps创业经历,在寻找融资的过程中,他发现多数人并不理解这个概念。

“在国内,一家企业在云上花个大几百万、上千万可能才有动机落地FinOps。但实际上,多数企业上云后的成本都会逐年递增。国际上,云的平均增长率在20%-30%,特定领域是40%-50%,并不是每家企业都能长期保持高速运转。如果营收跟不上,企业的财务状况只会越来越差。当企业感到痛的时候,可能已经出现了很大的问题。”雨生说。

相比之下,海外FinOps市场的步伐更快,应用阶段也更深入,企业接受度也更高。

Zoom在2021年第一季度报告中称其毛利率从上一季度的69.4%扩大到73.9%,主要原因在于进行了公有云资源的优化。

 

Spotify通过Cost Insights定制工具跟踪云费用,并鼓励工程师掌握云支出的所有权,将每年的云支出减少了数百万美元。

目前,AWS(亚马逊云科技)已汇聚了大量第三方服务商,Google Cloud和Intel等公司也专门更新了FinOps的介绍板块。

回到国内FinOps市场,在降本增效、碳中和等宏观因素的推动下,今年也出现了明显的提速。头部公有云厂商积极布道,阿里云容器服务推出了企业云原生IT成本治理方案;腾讯云基于内部实践,推出了业界首个基于理论的开源项目Crane。

与此同时,一些第三方服务商开始积极探路,这一队伍包括云管理平台、BI服务商等等。但与生长在AWS生态的ISV服务商形态不同,数量也相对更少。

两种模式都带有发展初期特有的问题。公有云具有天然的获客优势,但与此同时,缺乏中立性,存在“自己革自己命”的商业悖论;第三方平台的产品颗粒度更细,但商业模式仍在摸索阶段。

对服务商来说,另一个挑战则来自市场化。星汉未来CTO舒超表示,“国外IT基础设施的标准化程度非常高,但国内非标的情况特别多,服务商至少在前期会面临一些定制化的成本。与此同时,我们也发现一个好的趋势,随着云原生的普及,客户使用的技术栈正在趋于标准化,这意味着未来定制化程度将会越来越少。”

云原生已经进入到下半场,云计算正在向精细化的方向转型,企业的关注点从怎样上云,转变到怎样管理成本,是一个自然而然的过程。然而,云上降本之路,知易行难,任重道远。

一方面,受限于企业的发展阶段;另一方面,受限于跨部门协作的执行难度。

多位企业IT人员反映,“B端的决策链特别长,在本职工作外,还要额外关注成本管理,恐怕实施起来很难”,“做这件事需要一定的人力推动,至少要领导层面牵头”,“财务会很关心,但现实可能是,优秀的IT不需要,普通的IT不欢迎这个东西”。

星汉未来CTO舒超认为,“FinOps是一项一体化协同的综合性工程,最难的可能不是技术,而是组织墙的打破,推动这件事情要打通各个部门在成本上的利益分配,大概率是一个一把手工程。

据他的观察,一个有意思的现象是,相比已经出现成本问题的企业,以新能源车企为代表的新兴行业,似乎更愿意在风险来临前,提前把降本纳入研发环节。

当然,这也将给IT角色带来巨大的挑战,标志着传统IT向业务型IT转型,目标协同性将更加一致。

上市公司IT总监雨生认为,在业务型IT的视角下,企业要从投资的角度看财报,企业一号位至少要知道外面的世界是什么样的,并多问自己几个问题。

你的IT效能在同行业排名如何? 占财报毛利率的多少个点? 行业平均中位线是多少个点? 是否还有可优化的空间?你的CTO是否有更好更省的架构去支撑业务,是否有可能自研一个类似的模型,需要投入多少,ROI能到多少?”雨生说。

VUCA时代,对于难以开展更多业务,急需聚焦的企业来说,与其在员工福利上节衣缩食,更应该关注到企业隐形的大额成本,不再盲目烧钱。用数据协同的各项指标,优化各自的ROI或单位成本,从而提升净利润,成为行业中成本结构最优的IT平台,这应该是未来企业降本之路真正健康的方向。

在腾讯云开源项目Crane负责人胡启明看来,多数企业需要扭转一个观念。“FinOps的核心不是降本,也不是问责,而是帮助企业更好地上云,实现投入产出比的最大化。通过合理投入一定成本,使产品快速上线,获取更多用户和利润,这是它的本质目的。”胡启明说道。

为帮助企业更好了解并落地云成本优化,36氪企服点评整理了10款相关产品,仅供参考。

1. 阿里云:云原生IT成本治理方案

阿里云成本治理FinOps解决方案从物理和逻辑两个维度进行聚合分析,物理维度包括集群的Node、节点池和资源组;逻辑维度包括Pod、应用负载和命名空间,并将物理维度的费用和逻辑维度的费用进行打通,建立完整的资源成本画像,更准确合理地进行IT成本治理。FinOps通过构建企业IT成本可视化系统,协同业务、运维、财务进行战略协同,实现IT成本的数字化、可视化,通过问责不追责的方式,连续迭代优化企业IT成本。

产品文档:https://help.aliyun.com/document_detail/454162.html?spm=a2c4g.11186623.0.0.2c865b29gkwhEL

Hold不住的云账单,云上降本增效难在哪?

2. 腾讯云:云原生成本优化开源项目Crane

Crane是腾讯内部云资源优化流程方法和工具的系统性输出,核心能力与FinOps基金会提出的能力模型完全契合。目前已发布0.8.0版本,具备资源推荐、弹性推荐、智能弹性,以及稳定性增强等能力。支持一键部署;提供简单易用的可视化控制台;可全局扫描整体浪费情况,免除运维人员拉取监控数据,编写查询脚本等重复性工作;支持可扩展的预测算法,以预测结果驱动横向和纵向弹性,确保业务提前弹出;兼具资源优化与稳定性。

GitHub地址:https://github.com/gocrane/crane/

Hold不住的云账单,云上降本增效难在哪?

3. 网宿科技MSP

成立于2000年,云分发及边缘计算服务商,旗下产品MSP中的成本优化服务,依托网宿HandyOps云管理平台,输出“四大优化模块+一个优化工具+一项咨询服务”的成本优化方案。提供24小时不间断监测,分析用户资源使用情况及计费类型;精准掌握云厂商不同服务的收费模式,结合云资源实际使用情况和后台优化规则,提出合理优化建议;定期提供成本使用及优化报告,并分析成本费用与各业务匹配关系,提供定制化解决方案。

Hold不住的云账单,云上降本增效难在哪?

4. 安畅网络SmartOps云管理平台

成立于2007年,云管理服务商,旗下产品SmartOps,定位为服务平台,基于自动化技术和管理服务帮助用户快速上云、合理使用云资源、简化云管理。根据Gartner提出的云上成本优化建议,总结出“云费用优化五部曲”理论,通过调整资源规格、清理闲置云资源、优化出向流量、提升资源运行效率、优化应用架构,合理规划企业对云资源的使用。

Hold不住的云账单,云上降本增效难在哪?

5. Kyligence Zen

成立于2016年,指标管理和数据分析平台供应商。旗下指标中台产品Kyligence Zen,基于OLAP能力,提供目标管理、指标目录、指标自动化、API集成功能,解决企业在指标管理、应用、分析上的痛点。支持目标与指标对齐,管理过程和结果指标;帮助企业定义和管理指标,形成统一的指标口径,并通过指标归因分析等能力及时获得洞察结论;依托AI增强引擎,自动根据指标使用特征动态建设数据集市;提供开放的API接口,支持定制工作流,对接各类管理协同平台或数据分析工具。

Hold不住的云账单,云上降本增效难在哪?

6. 骞云科技FinOps云费用管控平台

成立于2016年,云原生管理平台,致力于构建AI赋能的面向多云和DevOps的超级自动化运维体系。旗下产品FinOps云费用管控平台,可统一采集或生成公有云、私有云和混合云的各种费用,并从多维度呈现可视化费用分析;自动分析发现资源配置问题,识别浪费、自动启停、自动缩放、动态分配资源,并提供一键优化,实现云成本节约;通过自定义优化策略,实现云资源持续优化与成本管控。

Hold不住的云账单,云上降本增效难在哪?

7. 联蔚盘云FinOps云成本优化平台

成立于2019年,多云管理服务提供商,旗下产品FinOps云成本优化平台,包含多云应用统一管理、多维度账单管理、预算管理与告警、资源成本优化管理等核心模块;支持SaaS、本地部署两种模式;FinOps咨询、运营两大服务亮点,为企业提供FinOps调研分析,梳理多云分账管理逻辑,定制预算管理、成本预测、资源成本优化模型;完成资源/应用导入导出管理和标签管理,构建与维护云CMDB,并提供资源成本优化建议的执行和验证。

Hold不住的云账单,云上降本增效难在哪?

8. 行云管家云管平台

成立于2020年,云计算管理平台,具备主机监控、云堡垒机、数据库运维审计、自动化运维、云成本分析、主机安全体检等功能特性。旗下产品云管平台,于2016年发布第一个Beta版本,支持从实例、带宽、磁盘等各维度分析企业成本支出,展示云资源成本支出结构;通过对应用负载进行数据挖掘分析,帮助企业进行云资源增减配,提供优化建议;支持后付费实时预警,并针对不同云厂商提供迁移方案。

Hold不住的云账单,云上降本增效难在哪?

9. 佳杰云星RightCloud云星费用管家

成立于2020年,云管理服务商,旗下产品RightCloud云星费用管家,可持续分析云资源性能监控指标、云资源账单等多维度数据,为企业提供资源释放、资源升降配、付费合理性等方面的调整建议;当账号中存在大量主机,运维管理人员无法针对每台主机分析使用情况,云星费用管家可提供汇总视图,清晰呈现账号中所有可优化调整的资源;支持日常费用监控、预算告警,以及不同部门精确的成本分摊,并预估未来短期费用趋势,帮助企业合理管理云账号费用。

Hold不住的云账单,云上降本增效难在哪?

10. 星汉未来CostPilot

成立于2021年,云原生基础软件服务商。旗下产品企业云成本管家CostPilot是基于FinOps理念开发的一站式企业云成本管理平台,贯穿成本管理全流程,从预算管理、容量管理,到洞察报告、优化策略、长期运营;适用于公有云、私有云、混合云的全场景解决方案;支持物理机、虚机、容器、存储、网络等的成本洞察与分析,从多种维度全面洞悉成本现状,并从业务架构、云服务选型、付费类型等多种角度提供全方位的优化建议。

Hold不住的云账单,云上降本增效难在哪?

 

免责声明:以上产品主要根据36氪企服点评站内外热度的综合评价整理,排名不分先后。

(应受访者需要,雨生、赵刚、小宅为化名)

 

[免责声明]

原文标题: Hold不住的云账单,云上降本增效难在哪?

本文由作者原创发布于36氪企服点评;未经许可,禁止转载。

资深作者王文婧
0
相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作