云上搬家 达达 之旅 (云搬家官网)
从2006年,AWS公开发布S3存储服务、SQS消息队列及EC2虚拟机服务开始,云计算已经走过了十余年的发展历史,中国的数百万家大中小型企业也在云计算的浪潮中逐步摸索着最合适自己的IT模式。
很多企业从IDC托管到私有云、公有云、混合云,追随着时代不断革新自己的IT系统,寻求最高效率的IT架构;很多企业在面对自身超复杂业务场景时,为了追求系统稳定,选择不同云服务商进行跨云灾备和业务双活;还有很多企业将自己的不同业务系统部署在不同的云服务商,以避免单一厂商对自己业务和数据的深度绑定,使得IT管理更灵活。
面对这一系列的业务需求变化导致的IT变革,多云正式走入了云计算的舞台中央。
多云时代,庞大IT系统背后的困局
多云不是趋势,已是事实。
根据《Flexera 2021 State of the Cloud Report》的数据,目前有92%的大型企业在使用多云,7%使用一朵公有云,1%使用一朵私有云。
10010559_21903.jpg" loading="lazy">
随着IT系统的不断演进和业务需求的高速发展,企业面对着多云时代的庞大IT系统,亟待在困境中寻求解决之道:
首先,传统的基础设施管理已经变成了各种云服务的管理,如何在成百上千种云服务中寻找高效的管理方式?
再者,业务持续增长,应用架构越来越复杂,如何在多个云的不同云资源中快速构建完整的应用系统架构?
第三,市场需求千变万化,业务模式日新月异,如何使庞大的IT系统能够跟上市场的变化,让“大象”敏捷转身,甚至敏捷奔跑?
2019年开始,达达启动了多云战略,构建云原生体系,跨云管理,跨云双活,历时3年,与京东云一起探寻超大规模资源的调度管理模式,寻找高IT效率下的最优部署方式,寻逐艰难却必须要走的跨云迁移之路。
云原生是多云架构的地基
多云战略启动伊始,达达集团旗下的两大核心业务,达达快送与京东到家,其即时配送和电商系统都部署在公有云上,随着达达业务快速增长,基础业务和安全风控压力逐渐增大,原有云服务商的算力和存储也面临资源短缺。
因此,达达技术团队将部分算力和存储迁移至京东云上,使得上下游业务连接更紧密,实现计算资源高弹性、成本压缩与业务稳定。迁移过程中,达达集团旗下达达快送对原有的技术架构进行全面梳理与革新,实现传统架构向云原生体系的升级。
同时,完成向京东云的首批迁移后,达达与京东物流的信息交互可以通过公有云的内网通道实现,规避了公网波动,提升了稳定的同时,大幅节省了网络成本。
至此,达达走出了多云战略的第一步。
云原生体系的搭建帮助达达实现了跨云管理,融合自身运维、运营、安全等一系列多云架构的扩展需求,将多云资源向业务层逻辑化供给,屏蔽了底层异构性。
云上迁移过程中,京东云为达达提供了4条专线以承载跨云间的数据传输服务,同时在网络划分、路由编写、对接打通等领域帮助达达解决了迁移过程中大量高可用问题。同时,为了提升业务的稳定性和抗风险能力,达达在京东云上完成了数据库备份和网络高可用设计。
另外,面对来自IaaS层的安全防护需求,达达与京东云共同创建了立体化的业务防护体系,1年内,成功抵御了近20亿次Web攻击,发现上百个漏洞并提供专业修复和加固建议。同时面对达达来自业务层面的风险控制需求,京东云打造的实时业务风险识别安全体系,全面提升业务交易流程中的风险识别能力,降低黑灰产交易比例。
达达通过上云迁移实现了多云架构的雏形,但这种不够彻底的多个云模式的弊病也逐渐显现,每个云上的业务就像一个烟囱,与其他系统隔离,这种架构导致业务系统各自为战,一方面降低了云资源的使用效率,一方面也减弱了云计算原本的快速便捷的优势,使得达达这种“多个云”模式的整体资源成本不断攀升。
跨云双活是多云构架降本增效的利器
除了资源成本不断攀升,达达还面临另外一个难题。
达达的业务涉及电商与物流两个融合场景,大促时既要面临订单峰值激增,又要保证快递员短时高效准确送达,平台智能订单分发系统和运力供需调控系统受到极大挑战。任何业务系统的不可用事件都会引起线上与线下的连锁反应,严重时会导致系统宕机,业务瘫痪。
在物流、电商等多个平台的超复杂场景下,达达要兼顾资源成本和业务稳定性的双重压力。此时,跨云双活解决方案走进了达达的视野。
借助京东云混合多云操作系统云舰的跨云多活能力,达达完成跨云双活架构的搭建,通过注册中心多云部署,业务就近注册和调度,实现跨云平台的业务自由切换。除了跨云管理之外,跨云双活架构可以在多云一致的云原生运行环境下,通过高效调度,提升资源利用率,实现生产效能升迁,显著降低IT资源成本。跨云双活架构从根本上解决了多个云模式下烟囱式架构所带来的资源利用率低下的问题。
至此,达达完成了多云战略的第二步。
建立跨云双活架构,每年为达达节省千万的IT成本;跨云双活架构下,达达又在京东云的帮助下实现了两个关键技术的突破。
一是数据库的双向复制。达达庞大的用户规模使得订单表和用户表数据量突破上亿条,此时数据库的IO能力、处理能力遇到瓶颈。将数据库进行分库分表,可以规避性能极限,同时实现跨云的双向复制。达达按照CityID进行分库分表,跨云切换时,以城市为单位进行流量切换,确保系统数据的一致性,降低延时。
二是流量分发优化。打通随时配和落地配两个业务之间的VPC对等连接,使用私有IP地址在两个VPC之间路由流量实现VPC中实例的彼此通信。这样的VPC对等连接既不是网关也不是VPN,不依赖某一单独的物理硬件,没有单点通信故障也没有带宽瓶颈。
达达通过跨云双活实现了降本增效,每年节约千万级IT资源,但同时这一多云双活架构也不断面临着新的挑战,新业务系统上线带来的架构调整,大促等流量爆发带来的性能瓶颈,都不断考验着目前系统架构的最优性。
跨云双活还不是终点,达达和京东云的技术团队仍在不断探索多云的更优路径。
无感知式跨云迁移是保障多云稳定的基石
跨云迁移不只是跨云搬迁,而是与业务应用重构和跨云容灾相结合,通过云原生操作系统屏蔽异构化问题,增加了多云迁移的灵活性和动态性,降低了迁移成本,实现跨云迁移在业务层面的无感知。
达达业务的实时性和用户的超强感知性,决定了其平台对于系统稳定性的超高要求。为了应对业务变化对于多云架构的实时考验,京东云通过技术创新和场景实践,打造了一套标准化的跨云迁移方案,确保跨云迁移和多云架构调整过程中,业务零感知,实现了上云,下云,多云,灾备,双活的“选择自由”和“切换自由”。
无感知式跨院迁移的第一个门槛来自于迁移的分批策略如何更好的对业务系统拆解分批,以最大化的降低迁移服务不可用对实际业务造成的影响。京东云-云泰混沌工程平台可以模拟某一迁移批次服务不可用,在此情况下实际验证其他服务受到的影响,然后根据测试结果再来不断的优化迁移策略,然后再次验证,直到完成最终的迁移批次划分方案。
无感知式跨云迁移的另外一个瓶颈来自数据库的迁移,达达有100多个Redis集群,1000余个实例需要完成跨云迁移并能保持数据实时同步。京东云自研的跨云迁移工具RedisSyncer可以完成redis之间数据同步,支持跨版本、异构集群间的数据同步,能够适应云上与云下、原生与托管等多种场景,满足数据库迁移过程中的同步、扩容等需求。
基于业务的动态变化和多云架构的调整,截至2022年4月,达达已经在京东云部署了超5万核计算资源,实现落地配,即时配和电商系统的全面多云化,每年节省千万级IT成本,运维效率提升30%。
历时3年的多云战略实践,达达携手京东云交出了一份满意的答卷。
多云是超大规模IT资源管理的致胜之匙
作为产业数智化的先行者,京东云基于零售、物流、健康、工业、园区等复杂场景的磨炼,持续输出更贴近业务场景的产品服务产业客户。京东混合云操作系统云舰可以提供多个公有云、多个私有云、混合云以及各种异构资源的统一运行环境。向下可以融合混合多云环境,屏蔽多云差异、实现多云一体、应用一致运行;向上可以提供业务所需能力,以PaaS输出各类数智化组件,保证PaaS应用在多云有完全一致的体验。一方面提升了资源管理和运维效率,一方面保证了业务系统的灵活性。
多云已经成为IT架构的新宠,在商业上获得更具性价比的服务,在技术上增加灵活性、可拓展性和稳定性。京东云作为云原生领先实践者及受益者,将持续向行业输出在多云领域的探索和成果,帮助更多企业实现可持续发展。
版权文章,未经授权禁止转载。详情见 转载须知 。