“双11”背后的 安全运维二三事

2019-12-23    来源:

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

一年一度的天猫“双11”不仅交易额每年都实现了快速增长,而且这一特别的节日也成了新消费力量最好的体现。新的消费人群、新的消费场景和模式,以及新的消费供给,给人们带来了完全不同的体验。

在这场规模庞大的交易盛宴背后,为交易提供支撑的前台、中台和后台,如何在极限的高并发情况下保持交易系统的高效、稳定和可靠?又有多少奋战在一线的企业IT管理和运维人员,加班加点,保证业务的连续性?还有多少安全的守护者,为了交易的安全熬红了双眼?
 

在“双11”的热潮渐渐退却之时,我们则要逐一揭开“双11”背后那些不为人知的技术细节、运维体验和安全技巧。



撑得住“双11”的那朵云


“不是任何一朵云都能撑住像‘双11’这样的流量。”阿里巴巴集团CTO、阿里云智能总裁张建锋表示。
 

2019年天猫“双11”再次刷新世界纪录:总成交额2684亿元,订单峰值54.4万笔/秒,单日数据处理量970PB。这是在阿里巴巴核心系统今年已100%上云的情况完成的创纪录之举。阿里巴巴这朵云经受住了“双11”这一世界级流量洪峰。
 

用公共云承载一个万亿规模的核心系统,阿里云做到了。可以肯定的是,未来阿里的全部系统都将运行在阿里云上。
 

其实,从去年开始,阿里已经决定将整个阿里巴巴的核心系统全部迁移到云上。阿里为什么敢为天下先?首先,阿里云是阿里自己从头研发的一朵云,每一行代码都是自己的,累积、验证、迭代了十年,这就是大家今天看到的“飞天操作系统”;阿里云将原来专用的技术变成公共云,所有核心系统都在公共云上,让所有人都可以来享受普惠的服务。
 

今年的“双11”已经证明,阿里云100%核心系统上云是成功的。这背后不仅仅是简单的替换,上云之后,系统整体性能有了非常大的提升。在交易开始的前十分钟,消费者基本没有感受到任何抖动,购物非常顺畅。这主要得益于阿里云在以下几方面的优化:
 

首先,在核心虚拟机层面,阿里自研的神龙架构基于自研的服务器实现虚拟化,其性能的输出是稳定的、线性的;其次,阿里自研的OceanBase金融级分布式数据库与PolarDB数据库同样表现优异,其每秒峰值远超原来采用的Oracle传统数据库;再次,实现计算与存储的分离,阿里巴巴有一个专门的存储池,所有数据都是从远端存取,存储的扩展非常方便;最后,大规模采用RDMA网络,保证访问性能。
 

今年的“双11“总共处理了970P的数据。在每个一个时间点,所处理的工作负载又各不相同,同时还要实现实时处理,难度就更大。阿里采用了分而治之的措施,在零点时,将大部分计算机资源分配给交易等应用,在一点之后,则把数据分配给数据处理系统。
 

今年“双11”除了数据的批处理以外,还有大量的流处理,即实时处理所有数据,每生成一笔订单,系统就会自动将数据逐层汇集上来。阿里采用的这一流式处理系统,每秒能处理25亿笔记录。
 

飞天操作系统能够在10万台级别以上的服务器中做调度。管理如此庞大的服务器,除了飞天操作系统之外,还需要管理所有的消息流转。因此,阿里自研了MQ消息系统,这是目前全球最大的一个消息系统。从飞天操作系统、大数据处理平台到智能化应用,这些技术叠加起来,构成了一个强大的分布式的云平台,才掌起了阿里整个经济体的所有核心应用。
 

特别值得一提的是,阿里今年发布了自研的芯片含光800。明年的“双11”,阿里大量的人工智能应用都会跑在自研的芯片之上。
 

硬件、数据库、云计算操作系统,再加上核心应用平台,阿里以自研为起点,始终保持快速创新、快速迭代,才能在“双11”这样的硬仗面前,游刃有余,从容不迫。
 

腾讯云的两场“大考”


S9总决赛直播与“双11”,这是腾讯云要小心应对的两场“大考”。大考,考验的就是云厂商智能调度CDN的能力、弹性伸缩的计算能力、支撑海量高并发的数据库能力,以及技术保障和护航的能力。
 

今年,腾讯云为S9直播提供了全网90%流量的护航,直播流量承载再创新高;同时,在“双11”电商大促过程中,腾讯云服务了国内90%的电商企业。

 

CDN灵活调度



 

临近11月10日23点,S9比赛进入最扣人心弦的决胜局。对于“剁手党”来说,“双11”大战即将进入最后的备战阶段。23点左右,腾讯云工程师监测到上海某运营商带宽几分钟内飙升两倍,大流量瞬间涌入超出预期,起因是众多用户涌入某平台观看S9直播。与此同时,电商平台的流量随时可能迎来爆发。腾讯云的护航工程师按照既定预案,自动启动弹性扩容,将部分空闲资源纳入调度,迅速解决问题,保证直播和大促同时顺畅进行。
 

23:20,FPX战队夺冠,S9直播进入尾声。腾讯云的第一场“大考”安然度过。此时,一波网友已经完成网购,而为庆祝“FPX夺冠”,新的买家涌入电商平台,新一波流量冲顶。



弹 弹 弹

零点过后,“双11”流量逐渐回落。当11月11日的太阳升起后,新一轮的采购热潮又起。8点、12点,电商行业先后迎来流量峰值,就这样流量一直继续增长到11月11日20:00。大约到21:30,“双11”大促流量顶级峰值到来。22点以后,峰值回落,接近24点,电商平台再次迎来一次流量小高峰,之后回落。
 

大促流量峰值充满不确定性,并发数是日常流量的数倍,这将给业务系统带来巨大压力。腾讯云负载均衡CLB可以实时调整集群规模,将流量快速分发到多台云主机上,以适应促销流量的增长,甚至无需人工介入。另一方面,腾讯云支持快速创建云主机。比如,腾讯云自研的基于KVM的极速虚拟化技术方案Havisor,能够在30ms内启动一台虚拟机,创造了业界目前最快启动一台虚拟机的记录。
 

在大促过后,电商业务恢复到正常状态,不再需要额外的计算资源。腾讯云的弹性扩缩架构可以将资源回收,避免产生额外成本。
 

11月12日凌晨两点,最后几位护航的腾讯云工程师合上了电脑。腾讯云的第二场“大考”顺利结束。今年“双11”期间,腾讯云的计算资源较去年同期增长近1.5倍。
 

腾讯云相关团队提前一个月就开始调度资源,协调护航人员。在“双11”大促期间,腾讯云有近200位工程师为客户护航。

 

直播、大促两不误

一位参与多次护航任务的腾讯云工程师表示,电商大促已经进行了很多年,且每年促销好几次,腾讯云的服务完全可以保证用户在前台买得热火朝天,而后台业务风平浪静。
 

一个新的趋势是,直播和电商的结合正变得越来越紧密。举例来说 ,东南亚电商平台Shopee将国内火热的“直播答题”运用到大促当中,在“双11”期间,Shopee组织了多场直播答题活动,吸引了众多用户访问。在国内,以蘑菇街为代表的电商平台积极尝试“直播电商”,通过网红带货。
 

腾讯云支撑S9顶级流量赛事的直播技术正在支持越来越多的电商企业。比如,针对美妆直播场景,腾讯云为客户提供定制的高码率视频流加美颜插件,主播在展示美妆等产品时更容易打动受众。在电商平台上,有用手机进行直播的小型场次,也有平台方请明星用专业设备进行大型直播活动,腾讯云通过私有协议+RTMP标准协议的混合兼容方式,可以灵活应对不同的并发场景和设备。
 

商家在直播时,可以自动开启云端录制、主播手动截流、生成短视频等功能,通过短视频的二次传播,再次导流,从而形成新的流量转化。腾讯云给越来越多具有不同需求的企业提供可靠支撑,创造增量。
 

5.6亿元背后的“中台”故事


良品铺子作为国内零食类龙头企业,自2019年初以来业务快速增长,在今年“双11”期间,良品铺子全渠道销售额达到5.6亿元,相比去年有巨大飞跃。
 

良品铺子“双11”领卡会员数突破1130万,服务用户239万人。这些数据背后,少不了云徙科技的功劳:新一代会员中台,实现了对全渠道8000万会员的高效运营与统一管理;利用大数据分析能力,从海量会员数据中获取洞察,对复购意愿强的老顾客实施精准触达,为预热期广声量告知、爆发期全面抢流促转化提供了精细化、全天候的数字化保障。
 

助力良品铺子制胜“双11”的背后,是云徙科技基于中台架构的智能营销逻辑。
 

云徙基于“业务+数据”双中台核心技术,以及i-CDP全域会员和i-marketing营销智能两大产品,帮助良品铺子升级新一代会员中台,构建“双11”营销枢纽。
 

2019年9月,随着会员中台的升级,搭乘云徙i-CDP全域会员产品,良品铺子实现了从各个渠道触点获取会员数据,并对这些海量数据进行统一的存储和管理,打造属于企业数据“蓄水池”。利用不同的引擎(包括ID、标签、规则、分析与推荐引擎)进行整合分析,自动为会员贴上标签、建立画像,便于从数据中挖掘信息。在数据应用层,通过对会员进行人群分类,获得细分人群的画像以及行为和营销数据报告,同时可实现客户的全生命周期管理。
 

在这之上,通过云徙i-marketing营销智能产品进一步发挥数据的潜能。利用大数据分析技术,帮助运营人员优化营销决策,将“双11”信息精准定向推送给目标用户。
 

基于会员中台,良品铺子在“双11”期间实现了最快1小时内完成百万级营销策略,全天候响应、全场景覆盖,触达率高达99.7%。会员中台的落成,帮助良品铺子摒弃了传统的“手动给会员贴标签”的工作模式。基于会员中台,良品铺子可以实现会员画像的自动化创建,同时可以快速从其海量会员中筛选出活动的目标人群,大大缩短了时间,实现降本提效。
 

通过云徙提供的OneID,可利用图算法找出分布在不同渠道,如天猫、京东、美团、饿了么等不同会员账号之间的关联关系,识别出同一个会员,在“双11”期间不会对同一会员多次推送活动短信,不会引起会员的反感,在提升品牌认知度的同时也能增加体验舒适度。
 

从线上到线下,良品铺子拥有超过50个渠道。过去,多个系统之间的会员数据相互割裂,存在信息孤岛。会员的积分、卡券等权益信息不互通,为会员体验的提升带来了极大弊端。利用会员中台,良品铺子完成了全渠道、多系统间的信息互通,构建了统一的会员管理体系,增加了良品铺子品牌的粉丝粘性。会员中台将帮助良品铺子从容应对数字化挑战,决胜新零售时代。
 

前前后后 团队如何分工协作


在今年“双11”期间,除了电商们忙东忙西的促销活动和彻夜狂欢的买家“剁手党”,对IT圈来说,恐怕最忙的要属运维人员了。
 

像“双11”这样的典型场景,不仅是对数据中心各种设备的考验,同时也是对背后技术服务及运维人员的挑战。
 

对此,UCloud“重保”项目组是深有体会,在他们眼中,“双11”不止是24小时,而是整整筹备了3个月,可谓是历经“上弦月-满月-下弦月”的3次循环。
 

这种典型高并发峰值的业务,通常面临性能、链路、容量、容灾、安全等挑战。“重保”项目组的存在就是为了协助客户稳定的度过业务高峰,他们在其中扮演非常重要的角色。通常来说,为应对这种突如其来的高并发场景,需要在活动的前、中、后期,都要能够提供包括技术和人员上的全力支持。
 

在活动前期,销售人员和服务经理就要深入客户,了解业务特性、活动推广模式、业务QPS等情况,制定双11大促保障方案,把控全盘。
 

而此时,后端技术团队也要相应跟进,进行分工协作。比如,小M同学负责数据库风险排查、数据库瓶颈分析并输出优化方案,小L同学负责NATGW风险规避以及细化监控参数,大M同学负责资源容量规划,Noc团队负责资源结构性调控……
 

此外,技术服务专家组全程紧盯双11期间的“大盘”情况,全力支撑整点秒杀、福袋领取、五折抢购等“巅峰时刻”,为客户提供强力的后盾。
 

最终,UCloud“重保”项目组保障客户大促活动圆满完成。
 

其实不仅是“双11”活动,新游戏开服、视频直播、红包秒抢等等,在一年中客户经常会遇到类似这样的高并发场景,在应对工作上类似,但也有所区分。
 

例如,在针对UCloud“重保”项目组遇到的另一个明星线上给用户派发红包活动中,服务经理需要提前与客户运维团队沟通红包活动特性、业务需求(峰值、并发量等)、核实重点资源等,同时结合历史活动数据、构建红包业务增长与资源负载上升的数据模型,并且根据客户当前架构制定容灾调度预案。
 

而后端技术团队根据客户活动期间的流量及负载情况进行相应的调度优化,并根据客户业务状况和活动规划,在活动期间持续输出数据库等产品的优化建议,全力支撑每一个明星“撒币”时刻,而流量明星则考验着IT系统的“流量”极限。
 

技术服务团队则定点定时密切关注大盘情况,与后端技术团队保持联动。同时依据活动期间每日发生的问题、资源使用情况等信息进行相应梳理并提供业务日报。
 

就是这样,UCloud重保项目组帮助客户一次次平稳度过了流量“巅峰”,在完成客户托付的同时, UCloud重保项目组也一次次在挑战中得到成长。

高并发之下的安全挑战


今年的“双11”交易量再创新高,在商家与消费者狂欢的背后,是一群又一群安全运维人员的默默付出。
 

交易量的节节攀升也意味着网络流量的倍增,特别是在今年的活动期间,单就天猫零点订单峰值就达到54.4万笔/秒。这是商家之“幸”,但却让安全运维人员“战战兢兢”。
 

对技术人员来说,首当其冲的问题是如何应对高并发访问、高频交易、安全攻击带来的种种挑战。
 

从消费者购物的整个环节来看,消费者不仅仅是访问电商平台,其所做的查询、交易等,同时也涉及电商平台所对接的物流系统、保险公司、支付系统、库存系统等的关联平台。而这些平台背后都面临这些挑战。F5中国区技术总监陈亮详细分析了这些挑战。
 

首先是高并发量,客户需要思考其架构是否有弹性,拥有可拓展空间或弹性拓展手段。
 

二是在交易稳定性方面,系统不稳定将会影响交易过程,甚至导致交易失败,因此客户需要考虑其现有IT架构的可靠性。
 

三是交易时延,交易时延会导致用户打不开页面,亦或造成交易失败等,也会给用户体验带来负面影响。
 

最后是交易安全,消费者希望敏感信息不被窃取,企业面临薅羊毛等恶意行为,所以企业需考虑现有IT架构是否可阻挡混杂在正常交易中的安全攻击行为。
 

以上挑战使得企业的IT建设向以下趋势发展:
 

一是资源池化,即资源管理。资源的池化可有效应对用户的弹性可拓展需求。
 

二是云化,并确保在多云环境下的一致性。
 

三是安全保障。比如在秒杀等促销活动时,确保有效客户公平竞争,而非机器人等恶意资源占用。还应考虑动态的安全策略调整机制,以实现基于流程和业务的安全防范。
 

四是可视化(网络层和应用层)。最终用户的可视化信息如果可及时反馈给IT,则可以给资源分配、用户行为的分析、动态的策略调整带来帮助。同时,通过可视化,也可以在第一时间帮助业务部门了解日活/月活用户数量,访问者归属地,访问体验等情况。
 

其实“双11”只是高并发的一个特殊案例。在陈亮看来,如今并不局限于电商行业,各行各业都会出现借助热点事件,通过互联网发布新的业务,进行促销的活动。在这期间,各行各业都将面临应用安全和流量激增的挑战。
 

F5正在致力于从企业的应用代码到最终用户的全路径应用敏捷交付与应用安全可靠保证,并从以下三个方面保障客户安全:
 

在客户层面的可信任访问控制上,对终端及身份识别来判断客户可信度;完善基础架构设施层面包括边界安全、域名安全、加密流量编排等措施;通过部署WAF、安全API等来保障应用层面的安全。
 

此外,F5还提供基于机器学习,用户行为分析等手段,阻断恶意机器人的访问。


“超级大脑”保障海外包裹快速过检


据调查,2016年-2019年前三季度,四线-六线城市进口品牌下单量占比增速高于一线-三线城市。小镇青年在进口品牌商品的下单金额、下单用户数的同比增幅分别高达65%、60%。
 

在这股热情的带动下,各电商今年“双11”海淘战场的拼杀更加白热化,随之而来的是海关监管业务量全面爆发,通关速度成为了海淘体验是否顺畅的“试金石”。
 

海关处理海淘包裹的速度有多快?每小时处理上千件跨境电商包裹,大部分包裹最快仅需十几秒就完成通关,无征税的包裹6秒通关验放,且绝大多数包裹无需拆箱。 这背后,有颗“超级大脑”的支撑。
 

通过可视化分析,海关在快件实际运抵前就完成了筛查和评估,预先精准锁定高风险的“目标”,绝大部分守法合规的低风险快件、直购电商被“超级大脑”判断后直接“读秒放行”。不仅提高了通关效率,也提升了海关监管和风险防控的准确性。
 

“超级大脑”其实是一个多方数据共享,互联互通的海关大数据平台,驱动海关、监管、征税、查私和编制海关统计智能化和自动化的处理,除了要支撑现有业务系统外,还必须能够盘活海关数据资产。而建设这样一个平台,要进行数据采集、数据管理、数据建模、数据分析、数据可视化几个步骤,必定需要强有力的IT基础支撑。对服务器来说,不仅需要具备强大的单机处理能力,更要具备良好的可靠性和稳定性。
 

为保障“超级大脑”不间断、快速的计算力需求,浪潮为海关总署提供了以双路服务器NF5280M5为核心的解决方案。其采用了不同层次的高可用技术,例如丰富的硬盘RAID机制,内存的热备、镜像、纠错,以及电源风扇的冗余热插拔设计,具备了完善的软硬件错误容忍能力。以内存智能管理技术为例,在系统启动前会对内存进行诊断,错误或有隐患单元会被移出可用区域,在系统运行过程中实时对内存进行监控,处理错误或隐患,内存错误检测处理精度可达Bit级别,内存错误引发的故障降低90%以上。
 

同时,灵活的扩展性也可圈可点。在不影响平台正常使用情况下,海关大数据平台可以随用户数据规模的扩大或功能的完善进行扩容,满足未来几年业务发展需求。
 

依托浪潮服务器打造的大数据平台,海关总署的数据处理能力大幅提升,还可以兼容不同类型的数据库,动态选择合适的数据源和计算引擎执行查询请求,性能提升3倍以上,有效降低客户的运维成本。
 

大数据平台还实现了对海关数据的大集中,不仅有效解决了资源利用率低、响应效率低、业务连续性低等问题,也为推动口岸各部门信息共享,准确核查企业进出口申报的真实性,有效改善进出口贸易秩序,实现全国通关一体化奠定了基础。
 

良好用户体验的背后是高可靠产品品质保障


随着电商行业竞争的加剧,追求更好的用户体验成为各大电商努力的目标,而在这两年的发展趋势中尤为如此,这样的趋势也加快了实体商店、线上渠道和配送中心对云、物联网及大数据的使用进程。
 

“双11”活动证明了这一趋势的正确性,就在几年前,商家网站和数据中心因“双11”期间超高的流量峰值而宕机的场景还历历在目,由此带来的用户体验给商家带来了不小的损失。
 

在此背景下,对技术的投入和重视成为零售商力图击败竞争对手的有力手段。但根据维谛技术(Vertiv)在2018年的调查报告显示,在应用新技术与实际操作相结合来实现更完善的客户体验方面,仍有四分之一的零售商处于滞后状态。
 

现实状况与期待目标仍有较大差距,这也意味着在接下来的几年中,对技术及相关设备的投入将会增加,该调查显示,用于线上零售的数据中心空间(包括本地部署空间和主机托管空间)预计将增加20%。同时,为支撑实体店应用程序的使用情况,云托管数量也将增加33%。
 

技术的增持也将改变零售业当前的某些现状,零售商也必将加速调整其运营方式。为了支持这种转变,零售商正在采用全新的物理基础设施,这些基础设施的可靠性更高,并且易于快速部署。这些基于标准化、模块化设计的技术,具备可扩容性和前沿科技适用性。只有具备安全稳定且高可靠的产品品质,才能有效应对各种复杂多变的交易场景,才能给用户一个完美的购物体验。
 

“双11”活动正是在这种场景下的重要战场,提升客户基础设施的可用性、容量和效率是维谛技术历来的目标。
 

其中,在阿里巴巴、京东部署的多个核心数据中心中,就是通过应用维谛技术(Vertiv)的产品方案,以保障数据中心的稳定运行,尤其是在“双11”期间的高并发流量时刻,维谛技术在可靠性、可扩展性、快速部署等方面,确保客户数据中心安全稳定运行,轻松帮助客户应对数据洪峰的冲击。
 

为“双11”保驾护航的幕后


如今,“双11”已成为一年一度的全民购物节,各大商家摩拳擦掌,绞尽脑汁来吸引消费者,得益于消费者超强的购买力,各电商的销售额屡破记录,为这场全民狂欢节保驾护航的幕后,运维保障人员同样功不可没。
 

众所周知,“双11”是一个高并发的应用场景,每秒钟千万级的访问量、几十万次的交易量极易导致服务器崩溃,一旦无法访问,必然影响到客户体验。因此数据中心的保障变得尤为重要、刻不容缓,往往一个细小的失误,都将造成重大损失。
 

作为一名运维老将,万国数据已连续多年参与“双11”运维保障工作,成功帮助客户平稳度过“双11”。
 

为保障“双11”的顺利进行,万国数据提前拟定了详尽的预案,协助网络运营商完成重保期间通信网络的运行保障工作和应急响应制度,并完成了全面的设备系统维护、服务商备件存储情况检查,做到有备无患。
 

在数据中心的出入口,万国数据调动了高级别的安保资源,在人员把控层面上确保重要设备的安全性,并禁止所有网络和物理线路的变更及施工。
 

紧急供水车和应急柴油车在现场待命,保证在市政供电供水出现问题情况下有充足的后备时间,同时可以在区域内灵活调配柴油和水资源,能迅速提供应急保障。
 

消防方面的应急设备同样必不可少,以确保在火灾风险出现时,能迅速启动消防应急预案,做到万无一失。
 

此外,对数据中心机房环境,温度、湿度是否正常,空调、供电系统是否运行良好,地板、天窗、消防、监控等都逐项做了检查准备,力保“双11”期间正常运行。
 

客服团队严阵以待,随时准备接待每一位客户。工程师团队也全部就位,做好远程协助服务响应,保障客户IT设备的运行稳定。联同设备服务商工程师驻场待命,提供紧急现场支持,以便出现故障时,和工程师团队共同处理,减少中间的沟通环节,缩短故障处理时间。
 

“双11”0点的在线交易速度和体验直接影响到商家的销售量和平台的口碑,在这种“人满为患”的时间,庞大的商家业务背后是高达几千G的峰值流量。为保障网络的正常,通过网络监控及协同网络运营商完成重保期间通信网络的运行保障工作和应急响应制度。
 

对于值得关注的重要事件,工程师进行密切协同,根据预案进行快速行动,让一次次可能会扩散的风险消弭于无形。
 

从机房基础设施、电源动力、互联网出口、网络安全、光缆保障等方面,期间不间断的看护和守候,为客户提供了坚实的后勤保障,全力确保 “双11”活动顺利进行。
 

“双11”促销狂潮带来的流量压力一波波涌来,得益于准备充分、应急措施得当,万国数据运营的数据中心成功应对了“双11”考验,没有出现任何一起安全事故,客户的各项业务得以可靠有效地运行。


标签: 双11 安全运维 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:【2019IT运维十大样板工程】山东省城市商业银行合作联盟 BPC业务性能监控项目

下一篇:Vicor 将在开放式数据中心委员会峰会上展示其最新 48V 电源模块创新技术