Azure 步上了阿里云、腾讯云的“后尘”:这波流量太猛,扛不住了

百家 作者:InfoQ 2020-03-31 12:04:50
作者丨田晓旭
随着疫情的不断蔓延,每个 IT 大厂都躲不过“流量突增”这一道题。  

3 月 28 日,微软在官方博客发文,透露了随着全球疫情的不断蔓延,当前 Microsoft Azure 的使用情况。

  • 在执行隔离措施的地区,Azure 云服务的需求增加了 775%;

  • Teams(微软提供的协作软件)的使用率显著增加,每天有超过 4400 万用户使用,在过去的一周内,用户平均每天产生的会议和通话超过 9 亿次;

  • Windows 虚拟桌面使用率增长了 3 倍以上;

  • 政府使用 Power BI 共享数据的 COVID-19 仪表板,在过去一周增加了 42%;

1 多名用户吐槽 Azure 无法正常使用,Azure 疑似容量不足

3 月 24 日,宕机追踪网站 Down Detector 报告了 Azure 英国地区的多个问题,不过,在官方的 Azure 页面显示是全部正常的。当然,无法提供资源不能算是中断,但也会给用户造成困扰,毕竟在备用 Azure 区域中,创建服务不一定是可行的,某些资源必须是在同一区域内创建,才能正常工作。

Azure 中断似乎主要与容量有关

除了 Down Detector 报告,我们也看到了多位用户吐槽自己的 Azure 服务不能正常使用了。

一位用户在 Twitter 上发文称,“Azure 似乎已经满了!”根据推文的配图来看,他正在尝试为 WVD 分配 VM,从命名 WVD-TEST-0 来看,这似乎是个测试部署,结果出现了错误,错误提示分配失败,该地区没有足够的容量来容纳请求的 VM 大小。该地区位于英国南部。

另外一位用户也发文称:“我昨天使用的虚拟机,今天已经无法启动了,Azure Functions 也无法正常触发了。”

有用户解释称:“Azure Functions 虽然是 Serverless,但是从用户角度来看,仍然需要启动一个 VM 来运行该功能,因此无法摆脱容量问题。与无法提供新资源相比,现有资源的不可靠性可能是一个更为严重的问题。”

2 微软回复容量不足:会限制,但并未中断服务

针对激增的流量,微软也做出了部分回应,并称流量的增长不会对 Azure 产生负面影响。

为了应对容量不足的问题,微软采取了一些临时限制措施,限制了免费提供,优先考虑现有客户,对于新订阅的某些资源也做了限制。用户可以提出支持请求来增加容量,在不能满足请求的情况下,微软建议用户使用需求量较少的替代区域,同时微软也会在某些地区增加新的产能。

至于是否中断服务,微软回应称:“尽管需求显著增加,但我们并未出现任何重大服务中断。由于上周使用量激增,我们在某些地区(欧洲北部,欧洲西部,英国南部,法国中部,亚洲东部,印度南部,巴西南部)遇到了巨大需求,目前我们也在观察在这些地区计算资源类型部署成功率低于 99.99% 的情况。”

“目前大部分部署仍然是可以成功的,如果用户多次收到了分配失败的提醒,我们也有相应的解决策略。我们把这些短期分配不足视为服务事件,会通过 Azure Service Health 向受影响的客户发送有针对性的更新和缓解指导。”

3 疫情冲击,Facebook、Netflix、YouTube 纷纷降低画质

受疫情影响,流量突增的不只是微软 Azure,视频网站也有同样的经历。为了应对这一情况,多家拥有视频业务的企业都选择了降低视频画质。

3 月 19 日,Netflix 发表声明称:在确保为会员提供优质服务的前提,将欧洲地区的视频内容码率降低 1/4。视频内容码率的降低意味着视频的清晰度会随之降低。

3 月 20 日,YouTube 发布声明称:虽然到目前为止,YouTube 上用量高峰的出现次数并不是很多,但为了减少系统压力,YouTube 还是决定采取措施,暂时将欧盟地区 (以及英国) 的所有默认清晰度设置为标准清晰度,实施期限为 30 天,之后会依据情况随时调整。

3 月 22 日,迪士尼宣布:将于 3 月 24 日开始,降低整个欧洲地区的视频码率,以帮助在疫情期间控制互联网流量。

3 月 24 日,根据外媒报道,为了缓解网络拥堵,Facebook 将在拉丁美洲范围内,降低其社交媒体平台上(包括 Facebook 和 Instagram)的视频清晰度,此前 Facebook 已经宣布在欧洲采取了这个做法。

4 流量突增这道题,国内是怎么答的?

因疫情原因导致流量突增,这道题国内企业也写了,他们的答案是什么呢?扩容!

我们以钉钉和腾讯会议为例,讲讲他们的解题过程。

据了解,春节之后,超过 1000 万组织和 2 亿的上班族、5000 万学生通过钉钉在线开工和学习。2 月 3 号在线开工, 2 月 10 号全国中小学在线开学, 2 月 17 号全面复工复学,钉钉每周的流量都是前一周的 N 倍。

据了解,钉钉超预期的流量增加不是 3 倍、或 10 倍,而是 20 倍、上百倍,部分应用系统甚至达到了百倍以上。为了保障登录、消息收发等核心系统的通畅,钉钉对部分上下游系统实施流控的手段。并同时进行了全力扩容,据了解目前钉钉已连续在阿里云扩容 10 万多台云服务器。

同样的流量增长也发生在了腾讯会议。当企业还没复工的时候,腾讯以为流量增长可能只是十倍或者百倍,复工一两天之后,他们发现每天都是十倍十倍的增长,即使后来流量已经很高了,可仍旧在“翻倍”。

为了支持这么大的流量,从 1 月 29 日开始到 2 月 6 日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近 1.5 万台,8 天总共扩容超过 10 万台云主机,共涉及超百万核的计算资源投入。


InfoQ 读者交流群上线啦!各位小伙伴可以扫描下方二维码,添加 InfoQ 小助手,回复关键字“进群”申请入群。大家可以和 InfoQ 读者一起畅所欲言,和编辑们零距离接触,超值的技术礼包等你领取,还有超值活动等你参加,快来加入我们吧!

点个在看少个 bug 

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接