在COVID-19疫情初期,为了确保员工能够可靠地进行混合办公,微软数字员工体验部门的首席云网络工程经理Steve Means和他的团队致力于确保公司的内部网络能够承受住压力。
强大的网络表现
“我们的网络在员工远程工作方面表现得非常好,”Means表示。“到目前为止,我们的网络和VPN表现都非常强劲。”
这一良好表现得益于团队早期做出的决定,减少公司通过VPN传输的工作负载。他们在全球大多数地点实施了分割隧道,将大部分移动工作负载直接引导到互联网。
分割隧道的优势
由于微软几乎100%采用云技术,远程员工能够通过Microsoft Azure和Office 365访问核心应用程序和体验。在公司迁移到云之前,所有流量都必须通过VPN进行路由。
“这真的帮助了我们,大多数移动工作负载,包括流量到高频率和性能敏感的Office 365和Azure应用程序,都是安全地直接通过互联网路由的,”Means说。
回顾起来,采纳分割隧道是一个关键决定。“这让我们的员工在远程工作时能够维持正常的生产力水平,”他说。
他指出员工在使用Microsoft Teams方面的显著增加。“我们的员工在Teams上使用语音和视频会议的频率大幅提升,”他说。“由于流量通过互联网路由,我们能够在没有重大问题的情况下维持Teams的使用高峰——这让我们的VPN容量可以专注于用户与内部资源之间的必要连接。”
中国的挑战
然而,挑战随之而来,尤其是在微软中国的员工开始远程工作时。“与我们总部和其他全球地点不同,当我们在中国的员工远程工作时,他们的所有工作都必须通过我们的VPN通道,”Means说。
这意味着上海和北京的员工工作负载100%通过已经使用繁重的VPN网关。“这几乎是一个突发现象,”Means表示。“我们突然看到85%到95%的网络带宽和VPN容量被使用。”
在COVID-19传播之前,VPN的使用已经很紧张,而现在在中国迅速成为瓶颈。
迅速应对
“我们开始问自己很多问题,”Means说。“我们能否处理预期的同时VPN会话数量?带宽对员工的支持如何?他们的体验怎么样?他们都能成功吗?”
需要迅速采取行动。“我们有数据来回答所有问题,但我们没有一个统一的视图来快速查看公司基础设施的状况,”Means说。“公司领导正在努力应对危机,他们需要我们的数据,而且需要快速。”
解决方案是识别最重要的数据并将其聚合到一个Microsoft Power BI仪表板中,该仪表板用于跟踪所有VPN系统的情况。
增加VPN容量
针对上海和北京的办公室,Means的团队与当地互联网提供商合作,将VPN容量提高50%,确保有足够的余量来安全处理新的使用量。“这是一项预算决策,”Means说。“我们只需签一些合同,无需新硬件。一旦我们达成一致,这是正确的做法,我们在不到一天的时间内就消除了瓶颈。”
VPN基础设施的投资回报
对于微软员工和供应商频繁远程工作这一想法,Means曾感到不安,但他相信其VPN基础设施能够支持突如其来的需求激增。三年前,他并不会如此乐观。
“几年前,我们处于一个困难的境地,”Means说。“我们的员工端到端VPN体验并不强,有多个复杂的原因——这是一个复杂的堆栈,存在多个潜在故障点。”
团队在Windows方面遇到问题,网络面临挑战,公司同时使用了几种不同的VPN客户端,这给员工带来了困惑和复杂性。Means的团队与Windows团队密切合作,通过直接合作和参与,推动Windows原生VPN客户端的稳定性显著提升。
“我们的连接成功率在60%到65%之间,非常低,”Means说。“这意味着每次员工尝试远程工作时,三分之一的人都会遇到问题。”
解决方案的实施
“我们知道,如果需要大量员工远程工作,这可能会成为一个问题,”Means说。“因此,我们在增强VPN服务方面进行了大量投资,关注用户体验并与内部团队密切合作。”
“我们构建的新系统能够支持超过200,000个并发会话,”Means说。“在极端情况下,我们可以同时支持这么多VPN用户。”
微软拥有221,000名员工以及大量在公司网络上工作的供应商。虽然他们并不总是同时工作,但目标是覆盖最坏的情况,并为未来做好准备。
“在全球范围内,我们通常有大约55,000名员工每天通过VPN连接,”Means说。“随着每个人远程工作,这个数字已经上升到每天高达128,000名员工和供应商,包括在我们位于雷德蒙德总部的约45,000名员工。”
以前,员工使用大量网关访问公司的内部网络,但许多网关提供的连接质量较差。“我们将网关整合到数据中心和带宽充足的位置,”Means说。“这减少了网关站点的数量,但提高了整体可靠性,并使我们能够处理更多的并发连接。”
团队设计的混合结构利用Microsoft Azure流量管理器对VPN用户进行地理定位。“这使我们能够将他们引导到最近的网关,以满足规模需求,”他说。“我们使用Azure Active Directory(AAD)对用户进行身份验证,并在允许他们连接VPN之前验证其设备状态。”
团队还开始使用可以处理30,000或60,000名用户的服务器,远超之前只能处理750到2,000名用户的旧服务器。“理论上,我们现在可以在全球范围内处理500,000个并发VPN连接,”Means说。
结论
Means表示,公司VPN服务的改善显著,以至于员工在远程工作时几乎忘记了它在后台的运作。尽管VPN的使用频率比以往任何时候都要高,但公司的VPN基础设施仍在高水平运行。“敲木头,至今没有重大事件,”Means说。
最重要的是,VPN使员工能够完成工作。“今天,尽管许多员工远程工作,我们的成功率达到了92%,”Means说。“这是我们有史以来最高的成功率之一——唯一没有达到99%的原因是因为这个数字。”