2023年8月30日:亚马逊Kinesis数据分析已更名为亚马逊托管服务Apache Flink。请阅读AWS新闻博客中的公告,了解更多信息。
概述
本文介绍了在AWS上使用亚马逊Kinesis数据分析构建无服务器数据分析解决方案的参考架构和优化策略。此外,本文还展示了NortonLifeLock工程团队为其VPN服务构建运营分析平台的设计思路,该平台每天处理全球数PB的数据。
NortonLifeLock是一家全球网络安全和互联网隐私公司,为数百万客户提供设备安全、身份和家庭在线隐私的服务。NortonLifeLock相信,数字世界只有在用户对在线安全充满信心时,才能真正赋予人们力量。自2014年以来,NortonLifeLock一直是AWS的客户。
业务挑战
对于任何组织而言,运营数据和指标的价值随着时间的推移而降低。这种价值的丧失可能等同于收入的损失和资源的浪费。实时流分析帮助捕捉这一价值,并提供新的见解,从而创造新的商业机会。
AWS提供了一系列丰富的服务,可以用于提供实时见解和历史趋势。这些服务包括Amazon EMR上的托管Hadoop基础设施服务,以及Kinesis数据分析和AWS Glue等无服务器选项。
NortonLifeLock的VPN产品以免费增值服务的形式提供给用户,因此需要实时执行使用限制,以防止免费用户在超出限制时继续使用服务。NortonLifeLock面临的挑战是以可靠且经济的方式实现这一点。
解决方案概述
NortonLifeLock决定将存储分为两个部分:将使用数据存储在Amazon DynamoDB中以供实时访问,并在Amazon S3中进行分析。这一方案同时满足了实时执行和商业智能(BI)的需求。Kinesis数据分析聚合并加载数据到Amazon S3和DynamoDB。通过将Amazon Kinesis数据流和AWS Lambda作为Kinesis数据分析的消费者,用户和设备级别的聚合得以简化。
为降低成本,用户使用数据按小时聚合并持久化到DynamoDB中。这将数十万的写入分散到一个小时内,从而将DynamoDB的成本降低了30倍。
设计挑战
NortonLifeLock面临以下设计挑战:
- 解决方案必须能够同时满足实时和批处理分析的需求。
- 解决方案必须经济实惠。NortonLifeLock的VPN有数十万的并发用户,如果将用户的使用信息按实时持久化,将导致每秒数万次的读写操作,并产生数万美元的数据库费用。
设计旅程
NortonLifeLock需要一个能够进行实时流处理和批量分析的解决方案。Kinesis数据分析满足这一要求,其主要特点包括:
- 实时流和批量分析的数据聚合
- 完全托管,按需付费
- 自动扩展
初步尝试:Kinesis数据分析的SQL
Kinesis数据分析与SQL提供了一个基于SQL的高级抽象,用于实时流处理和分析。它的配置驱动且非常简单易用。NortonLifeLock能够快速创建原型并进行测试,以实现其数据分析需求。
通过这一系列设计和实施过程,NortonLifeLock不仅提高了其VPN服务的用户体验,同时也为未来的业务发展奠定了坚实的基础。
结论
NortonLifeLock通过在AWS上实施Kinesis数据分析,成功解决了实时分析和成本效益的问题。这一解决方案不仅提高了数据处理的效率,还为公司带来了新的业务机会和增长潜力。