2024年,生成式AI如火如荼地迭代中,从文生文、文生图到文生视频、音频,生成式AI进一步强化。同时这一能力也开始大量应用到艺术创作、娱乐、金融、医疗、制造、汽车等多领域。麦肯锡此前估算,生成式AI每年对全球经济的贡献至多达7.9万亿美元。
作为全球云计算行业的领导者,亚马逊云科技在不久前落幕的2024中国峰会上,发布了诸多与生成式AI相关的重大战略、方案和合作计划。越来越多的企业在业务中使用生成式AI。在生成式AI时代,技术架构演进如何安全稳定地进行,亚马逊云科技大中华区解决方案架构总经理代闻给出了一些新的思考。
在代闻看来,生成式AI的底层仍然是云计算核心能力来支撑。“只有在云计算的环境下,才有机会做这样的从应用到CPU的全栈创新。亚马逊云科技为客户提供的是云计算服务,所以能够在不断提升服务能力的前提下,保持内部全栈创新的灵活性。同时能够了解到使用最多的应用及其资源消耗模式,以此来挑选对用户来说收益最高的技术点来做针对性优化,快速改进软件和硬件堆栈,甚至CPU设计。”
基础组件能力决定了架构设计
生成式AI底层由云计算支撑,云计算的最基础组件是计算、存储和网络,其中又以计算作为最核心的组件。从Amazon Nitro到SRD、SIDR、UltraCluster、Nitro Enclaves、存储、自研芯片Amazon Graviton,亚马逊云科技不断创新赢得了客户的认可。
回顾发展历史,亚马逊云科技不断为客户打破技术和产品服务能力的上限。这些重要节点包括:
2017年亚马逊云科技对外宣布了Amazon Nitro虚拟化平台。将安全、管理和监控也卸载到了硬件上,将主机算力近乎100%地提供给客户,并且进一步加强了虚拟化的安全。更重要的是,实现了虚拟化平台和服务器选择的解耦,因此底层的虚拟化技术创新和上层的服务器种类发展可以并行展开。回顾Amazon Nitro 的十年的发展历程,亚马逊云科技已经发布了五代Amazon Nitro芯片。持续在网络性能、存储性能 和 安全加固。获得更低的延迟、更高的吞吐量以及每秒处理更多数据包的能力。
Amazon Nitro应用的2013年,Amazon EC2 C3系列虚拟机获得了万兆带宽。之后随着Nitro创新,带宽发展到100Gbps、400Gbps,直到现在的单机6.4Tbps,为大模型训练提供了有力的保障。并且,最新Amazon Nitro支持的包转发达到了30Mpps(Packets Per Second),即每秒处理三千万个数据包。
在最新的Amazon Nitro 平台支持下,单个虚拟机的最大 IOPS 可以到 400K,存储带宽可以到 100Gbps。
过去5年, 亚马逊云科技发布了四代Amazon Graviton。亚马逊云科技在全球规模化提供的基于 Amazon Graviton 的 Amazon EC2 实例种类达 150 多个,已经构建的 Amazon Graviton 处理器数量超过 200 万个,并拥有超过 50,000 客户。这些客户涵盖了Amazon EC2 最大的前 100 个客户,他们使用基于Amazon Graviton 的实例为其应用提供最佳性价比。
架构体系创新拓展核心能力
在代闻看来,在架构体系创新中,韧性、弹性与效率是其中的关键。
为构建和运行世界上最可靠的云,亚马逊云科技持续投入,在服务设计和部署机制中构建保障措施,并将韧性植根于运营文化之中。如何应对不可控制的外部风险,以及管理不善造成的内部风险,是技术架构韧性要解决的主要题目。如同桥梁的韧性一样。
最近一段时间,云服务自身的可靠性导致的事故原因大都与云平台的访问控制核心服务相关,亚马逊云科技的Amazon IAM提供高可靠的访问控制服务。Amazon IAM在每个区域的数据平面都采用了单元架构来实现高可用。单元架构,Cell-based Architecture,是一个架构设计方法,目的是最小化故障的影响范围,降低“爆炸半径”。基于多区域的控制面与数据面的隔离,基于区域内 单元架构,Amazon IAM实现了全球高可靠架构。现在,Amazon IAM每秒处理超过十亿次调用,是毫无疑问的高韧性的安全基石。
就弹性和效率而言,亚马逊云科技的Serverless不仅是产品,更是一种构建方式。具有代表性产品Firecracker、Amazon Lambda SnapStartCaspian。
Firecracker轻量级虚拟化技术,旨在快速启动和管理容器化工作负载,提升资源效率和安全性。Amazon Lambda SnapStart提升10倍冷启动速度。Caspian实现了类似“多库同宿主,允许共享预留”的逻辑。
多元技术融合驱动架构创新
生成式AI应用催生新的数据架构。生成式AI应用的云上的参考架构比过去三层web应用架构和微服务架构完全不同,核心原因是多了一个或几个响应没那么快的大模型。生成式AI应用的数据架构包括以下三个方面:
第一、在用户交互侧,不变的核心要求是响应时间要快
第二、在后端涉及数据流的更新,数据的ETL处理
第三、用户和后台中间的是大模型和用户聊天的各种上下文数据,或是来自企业业务的“特定领域”的知识数据
整体应用架构是多元技术均衡的结果,需要考虑以上诸多因素,包括成本、合规、扩展性、可持续发展、韧性、安全、性能、访问可达性、可用性等等。架构师的工作就是在不同的场景下对不同的需求,通过一系列的折中取舍持续优化。没有一个架构是十全十美的。架构本身也受技术发展不断影响,一个良好的架构应该能够随着多元因素的影响不断演进。
亚马逊云科技的优良架构体系(Well-Architected Framework)到现在已经超过十年了,从四个维度(卓越运营、安全、可靠、性能效率),演进到六个维度,新增了可持续发展和成本优化。随着客户对各种组件更深入地使用。架构师的决定和组件选择会直接影响到整块的应用负载在云上的成本。
生成式AI时代,技术架构演进应当注重什么,代闻强调主要是两个方面:什么是变的。所有技术工作者应当主动拥抱 生成式 AI,积极地升级技能、积极地去应用这项变革性的技术;什么是不变的。在技术架构的演进过程中锚定不变的原则,在技术变革的浪潮中找到前进的灯塔方向。
更多阅读: