2023年AWS全球reinvent大会内容解析
2023年AWS全球reinvent大会内容解析
目前云计算市场全球范围各地区的发展速度与节奏有着较大的差异,国内国外的发展路径也逐渐拉开差距。基于云所处的地区差异,算力作为资源的管理和应用之间的关系也有所不同,因此理解和优化这些因素才能缩小全球云计算市场的差距。
当我们把算力看做一种新型资源的时候,有三个持续影响行业链条发展的关键调节因素:
1. 资源的创造与拥有
2. 资源的再分配
3. 如何更好的使用资源二次创造
# 资源基础设施持续部署
在这三个核心点其中,要把资源的创造拥有和资源分配这件事放在一起看:
在全球基础设施覆盖32各地理区域上,AWS宣布计划在每个区域再增加3个以上的AZ,这意味着从资源基础设施的部署方面,虽然速度与前几年相比的确有所放缓,但AWS仍旧持续在追加部署更多的基础设施。此次基础设施的增加,主要目的还是在重点区域更多得减少物理隔离,降低延迟,同时降低突发事件的风险,改善容量和可用性。而在这一点上,与国内目前提出的边缘云、“一城一池”等理念基本吻合,此外在这点上国内的运营商云有在中国本土基于CDN和网络层面所具备的现成优势。
# 改进使用资源的模式
更多的发布优化改进围绕着如何更好的使用资源:
1. 存储层的优化
S3 intelligent-tiering的发布优化了存储的成本,相比于其它主要产品的迭代,存储作为底层核心,的确没有太多新的变革性突破,实际上降低存储成本也是产品演化的最优的方向。
另外比较有分量的在于s3 express one zone。在实际场景中工作负载带来的运行速度和分析工作的难度其实背后带来多个存储基础设施和API的复杂性。该产品的发布据说实现了云上最快的对象存储,同时可以就近选择AZ。但这点方面,国内的一些云厂商已经在实际的客户应用场景中具备了这样的能力,也有一些非云厂商的创新型公司针对高性能的对象存储发力。
2. 算力优化
从2018年开始AWS开始自研服务器处理芯片,如今已经进行到graviton4,从数据上看核心数量增加了50%,内存带宽增加了75%,比Graviton3快30%。而且在针对于数据库和Java的应用,工作负载性能更优。但其实对于数据库而言,arm架构的芯片与传统x86相比并没有体现出预期中更高的性价比,期待等到Graviton4能带来更符合预期的表现。
相比往届,今年还专门提到了节能减排,对能源的使用效率提升。放到国内比较来看,华为云的麒麟系列,阿里云倚天系列也在持续的投入研发,算力攻坚路仍未停歇,目前相较于大规模的部署基础设施而言,提升边际效益和算力质量也是未来算力资源本身价格溢价的部分。
3. AI的全新升级
在reinvent召开前夕,Openai发生的一系列变革也将AI这个话题再次点燃,全球的开发者也把更多的期待放在AWS的动作上。AWS在对AI这件事上似乎有着属于自己的定力,与原有的战略路径仍旧是高度一致,为全球的开发者提供最好用最便捷的工具,更好的帮助客户进行重新发明,并针对三层架构分别进行创新:
3.1 芯片层
在基础设施端最重要的也是芯片的问题,亚马逊先后搭载NVIDIA V100 GPU的P3、A100 Tensor Core GPU的P4实例,以及搭载NVIDIA H100 GPU的P5,这些可以在AWS EC2中,并且Elastic Fabric Adapter(EFA)与每秒3200Gbit的网络连接进行互连。从而使实现单个集群中扩展2万个GPU规模成为可能;而在此能力上,国内的云厂商则的确会收到很大的制约。按照AWS计划,还要将网络和虚拟化功能进一步与芯片集成,这样的动作将会极大的提升计算效率。黄仁勋也提到,AWS将成为第一个将最新的NVIDIA GH200 Grace-Hopper超级芯片搭载新型多节点NVLink引入云中的云服务商,这样的合作其实无疑再次把国内云厂商发展的窘迫点进一步放大,不难看出趋势中未来许多对于高性能计算有大需求的客户将必然面临仅有境外的云厂商可满足可选的境地。
但从目前国内发展而言,对高性能算力的需求的创新场景尚未打开,对于AI如何创新以及创造商业价值本身,国内市场的进展速度相比全球而言还是有一定程度的滞后,这些滞后的原因更多的是由于一些扎实的基础工具产品的积累缺失。AWS最具优势的一点在于可以把EC2算力块用于ML,部署在UltraClusters中,通过EFA网络互连,让单个集群中扩展到数百个GPU。以有把握地规划在ML工作负载部署,真正的按需付费。同时也进一步优化了Trainium和Inferentia。早先主要是Inferentia2,与Inferentia1相比,有四倍的吞吐量和十倍的低延迟。此次发布 Trainium2,比第一代芯片快四倍,预计基于Trainium2的首批实例将于明年上线,
3.2 中间层
接下来到中间层,要提到今年发布的关键产品bedrock,bedrock的出现主要是解决模型问题,这个就像是之前阿里提出的model as a service,并不期待一个全能的唯一的大模型,而认为未来有更加多的大小模型可以供用户多元选择,从我个人角度来看,多元化的模型将会在未来很长一段时间成为主流,因为现有的场景问题以及数据更多是块状和独立的,同时就目前而言,有没有最强大模型目前还未有定论,模型能力的迭代更新速度也非常快,更多的用户也希望更容易访问功能强大且多样的模型,并能够随时使用它们快速构建应用程序。
当然bedrock还有项很有趣的能力作为起点,且未来还有很大的空间的就是Agent,可以实现不仅仅是回答问题解读信息,还可以采取行动,实际完成任务,当然目前也要依靠强大的三方接口来实现。通过代理,GenAI应用程序可以在公司系统和数据源之间执行多步任务。目前来看,一个企业如果可以完整的部署生成式ai的能力,未来需要跟各个内外部机构进行互通互联,这对于整体系统的稳定性有很高的要求,也需要底层的平台有更加强的兼容性能力。
这里面需要重点提的一个AWS提出的理念,叫做负责任的AI,隐私和安全能力在这次大会上被着重强调,主要是不会用客户数据训练模型,这一点的指向性很明确,客户的数据主要通过私有副本放在容器里进行训练,这一点对于目前用户是否愿意应用公有云上的AI服务,有很强的吸引力。一方面出于数据资产的考虑,另一方面也能确保在一定场景下AI应用产出的稳定性。针对安全性,还专门发布了一个产品,Guardrails。来确保AI应用的安全。
这次最吸引人的一款应用级产品就是Amazon Q:
Amazon Q这项产品的发布可以说为今天许多不知道AI如何落地创造实际价值的困境带来了一个很好的切入点,用AI来实现组织管理,用一套强大的企业级Q,来帮助实现企业内部信息流转,组织协同等问题,再结合之前提到的Agent的功能,在工作场景中,可以实现人人助手,的确开创了一个新的企业级应用场景。洞察此项能力,目前在国内看比较有可能优先实现的是飞书。
4. 数据的工具储备
围绕AI作为大主题,那么数据的问题也会被重点提出核心两个产品:
Aurora limitless,属于NewSQL的分布式数据库,从架构上看比较类似于Google Spanner,这类数据库最大的难题在于如何实现高性能的分布式事务。兼容性方面此次也是率先推出了Postgre SQL而不是MySQL,原因是PostgreSQL Server代码更容易剥离路由,来实现最优的链路匹配。迄今AWS的关系型数据库实现了4次的技术突破,Aurora limitless的形态基本接近完全形态,那接下来要解决的核心问题都集中于如何处理工作流上。此数据库的突破至今未有在国内厂商的数据库产品里看到类似的架构,但预计明年各家的版本上都会参考并涌现出类似的能力。
另一个与数据相关的产品为zero-ETL。
ETL主要之前在BI的场景里是重要的一个数据处理的环节,怎么将数据统一扔到数仓里,在数据中挖掘价值意味着要在指数级增量的数据里选择适合的工具来处理使得处理数据的速度必须大于数据采集的速度 。zero-ETL完美的实现了跨湖仓的问题,来实现数据的迁移和转化。这个产品在去年的大会上就已经有发布,而去年也打通了Aurora和Redshift的集成,意味着用户进入Aurora后可以跳出S3的导入环节,直接实时创建机器学习的应用,这在数据处理环节节省了非常多的时间。通过zero-ETL可以集成事务处理、数据分析,实现数据在不同服务间的打通。今年AWS将更多的产品集成,如:Amazon Aurora PostgreSQL、Amazon DynamoDB、Amazon RDS for MySQL与Amazon Redshift数据库的集成,以及Amazon DynamoDB与Amazon OpenSearch服务的Zero-ETL集成,Amazon S3与Amazon OpenSearch服务的Zero-ETL集成。这无疑是实现all-in one的数据战略中跨出的一大步。