当前位置:首页 > 厂商动态 > 亚星娱乐登录
[导读]e世博唯一官方网站(DL)的创新,特别是e世博唯一官方网站(LLM)的快速发展,已经席卷了整个行业。e世博唯一官方网站模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如e世博唯一官方网站或医疗保健和生命科学的高级研究。亚星娱乐登录一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速e世博唯一官方网站工作负载的大规模应用。

e世博唯一官方网站(DL)的创新,特别是e世博唯一官方网站(LLM)的快速发展,已经席卷了整个行业。e世博唯一官方网站模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如e世博唯一官方网站或医疗保健和生命科学的高级研究。亚星娱乐登录一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速e世博唯一官方网站工作负载的大规模应用。

亚星娱乐登录在2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片Amazon Inferentia2为基础,发布了Amazon EC2 Inf2系列实例的预览版。Amazon EC2 Inf2类型实例专门针对全球大规模运行高性能e世博唯一官方网站推理应用程序,为部署在EC2上的e世博唯一官方网站应用提供最佳性价比,其中包含 GPT-J或开放式预训练Transformer(OPT)语言模型。

现在,亚星娱乐登录宣布Amazon EC2 Inf2实例正式可用!

Inf2实例是Amazon EC2上首个推理优化的实例,支持可扩展的分布式推理,可实现多个inferentia2芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与Amazon EC2 Inf1实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。

新Inf2实例的亮点

Inf2实例目前有四种可用实例类型,最高扩展至12个Amazon Inferentia2芯片和192个vCPU配置。在BF16或FP16数据类型下,它们能够提供2.3 petaFLOPS的综合计算能力,并具有芯片间超高速NeuronLink互连的功能。NeuronLink可在多个Inferentia2芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。

每个Inferentia2芯片内有32 GB的高带宽内存(HBM),最高配置的 Inf2 实例可提供高达384 GB的共享加速器内存,总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。

基于专门为e世博唯一官方网站工作负载而构建的 Amazon Inferentia2芯片的 Amazon EC2 Inf2,相比同类实例,单位功率性能高出了50%。

Amazon Inferentia2的创新之处

与亚马逊自研机器学习训练芯片 Amazon Trainium类似,每个Amazon Inferentia2芯片都配有两个经过优化的NeuronCore-v2引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。

每个NeuronCore-v2都有专为e世博唯一官方网站算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。

以下是Amazon Inferentia2芯片和服务器硬件其他创新总结:

数据类型——Amazon Inferentia2 支持多种数据类型,包括 FP32、TF32、BF16、FP16 和 UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 FP8(cFP8) 数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和 I/O 要求。

动态执行和动态输入形状——Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器 (DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。

自定义运算符——Amazon Inferentia2支持用C++语言编写的自定义运算符。Neuron自定义C++运算符使用户能够编写在NeuronCore上天然运行的C++自定义运算符。用户可以使用标准的 PyTorch自定义运算符编程接口将 CPU 自定义运算符迁移到 Neuron 并实现新的实验运算符,所有这些都无需对 NeuronCore 硬件有任何深入了解。

NeuronLink v2——Inf2实例是Amazon EC2类型中首个将 NeuronLink V2 用于推理优化的实例,NeuronLink v2 为Inferentia2芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2使用all-reduce等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。

新Inf2实例现已可用

用户可在亚星娱乐登录美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动Inf2实例,以按需、预留和竞价实例或Savings Plan方式调用。用户仅需为其实际使用的服务付费。如需了解更多相关信息,请访问Amazon EC2定价网站。

Inf2实例可使用亚星娱乐登录e世博唯一官方网站镜像进行部署,并可通过Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon ParallelCluster等托管服务调用。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

1月15日,根据最新的IDC数据,OPPO以8.8%的市场占有率和1.03亿的出货量,成功位居2023年全球智能手机市场出货量第四位。在市场大盘仍整体下降的2023年, OPPO凭借一系列卓越产品,全球用户数量突破了6亿...

关键字: Find X6 Find N3 e世博唯一官方网站

一直以来,人脸识别都是大家的关注焦点之一。因此针对大家的兴趣点所在,小编将为大家带来人脸识别的相关介绍,详细内容请看下文。

关键字: 人脸识别 e世博唯一官方网站

封神旗舰Find X7系列于1月12日10点全面开售,全渠道开售5分钟销量是上一代的402%,成绩再创新高。Find X7标准版包括海阔天空、大漠银月、包括烟云紫、星空黑四款全新配色,3,999元起售。Find X7 U...

关键字: Find X7 e世博唯一官方网站 AI

2022年11月30日,ChatGPT正式上线。以其为代表的e世博唯一官方网站颠覆了人们对于生产力的认知,而此后整个2023年,科技巨头纷纷强势入局,各种e世博唯一官方网站也蜂拥而至。经过了一年的沉淀,从底层大模型、到基础设施、再到消费...

关键字: e世博唯一官方网站 机器人 LLM 英伟达

全新 GeForce RTX SUPER GPU、各大OEM的AI笔记本电脑为领先的AI平台带来 RTX 加速

关键字: e世博唯一官方网站 GPU LLM

CES 2024 NVIDIA 特别演讲亮点 - 全新 GeForce RTX 40 SUPER GPU,RTX AI 笔记本电脑,为数百万用户带来e世博唯一官方网站 工具

关键字: e世博唯一官方网站 机器人 GPU

近日,商汤科技智能产业研究院与中国信息通信研究院云计算与大数据研究所,中国智能算力产业联盟,人工智能算力产业生态联盟,联合发布《新一代人工智能基础设施白皮书》(以下简称《白皮书》)。《白皮书》不仅明确了“新一代AI基础设...

关键字: 人工智能 大模型 e世博唯一官方网站

前言:临近2023年年关,回顾整个23年的显卡市场,“e世博唯一官方网站”无遗是最火爆的关键词,这一年的各类应用开始全面落地,普通用户也能通过高算力的显卡进行本地AI创作,大大降低了普通用户的创作门槛,提升了创作效率,并且衍生了...

关键字: 英特尔 锐炫 e世博唯一官方网站

在历史的长河中,人类一直在不断开发各种工具和系统,增强自身的能力。无论是印刷术还是流水线,这些创新拓宽了我们的能力,造就新的工作和职位,我们也在不断调整自己来适应这些变革。这种变革的速度在过去一年急剧加快。云技术、机器学...

关键字: 云技术 机器学习 e世博唯一官方网站

北京——2023年12月18日 亚星娱乐登录在2023 re:Invent全球大会上,宣布Amazon Connect新增e世博唯一官方网站功能。作为亚星娱乐登录的云呼叫中心,Amazon Connect能够帮助各种规模的企业以...

关键字: e世博唯一官方网站 e世博唯一官方网站 机器学习
关闭