平衡半导体 GenAI下沉到边缘侧,内存和性能如何平衡?

小编 2024-10-09 设计资源 23 0

GenAI下沉到边缘侧,内存和性能如何平衡?

2022年底ChatGPT的横空出世,让所有人惊叹于自然语言处理聊天机器人(NLP)的能力,它们能够将简短的文本提示神奇地转换为连贯的类人文本,甚至包括论文、语言翻译和代码示例。科技公司也被 ChatGPT 的潜力深深吸引,纷纷开始探索如何将这项创新技术应用于自身产品和客户体验。

然而,与以往的AI模型相比,GenAI由于其更高的计算复杂度和功耗需求,带来了显著的“成本”提升。那么,GenAI 算法是否适用于对功耗、性能和成本都至关重要的边缘设备应用呢?答案是肯定的,但是不无挑战。

GenAI,下沉到边缘端潜力巨大

GenAI,即生成式人工智能(Generative AI),是一类可以生成各种内容(包括类人文本和图像)的机器学习算法。早期的机器学习算法主要专注于识别图像、语音或文本中的规律,并基于数据进行预测。而 GenAI 算法则更进一步,它们能够感知和学习规律,并通过模拟原始数据集按需生成新的规律。举个例子,早期算法可以预测某一图像中有猫的概率,而GenAI则可以生成猫的图像或详细描述猫的特点。

ChatGPT可能是当下最著名的GenAI算法,但并非唯一,目前已有众多GenAI算法可供使用,并且新算法也在不断涌现。GenAI算法主要分为两大类:文本到文本生成器(又名聊天机器人,如 ChatGPT、GPT-4 和 Llama2)和文本到图像生成模型(如 DALLE-2、Stable Diffusion 和 Midjourney)。图 1展示了这两种模型的示例。由于两种模型的输出类型不同(一种基于文本,另一种基于图像),因此它们对边缘设备资源的需求也存在差异。

图 1:文本到图像生成器 (DALLE-2) 和文本到文本生成器 (ChatGPT) 的 GenAI 输出示例

传统的GenAI应用场景往往需要连接互联网,并访问大型服务器群以进行复杂计算。然而,对于边缘设备应用而言,这并非可行方案。边缘设备需要将数据集和神经处理引擎部署在本地,以满足低延迟、高隐私、安全性和有限网络连接等关键需求。

将GenAI部署于边缘设备,蕴藏着巨大潜力,能够为汽车、相机、智能手机、智能手表、虚拟现实/增强现实 (VR/AR) 和物联网 (IoT) 等领域带来全新机遇和变革。

例如,将GenAI部署到汽车中,由于车辆并不总是受到无线信号覆盖,因此 GenAI 需要利用边缘可用的资源运行。GenAI的应用包括:

改善道路救援,并将操作手册转换为AI增强的交互式指南。虚拟语音助手,基于GenAI的语音助手能够理解自然语言指令,帮助驾驶员完成导航、播放音乐、发送信息等操作,同时确保行车安全。个性化座舱:根据驾驶员的喜好和需求,定制车内氛围照明、音乐播放等体验。

其他边缘应用也可能受益于GenAI。通过本地生成图像并减少对云处理的依赖,可以优化AR 边缘设备。另外,语音助手和交互式问答系统也可以应用于很多边缘设备上。

但是GenAI在边缘设备上的应用尚处于起步阶段,要实现大规模部署,

需要突破计算复杂性和模型大小的瓶颈,并解决边缘设备的功耗、面积和性能限制问题。

挑战来了,如何将GenAI部署到边缘侧?

想要理解 GenAI并且将之部署到边缘侧,我们首先需要了解它的架构和运作方式。

GenAI 快速发展的核心是transformers,一种新型的神经网络架构, 是Google Brain团队在2017年的论文中提出的。与传统的递归神经网络 (RNN) 和用于图像、视频或其他二维或三维数据的卷积神经网络 (CNN)相比,transformers在处理自然语言、图像和视频等数据方面展现出了更强大的优势。

Transformers之所以如此出色,关键在于其独特的注意力机制 。与传统的 AI 模型不同,transformers更加关注输入数据中的关键部分,例如文本中的特定字词或图像中的特定像素。这种能力使transformers能够更准确地理解上下文,从而生成更加逼真和准确的内容。与 RNN 相比, transformers 能够更好地学习文本字符串中单词之间的关系,与 CNN 相比,可以更好地学习和表达图像中的复杂关系。

得益于海量数据的预训练,GenAI 模型展现出强大的能力,使他们能够更好地识别和解读人类语言或其他类型的复杂数据。数据集越大,模型就越能更好地处理人类语言。

与 CNN 或视觉转换器机器学习模型相比,GenAI 算法的参数(神经网络中用于识别规律和创建新规律的预训练权重或系数)要大几个数量级。如图2所示,用于基准测试的常见 CNN 算法 ResNet50 拥有2500万个参数,而一些 GenAI 模型(如BERT 和 Vision Transformer (ViT) )的参数则高达数亿。

然而也有例外,Mobile ViT 是一种经过优化的 GenAI 模型,其参数数量可以和CNN模型 MobileNet 相媲美,这意味着它可以用于计算资源有限的边缘设备上。

图 2:各种机器学习算法的参数大小

由此可见,GenAI 模型功能虽强大,但也需要庞大的参数数量来支持。鉴于边缘设备的内存有限,嵌入式神经处理单元 (NPU) 怎样才能完成处理如此巨大参数数量的工作?

答案是它们无法完成。

为了解决这一难题,研究人员正在积极探索参数压缩技术,以减少 GenAI 模型的参数数量。例如,Llama-2 提供了700亿个参数的模型版本,甚至更小的 70 亿个参数模型。虽然具有 70 亿个参数的 Llama-2 仍然很大,但已经处于嵌入式 NPU能实现的范围内了。MLCommons 已将 GPT-J(一个具有 60 亿个参数的 GenAI 模型)添加到其 MLPerf 边缘 AI 基准列表中。

选择最快的内存接口很重要

GenAI 算法的强大功能背后,隐藏着对计算资源和内存带宽的巨大需求。如何平衡这两者之间的关系,是决定 GenAI 架构的关键因素。

例如,文生图往往需要更多的计算能力和更高的带宽支持,因为处理二维图像需要大量计算,但参数量相差不大(通常在亿范围内)。大型语言模型的情况较为不平衡,它们需要较少的计算资源,但需要大量的数据传输。即使是较小规模的语言模型(例如6-7亿参数的模型),也受到内存限制的影响。

解决这些问题的有效方法是选择更快的内存接口。 从图3可以看出,边缘设备通常使用的LPDDR5内存接口带宽为51 Gbps,而HBM2E可以支持高达461 Gbps的带宽。使用 LPDDR 内存接口会自动限制最大数据带宽,这意味着,与服务器应用中使用的 NPU 或 GPU 相比,边缘应用给予 GenAI 算法的带宽将自动减少。我们可以通过增加片上 L2 内存的数量来解决这个问题。

图 3:LPDDR和HBM之间的带宽和功率差异

在ARC® NPX6 NPU IP上实现 GenAI

要针对GenAI等基于Transformer的模型实现高效的NPU设计,就需要复杂的多级内存管理。

新思科技的ARC® NPX6处理器具有灵活的内存架构,可支持可扩展的L2内存,最高可支持64MB的片上SRAM。此外,每个NPX6内核都配备了独立的DMA,专门用于执行获取特征图和系数以及编写新特征图的任务。这种任务区分可以实现高效的流水线数据流,从而最大限度地减少瓶颈并最大化处理吞吐量。该系列在硬件和软件中还具有一系列带宽节省技术,以最大化利用带宽。

Synopsys ARC® NPX6 NPU IP 系列基于第六代神经网络架构,旨在支持包括 CNN 和转换器在内的一系列机器学习模型。NPX6 系列可通过可配置数量的内核进行扩展,每个内核都有自己的独立矩阵乘法引擎、通用张量加速器 (GTA) 和专用直接内存访问 (DMA) 单元,用于简化数据处理。NPX6 可以使用相同的开发工具,将需要性能低于1 TOPS的应用扩展为需要数千TOPS的应用,从而最大限度地提高软件的重复使用。

矩阵乘法引擎、GTA 和 DMA 全都经过优化以支持转换器,使 ARC® NPX6 能够支持 GenAI 算法。每个内核的 GTA 都经过明确设计和优化,可高效执行非线性函数,例如 ReLU、GELU、Sigmoid。这些功能使用灵活的查找表方法加以实现,可预测未来的非线性函数。GTA 还支持其他关键操作,包括转换器所需的 SoftMax 和 L2 标准化。除此之外,每个内核内的矩阵乘法引擎每个循环可以执行 4,096 次乘法。由于 GenAI 基于转换器,因此在 NPX6 处理器上运行 GenAI 没有计算限制。

在嵌入式 GenAI 应用中,ARC NPX6 系列将仅受系统中可用LPDDR的限制。NPX6能够成功运行Stable Diffusion(文本到图像)和 Llama-2 7B(文本到文本)GenAI 算法,而其效率取决于系统带宽和片上SRAM的使用情况。虽然更大的GenAI模型也可以在 NPX6 上运行,但它们会比在服务器上实现的更慢(按照每秒令牌数测量)。

结论

随着行业各界人士不断探索新的算法和优化技术,以及IP厂商的助推,未来,GenAI 将彻底改变我们与设备交互的方式,为我们带来更加智能化、个性化和美好的未来。

多空弱平衡 半导体景气度持续中

早盘市场简况:上证指数涨10点,报收2882点,成交金额854.4亿;创业板指涨11.56点,报收1676点。两市涨多跌少,涨停家数25只,大跌9%以上的品种有5只。

今日市场高开高走,主要受到消息面利好:1、PMI超预期回到荣枯线之上;2、券商的重磅利好。

大盘指数刚破年线1天,就回收到了年线之上,早盘反抽的过程显得非常弱,反抽触碰5日均线附近就开始回落,可见市场目前资金很谨慎,不见兔子不撒鹰。

短期市场还将在年线上下来回拉锯,多空弱平衡状态,谁都不敢随意放足马力做。

多方担忧点:年末资金紧张、IPO密集发行期、市场人气不足等;

空方担忧点:市场整体估值不贵;技术面已经连调较长时间,年线多头破年线随时都容易被多头暴打反攻;今年年报业绩预期要比去年好等。

市场观点:半仓以上持股不动,年线下方尤其2850点以下敢于分批加仓。

盘面特征:

半导体景气度持续中,二级市场表现也非常强势,杨杰科技、三环集团等多只个股涨停,捷捷微电、三安光电、全志科技、欧菲光等缓慢走强。这个板块已经缓慢走强一个月了,部分品种涨幅较大,绝大部分品种涨幅并不是很大。这个方向应该说是近段时间少有这么长时间一直保持热点的主线之一了。还可持续关注这个板块,半导体下半年才开始有所扭转之前的低迷状态,2020年才真正进入高景气度,这就说明真正的上涨时候应该在来年,不要用震荡行情来看到这个板块的短期的涨幅。

券商板块重磅利好,只让券商高开了一下,而后就震荡走低,瑞达期货涨6%、中国银河涨4.67%。其实这个也是可以想象到了,因为市场刚刚破年线、市场成交量创了新低,想立马回阳比较难,怎么也需要一段时间才能够逐步反应到券商板块。

对于券商利好,大家容易忽视的板块个股如大智慧、同花顺等今早表现明显强于券商股。金融科技股中的顶点软件涨3.6%、金证股份涨3.19%也是强于券商板块。这些方向持续关注,市场若持续温和放量上行,这些板块个股将会有不错的表现。

早盘还有一些板块比如猪肉概念、水泥、5G产业以及部分软件股都走得不错,反观今早市场热点虽然多,但持续性不强,量能不足,使得市场感觉不到回暖气息。

对于这样的盘面,大家少看热点,多看个股,结构性机会持续中。科技细分龙头个股依旧强者恒强,不要买垃圾股,以免年报再暴雷!

相关问答

半导体稳定扩散和平衡态有什么区别稳定不变的光照下,半导体...

[最佳回答]这时候的光子能量大于半导体的禁带宽度,所以价带电子在吸收能量后可以跃迁到导带而成为非平衡载流子.这部分的载流子是比平衡时多出来的,是源源不断...

半导体系统处于稳态和热平衡态的区别是?如何判据?

简单的说,就是半导体载流子密度会随温度变化而变化,导致电学性能变化。少子浓度受温度影响变化倍数更多,例如本身100电子1空穴,增加了1电子1空穴,电子浓度几...

半导体导电条件?

1热平衡半导体:导体内部在一般情况下都是电中性的。例如金属,其中存在许多导电的电子,它们都是由组成金属的各个原子所提供的(原子本身都变成了带正电荷的...

半导体工作原理-Og52jvONgi的回答-懂得

.1半导体物理基础本章从半导体器件的工作机理出发,简单介绍半导体物理基础知识,包括本征半导体,杂质半导体,PN结;分别讨论晶体二极管的特性和典型应...

费米能级在什么位置?

对于金属,绝对零度下,电子占据的最高能级就是费米能级。费米能级的物理意义是,该能级上的一个状态被电子占据的几率是1/2。费米能级在半导体物理中是个很重要...

为什么霍尔效应在半导体中特别显著?

霍尔效应是载流子在磁场作用(洛伦兹力作用)下而偏离电场方向所产生的一种现象。霍尔电压与电场和磁场成正比,其比例系数称为霍尔系数;霍尔系数与载流子浓度成...

费米分布函数的表达式和物理意义?

Fermi-Dirac分布函数或者Boltzmann分布函数是热平衡状态下的一种统计分布函数。因此Fermi-Dirac分布函数或者Boltzmann分布函数及其相应的费米能级等概念,也只...

半导体中准静态是什么意思?

准静态过程是指系统从一个平衡状态向另一个平衡状态变化时经历的全部状态的总合。准静态过程是指系统从一个平衡状态向另一个平衡状态变化时经历的全部状态的...

半导体晶体类型?

半导体晶体可分为单晶和多晶,若在整块材料中,原子都是规则的、周期性的重复排列的,一种结构贯穿整体,这样的晶体称为单晶,如石英单晶,硅单晶,岩盐单晶等.多晶...

什么是半导体,p型半导体,n型半导体?,半导体花篮制造工艺...

我们和江阴市扬润精密模具有限公司以前合作过,后来找了其他家做,现在还是觉得他们做的比较好,去年又重新合作了这是由于半导体和掺入的微量元素都...