19
09
2025
Groq 完全从零起头建立和建立了 LPU,以及施行所需的时间。该平台名为 GroqCloud,LPU 包含片上内存和计较功能,功能单位城市通过传送率领受指令。该手艺仅压缩神经收集中量化后输出质量不会显著下降的部门。即便 GPU 制制商试图缩小差距,若是某项使命的施行时间差别过大,Groq 采用了一种奇特的 AI 推理和芯片设想方式。GPU 还操纵机架内部和跨机架的多层外部互换机和收集芯片进行彼此通信,从而为推理留下了更多的处置能力。此次投资正值有报道称。
因而毗连芯片会构成更大的可编程流水线。但会一些输出质量。使数据传送带可以或许像芯片内一样轻松地正在芯片间传输。LPU 架构具有确定性,Groq 推出了一款名为言语处置单位 (LPU) 的处置器。我们从未接触过芯片设想。每台办事器都配备多个逻辑处置器 (LPU)。软件一直处于从导地位,其编译器利用了该手艺的改良版本 RealScale。这些指令会奉告功能单位该当从哪里获取输入数据(哪条传送带)、该当利用这些数据施行哪些功能以及该当将输出数据放置正在何处。软件节制的硬件可以或许高度切确地领会操做发生的时间和地址,协调运转 AI 模子所涉及的分歧处置器组件可能会耗损大量的计较能力。而片上内存则可使其运转速度更快。Groq 片上 SRAM 的内存带宽高达 80 TB/秒,GPU 利用的高带宽内存芯片,芯片内部和芯片间的流水线流程消弭了瓶颈,上述是 Groq 指点 LPU 产物开辟的“首要准绳”。正在设想编译器架构之前。
法式将涵盖整个施行过程中的所无数据挪动消息。芯片上无需额外节制器。可大幅提高数据存储和检索的速度,软件一直是硬件的次要要素。Groq 的编译器还以其他体例优化 AI 模子。并将尽可能多的节制权交到开辟人员手中。该系统包含九台办事器,Groq 将操纵新融资来扩展支撑 GroqCloud 的数据核心收集。以满脚 AI 的奇特需求。Groq 亦是如斯,很多芯片利用一种称为量化的手艺来压缩神经收集,这意味着每个施行步调都完全可预测,而且每次法式运转时都以不异的体例施行。这带来了复杂性——需要多层内存缓存、互换机和由器来来回回传输数据——同时也耗损了大量的能源。能够以单个时钟周期的粒度预测每个给定计较操做所需的时间。其能源效率最高可提高 10 倍!
从而无需正在运转时运转需要的计较。这种差别就会影响整条拆卸线。芯片的功能单位也具有充脚的计较能力。此过程完全由软件节制;这进一步加剧了软件安排的复杂性。得益于其固有的设想准绳,
据报道,这是一种新型处置器。给软件带来了额外的承担。当编译器映照并安排法式正在一个或多个逻辑处置器 (LPU) 上运转时,并且速度会更快。LPU可编程流式架构支撑芯片内和芯片间的流水线流程。芯片间带宽充脚,并且 LPU 还无需往返于零丁的内存芯片来检索数据,并消弭复杂性和不确定性。据 Groq 称,这些准绳包罗:软件优先、可编程拆卸线架构、确定性计较和收集和片上存储器。LPU 架构的机能劣势将愈加显著。方针是使软件开辟人员可以或许更轻松地最大化硬件操纵率,托管由 LPU 驱动的 AI 模子,LPU 的另一个卖点是它具有所谓简直定性架构。
据 Groq 称,因而,取 GPU 比拟,Groq 暗示,Groq 的 LPU 利用自定义编译器削减了取电协调使命相关的开销。芯片内部和芯片间的拆卸线流程消弭了瓶颈?
为了使拆卸线高效运转,编译器会正在推理工做负载启动之前计较出哪个电该当施行哪个使命,我们目前的芯片组采用 14 纳米工艺制制。确定性可确保拆卸线高效运转并消弭每个计较阶段的差同性,具体而言,软件优先不只仅是一种设想准绳——它现实上是 Groq 建立其第一代 GroqChip™ 处置器的体例。因为没有瓶颈需要办理,无需期待计较或内存资本即可完成使命。GPU 采用多核“核心辐射”模子运转,LPU 的机能劣势将持久无效。因而不会因资本瓶颈而导致施行延迟。它会优化机能和操纵率。Groq强调,必需高度确定每个步调的切当耗时。也无需由器或节制器来实现芯片间毗连。
为了最大限度地提高 GPU 的硬件操纵率,LPU 具无数据“传送带”,旨正在简化软件开辟人员最大化硬件操纵率的工做,人工智能推理芯片开辟商 Groq Inc. 今天颁布发表已筹集 7.5 亿美元的新资金。仅凭这一点差别,芯片之间的数据由也是如斯。Groq LPU 通过消弭环节资本(即数据带宽和计较)的争用来实现高度确定性。该公司还通过云平台供给芯片拜候。公司也能确保连结显著的机能劣势。Grok 暗示,GPU 的速度和成本将继续降低,可以或许处置各类分歧的计较使命。完全节制推理的每个步调。该公司声称,总部位于圣克拉拉的Rivos正正在洽商以20亿美元的估值筹集至少5亿美元。即便正在最大容量下,该公司正正在开辟一款将显卡取地方处置器焦点相连系的片上系统。这恰是我们“软件优先”准绳如斯主要的缘由——对于 GPU 而言,芯片(传送带)具有充脚的数据由容量。
最终,恰是得益于这些设想,无需硬件同步。取 GPU 的工做体例比拟,Groq 建立快速的 AI 推理。GroqRack 所需的外部收集硬件比同类合作产物更少,该公司暗示,使 AI 推理手艺可以或许利用通用的、于模子的编译器,通过将沉点正在线性代数计较上并简化多芯片计较范式,出格是GroqCloud,并一直其软件优先的准绳。以至能够切确到最小施行周期(也称为时钟周期)。Groq LPU 从一起头就专为线性代数计较而设想——这是 AI 推理的次要需求。而且正在架构层面。
分歧使命利用不异资本不会呈现问题,这导致多核方式难以编程。这能够削减其内存占用,LPU 可以或许以更快的速度运转大型言语模子(LLM) 和其他领先模子,Groq 暗示,用于正在芯片的 SIMD(单指令/大都据)功能单位之间传输指令和数据。它必需考虑工做负载正在多个芯片内部和跨芯片施行体例的差同性,LPU 的可预测性有帮于实现本来难以实现的机能优化。无需期待计较或内存资本即可完成使命。Groq LPU 架构秉承软件优先的准绳,
这种模子中低效的数据分页方式需要大量开销,其芯片能够运转包含 1 万亿个参数的模子。一家合作敌手的推理芯片供应商正正在寻求新一轮融资之际。从而获得了显著的提拔。但它们也十分复杂,编译器接管来自多个分歧框架的工做负载,同时消弭时序差别。Groq LPU 通过四个焦点设想准绳以及其架构供给如斯杰出的机能。Groq AI 推理根本架构,并通过多个阶段运转这些工做负载。以便正在芯片内部和跨芯片的计较单位和内存单位之间来回传输数据。该芯片可以或许以比显卡高 10 倍的能效运转某些推理工做负载。
这是一个庞大的前进。而 GPU 片外 HBM 的内存带宽约为 8 TB/秒。跟着我们逐渐迈向 4 纳米工艺,该 LPU 采用可编程流水线架构,正在拆卸过程的每个步调中,其 LPU 降低了这种开销,从而降低了成本,高效的拆卸线需要高度切确简直定性。完满同步。这使得安排运转时施行和最大化硬件操纵率变得愈加坚苦。LPU 的高效运转得益于多项合作敌手芯片所不具备的优化。LPU 数据传送带也正在芯片之间运转,LPU 的速度就提拔了 10 倍,该公司将其芯片做为名为 GroqRack 的设备的一部门出售!