Aria Networks CEO:推理正在重塑AI网络格局

创始人
2026-05-15 01:41:34
0 次浏览

AI网络初创公司Aria Networks于今年4月高调亮相,同期完成1.25亿美元融资,并对AI基础设施的未来提出了一个直接的判断:下一场竞争的关键不仅仅在于更大的GPU集群,更在于能够充分挖掘这些集群潜力的网络系统。

Aria Networks由前Arista和Juniper高管联合创立,总部位于加利福尼亚州帕洛阿尔托。公司认为,分布式推理、推理模型以及智能体AI系统的快速兴起,正在从根本上改变AI集群的设计与运营方式。Aria的核心主张是:网络不应再被视为被动的基础管道,运营商越来越需要能够优化流量、减少拥塞、并提升模型算力利用率(MFU)的自适应网络系统。MFU是衡量GPU使用效率的关键指标,与Token效率及每Token成本经济性同样重要。

"推理是目前最复杂、最值得关注的应用场景,"公司创始人兼CEO Mansour Karam在公司发布后接受采访时表示。

Aria的平台整合了以太网交换硬件、基于SONiC的软件、微秒级分辨率采集的遥测数据,以及由AI驱动的运营工具,可对AI网络进行实时动态调优。Karam认为,随着运营商将关注重心从集群规模转向Token效率和每Token成本,能够适应工作负载动态变化的网络将成为不可或缺的基础设施。

以下为采访实录,经整理编辑。

DCK:您将Aria定位为"会思考的网络",这在生产环境的AI集群中具体意味着什么?

Karam:简单来说,我们提供了构建网络所需的全套组件,包括硬件。我们使用博通Tomahawk 5和Tomahawk 6芯片组打造交换机,这两款芯片是AI集群的主力。操作系统方面,我们采用已成为行业标准的SONiC交换机系统。

但真正差异化的部分在于集群软件。

我们将其称为"深度网络"(Deep Networking)。之所以这样命名,是因为它确实很"深"——多层架构,底层是覆盖整个网络基础设施的遥测数据基础,涵盖交换机、线缆、光模块、网卡、主机,一直延伸至NCCL和RCCL层。

我们采集遥测数据的分辨率远超传统系统。过去,遥测系统通常每30秒采样一次,即便优化后也不过每秒一次。而我们直接从ASIC层以微秒级分辨率采集数千个参数的数据。

采集完成后,我们处理这些信号、提取洞察并采取行动。信号的评估与响应方式取决于所在的栈层级:在ASIC层,必须极速响应;在集群层,则需要更多的推理判断。

在最顶层,我们使用大语言模型和智能体方案,让运营商能够与网络本身协同工作。

DCK:为什么选择用Token效率和MFU来定义公司定位,而不是延迟、吞吐量等传统网络指标?

Karam:在传统网络领域,网络厂商的客户是网络团队,他们关注的是网络指标——延迟、吞吐量、数据包性能。

但AI工厂的工程师思维方式不同。他们考虑的是如何整体优化AI工厂,关心的是Token效率、MFU和每Token成本。在他们眼中,网络往往只是基础管道。我们面临的挑战,是让他们认识到:网络实际上是系统中杠杆效应最高的组件,因为它连接着系统中的一切。

你可以优化大语言模型路由器、优化调度、优化GPU,但如果网络性能不佳,所有这些优化的效果都会打折扣。

网络是这台机器中杠杆效应最强的组件之一。

DCK:您花了很多篇幅谈推理。为何业界会低估推理网络的复杂性?

Karam:大约一年半前,很多能力很强的人都自信地认为,推理在网络层面微不足道,因为他们觉得训练才是网络负载的主要来源,推理只是把流量发给一个节点。

但今天来看,推理才是最复杂、最值得深挖的应用场景。

随着推理模型和强化学习的兴起,模型发展已经发生了根本性变化。分布式推理带来了完全不同的流量模式和运营需求。

现在每一个查询都会扇出大量智能体,每一个请求都要穿越多个网络,前端网络、后端网络、存储系统、KV缓存传输相互交织。

网络处于所有这些操作的必经路径上。

DCK:推理集群在扩展过程中,最先崩溃的是什么?

Karam:这取决于具体的推理应用场景。有些推理工作负载很简单——一个查询发到一个节点,处理完返回。而另一些则高度分布式、对内存需求极大。

在许多分布式推理场景中,我们发现需要非常大的内存。存储系统会成为瓶颈,计算节点上的内存会成为瓶颈。这催生了预填充阶段与解码阶段分离、KV缓存在两者之间迁移的新架构。

在整个周期中,不同部分在不同时刻都可能成为瓶颈。

而唯一贯穿始终的,是网络。网络在系统每一个组件中都扮演着关键角色。

DCK:您提到了推理集群中的"嘈杂邻居"问题,这在实际运营中是什么样的?

Karam:想象一下,数千名用户同时与一个分布式推理集群交互。某个用户提出了一个简单问题,另一个用户提出了一个非常复杂的问题,这个复杂问题会扇出大量智能体,产生海量流量。这种复杂工作负载会造成拥塞,进而影响所有其他用户。这就是"嘈杂邻居"问题。

网络必须平稳、高效地管理所有这些流量,确保一个突发性工作负载不会对其他用户造成灾难性的延迟。

你自己使用推理模型时可能也有过这种体验——系统在生成回复时突然卡顿。本质上是因为模型在所有底层操作完成之前无法生成下一个Token。

这从根本上是一个分布式系统问题,而网络正是解决这一问题的核心所在。

DCK:您认为网络直接影响AI经济性,运营商是如何看待这一点的?

Karam:在推理业务中,每Token成本至关重要。

所有AI工厂和新型云服务商都在相互竞争。如果我能以比对手更低的Token成本提供服务,那我就拥有了结构性优势。

这赋予了我在定价、商业模式和服务交付方式上的灵活性。

许多运营商现在围绕Token经济性进行优化,而不仅仅是一味追求集群规模的最大化。

DCK:您将深度网络类比于自动驾驶系统,为什么?

Karam:因为旧有的网络架构本质上是基于规则的。十年前,自动驾驶软件也是规则驱动的,只能在高度受限的环境中运作,因为工程师必须手动定义所有规则。

网络领域曾经也是如此。你可以围绕预设场景构建自动化,但一旦环境发生变化,系统就会捉襟见肘。

AI基础设施的演进速度太快,静态的规则驱动网络架构已经无法适应。模型在变,流量模式在变,集群架构在变,推理工作负载在变。你需要能够动态自适应的系统。

这正是我们认为概率系统和AI驱动优化变得至关重要的原因。

DCK:平台目前的自主化程度如何?

Karam:我们采取的是保守策略,因为网络的可靠性高于一切。

首要任务是保证网络不宕机。

有些操作我们已经实现了完全自动化,例如链路中断时流量会自动重路由。

但在更复杂的场景下——比如光模块正在降级——我们会让运营商深度参与。系统会提出应对策略、呈现遥测数据、与运营商协同合作,引导完成修复操作。

随着时间推移,系统的自主化程度会逐步提升。但我们认为,信任是逐渐建立的。运营商需要对系统的运作有充分的透明度,并对其决策建立信心。

DCK:运营商如何在系统实时做出网络决策的情况下维持信任?

Karam:运营商必须深度参与系统的运作。他们需要遥测数据的可见性,需要理解系统做出决策的原因,需要能够将自身专业知识和运营偏好注入平台。

随着时间推移,当他们亲眼见证系统有效运作,信任自然会建立起来。

这与自动驾驶软件的演进历程如出一辙。早期,人们充满怀疑;如今,在某些场景下,许多人对自动驾驶系统的信任程度甚至超过了人类司机。

我认为网络领域也会经历同样的演进。

DCK:业界是否已经确定以太网赢得了AI网络市场?

Karam:在横向扩展网络领域,以太网已经明显胜出。

InfiniBand在某些细分场景中依然存在,但就连英伟达现在也在大力推进以太网。

我在网络行业做了30年,我常说:永远不要跟以太网对赌。以太网无处不在,有着深厚的运营专业积累、庞大的生态系统和强大的规模经济效应。归根结底,网络技术之间的差异化很大程度上体现在延迟和吞吐量上,而以太网两者都能兼顾。

我的判断是:以太网将继续吞噬AI集群的网络市场,就像它在其他所有领域所做的那样。

DCK:三年后,AI基础设施运营商最关注的指标会是什么?

Karam:这个行业演进得太快,我对做具体预测持谨慎态度。就连一年前的许多判断,现在回头看都完全落空了。

但我非常确信的是:网络只会变得越来越重要。AI工厂正在成为日益复杂的系统,更加动态、更加分布式、更少专用化。网络是连接所有这些系统的结缔组织。

无论模型、工作负载还是架构如何演变,对网络的需求只会有增无减。

Q&A

Q1:Aria Networks的深度网络(Deep Networking)技术具体是如何工作的?

A:深度网络是Aria Networks的核心差异化技术,采用多层架构,从底层的遥测数据采集开始,覆盖交换机、线缆、光模块、网卡、主机直至NCCL/RCCL层。系统以微秒级分辨率从ASIC层采集数千个参数,远超传统系统的采样频率。采集后对信号进行处理和洞察提取,不同层级采取不同响应策略:ASIC层极速响应,集群层引入推理判断,顶层则结合大语言模型和智能体方案,让运营商与网络协同工作。

Q2:为什么分布式推理对网络的要求比训练更复杂?

A:早期业界普遍认为推理在网络层面很简单,因为训练才是网络负载的主要来源。但随着推理模型和强化学习的兴起,情况发生了根本变化。分布式推理中,每个查询会扇出大量智能体,每个请求需穿越前端网络、后端网络、存储系统和KV缓存传输等多个环节。"嘈杂邻居"问题也随之出现——一个复杂查询产生的突发流量可能导致整个集群的其他用户体验下降,这是典型的分布式系统挑战,网络成为解决问题的核心。

Q3:以太网能否真正满足大规模AI集群的网络需求?

A:Aria Networks CEO Mansour Karam对此持明确肯定态度。他表示在横向扩展网络领域,以太网已经明显胜出,就连英伟达也在大力推进以太网方案。以太网的优势在于无处不在的部署基础、深厚的运营专业积累、庞大的生态系统和强大的规模经济效应。在延迟和吞吐量这两个关键指标上,以太网同样具备竞争力。他的判断是,以太网将持续主导AI集群网络市场。

相关推荐