突破800G! – 第一部分
作者: Barry McGinley 2024年3月7日自ChatGPT于2022年底问世以来,世界各地每个社交场所的神学家都在广泛讨论人工智能和机器学习的优势。无论你认为它是上帝的礼物,还是撒旦的后代,它都会存在并将越来越多地影响我们的生活。这篇博客不是关于人工智能或机器学习的优缺点,而是这些闪亮平台背后的网络技术。这些平台减少了人为错误,全天候工作,协助医疗诊断,并为我们编写了像下面这张馅饼一样的美味食谱!(这是在输入了30,000份食谱并要求它创建自己的食谱之后)“甜菜金枪鱼馅饼。“想成功吗?你需要以下材料:“1份煮熟的苹果蛋黄酱”“5杯块状物;切成薄片”。“将一个半打重水倒入高锅中,放置并排好,然后倒出水,切成1/4英寸大小留在锅中”。玩笑归玩笑,这是一项严肃的技术,虽然还处于起步阶段,但它已经开始让世界变得更美好。在数据中心的幕后,我们有GPU或图形处理单元。英伟达拥有这一市场约90%的份额,AMD获得了这一市场份额。GPU是人工智能工作的内在特征,在简单的层面上,它将使用并行处理同时处理多个任务。这种处理能力非常重要,但其背后的网络也非常重要。让这个人工智能发电站结出硕果的硬件和软件秘诀是什么? 硬件OCP硬件现在可用的各种开放网络硬件证明了像开放计算项目(超链接)这样的组织,我会小声说这个,Meta。当时的脸书在2012年启动了OCP,目标是将硬件和软件分开。这将使硬件原始设备制造商以更快的速度前进,而软件公司则专注于他们擅长的软件领域。当时,硬件供应商都在使用博通的三叉戟和战斧系列ASICs,因此开始了某种标准化。对于Meta和谷歌等超大规模公司来说,由于竞争加剧,它们可以以更低的价格从多家供应商那里购买硬件。在硬件供应商方面,我们有Asterfusion、Celestica、Delta、纬创、广达、Micas、锐捷以及Edgecore Networks和Ufispace这两家市场领导者。 EDGECORE NETWORKSEdgecore由Accton Group于2010年创立,旨在引领开放网络革命。Accton是台湾的一家OEM/ODM公司,为几乎所有人生产交换机和路由器。自开放网络诞生以来,它们一直是开放网络的黄金标准,自2012年以来,它们已将其交换机设计附属产品添加回OCP。这反过来允许其他硬件制造商在没有大量R&D开销的情况下构建交换机。你可能会说,为团队牺牲一下吧!让我们来看看Edgecore Networks的新800G产品,该产品专为AI/ML使用情形而设计,作为主干交换机,允许移动到400G叶交换机。AIS800-64DAIS800-64D - AS9817-64D AIS800-64D / AS9817-64D 具有64个QSFP-DD800交换机端口,带有Broadcom的Tomahawk 5 ASIC。一种用于AI/ML集群的高性能、低延迟交换机,可用作主干交换机。支持在数据中心内迁移到400G叶子连接。因此,我们有64个QSFP-DD800端口。这些可用于每个端口1x 800G 或通过分线、2x 400G, 4x 200G, 或 8x 100G ,最多320个端口。那会有点乱,对吧?我们的前面板上有1PPS、10 MHz和ToD连接器,支持同步和PTP。它采用2 RU外形规格,具有2个热插拔3000瓦PSU和4个热插拔风扇模块。在芯片方面,我们有一款支持Tomahawk 5,51.2T的ASIC,具有大量新功能,当您接触时,我会让您感到厌烦… 在软件方面,与所有开放式网络交换机一样,该交换机预装了开放式网络安装环境(ONIE)。ONIE是一个引导程序,允许我们安装NOS。唯一可用的NOS将是SONiC,可能还有IP Infusion的OcNOS,但我会在软件部分详细解释这一点。AIS800-64O带OSFP800端口的AS9817AIS800-64O /…