本日
本周
本月
训练下一代万亿级参数大模型的高效芯片诞生了!
最近,来自清华团队的研究人员开发了一种革命性的新型AI「光芯片」——「太极」(Taichi)。
不言而喻,「太极」最大的亮点是使用光,而不是电来处理数据。
与传统堆叠PIC芯片方法不同,清华团队首创了分布式广度智能光计算架构,使得「太极」成为全球首款大规模干涉衍射异构集成芯片。
「太极」具备了亿级神经元的芯片计算能力,可以显著提高处理速度和能效。
它可以实现160 TOPS/W通用智能计算。
最新研究已于4月11日发表在Science期刊上。
论文地址:https://www.science.org/doi/10.1126/science.adl1203
更令人震惊的是,「太极」能效是英伟达H100的1000倍数。
研究人员表示,「太极」为大规模的光子计算和高级任务铺平了道路,进一步发掘了光子学在现代AGI中的灵活性和潜力。
ChatGPT耗电大有解了
当前,越来越多迹象表明,LLM不会是通往AGI的最终路径。
那是因为,基于Transformer架构的大模型,通过token预测完成推理,需要消耗大量的算力。
此前ChatGPT日耗电50万度,曾被网友们吵上热搜。
若是能够发明一种,节省大量能耗的芯片,LLM的性能或在未来实现更大的飞升。
而「太极」可能会使通用人工智能(AGI)成为现实。研究人员表示,
我们预计,「太极」将加速开发更强大的光学解决方案,为基础模型和AGI新时代提供关键支持。
在将计算能力提升到AGI所需的水平方面,「太极」的模块化设计可能是一个关键优势。
清华团队设计了一个拥有1396万个人工神经元的分布式「太极」网络,超越了其他光芯片设计(147万个神经元)。
因此,「太极」实现了160.82 TOPS/W的能效。
与2022年一个团队实现的2.9 TOPS/W的能效相比,简直相形见绌。
能效的大幅提升,对于AI计算的可持续发展,至关重要。
对此,Science表示:
通用人工智能(AGI)的飞速发展带来了对下一代计算技术在性能和能效上的更高要求,而光子计算被认为有望达到这些目标。
但目前的光子集成电路,尤其是光学神经网络(ONN),在规模和计算能力上都非常有限,难以满足现代AGI任务的需求。
来自清华的团队探索了一种新型的分布式衍射-干涉混合光子计算架构,成功ONN的规模扩展到了百万神经元级。他们在芯片上成功实现了一个拥有1396万神经元的ONN,能够处理复杂的千类别级分类和AI生成内容的任务。
可以说,这项研究是光子计算实际应用的一个重要进展,为各种AI应用提供了支持。
创新性分布式计算架构
根据论文介绍,清华团队为采用分布式计算的「太极」,构建了一个深度较浅但宽度较广的网络结构。
这种可重配置的衍射干涉混合光芯片,是实现多种先进机器智能任务的关键组件,涵盖了1000类别分类和内容生成等应用。
与传统的深度计算层层堆叠的方法不同,「太极」将计算资源分配到多个独立的集群中,为子任务单独组织集群,最后为复杂的高级任务合成这些子任务。
具体地说,光学衍射层的完全连通特性,可以提供比传统DNN中的卷积层更大的变形能力。
这表明光网络具有用比电子系统更少的层来实现相同变换的潜力。
「太极」 的分布式架构深度浅而宽,旨在以可持续和高效的方式扩展计算能力。
在CIFAR-10数据集中,具有四个分布式层的「太极」 实现了与16层电子VGG-16网络相当的精度。
图1(B)中展示了「太极」芯片,包括用于大规模输入和输出数据的双衍射单元,以及用于可重构特征嵌入和硬件多路复用的MZI阵列的可调矩阵乘法。
这些组件是「太极」(TEUs)的基本芯片上的执行单元,利用了光学衍射和干涉的强大变形能力。
图 1. 「太极」:一个配备分布式计算架构的大规模光芯片,专为百万神经元级芯片网络模型设计
接下来,再细看「太极」的设计结构。
下图A中展示了「太极」整体布局,分为三个部分:
1. 输入衍射编码器(DE)(蓝色标注)采用8×8光栅耦合器阵列进行二维信息接收。总共对64个通道的输入进行了编码,并将有效信息通过衍射调制权重压缩为8个通道。
2. 干涉特征嵌入(IE)(紫色标注)采用Mach-Zehnder调制器(MZM)阵列进行任意矩阵乘法。
3. 相对于衍射解码器,输出绕射解码器(DD)(蓝色标注)是反向的。
图2(B)便是由20个DES、4个IE,以及4个DES被部署为新的TEU,来处理32×32的patch。
每个DE处理一个8×8的分布式patch,原始1024个通道的输入数据被编码为32个通道。
接下来的4个IE计算特征嵌入,最后4个DD将嵌入解码为256个通道输出。
通过调整分布式DE、IE和DD模块的数量,形成不同的特征嵌入通道数量和输出通道数量,可重构和可扩展的DE-IE-DD框架可以适应不同的patch大小和任务难度。
图2(C)展示了具有TEU群集的分布式架构。图2D中,研究者绘制了不同不确定性水平下的层数D和稳健性Lip(F)之间的关系。
(A)「太极」的执行单元(TEUs)。
(B)多个TEUs根据计算分配协议协同工作,组成TEU集群。这些TEU集群采用滑动窗口机制处理较大的输入数据。
(C)复杂任务被分解成多个简单任务,每个简单任务由一系列TEU集群(标记为「路径」)负责处理。
图像分类,90%+准确率
(A)CIFAR-10的多路径二进制标签,其中数据集中的每个对象在每条路径上被标记为「0」或「1」。单路径(传统方法)的分类准确率有限,但多路径(提议的方法)的分类准确率随参数数量增加而提高。
(B)对比传统芯片上的光学、自由空间光学、基于电子的最先进(SOTA)架构以及「太极」在不同路径数量下的CIFAR-10分类准确率。
(C)层数对10类别分类准确率的影响,展示了实验数据(条形图)和理论预测(曲线)。
(D)在CIFAR-10数据集中,一个样本通过「太极」的路径输出显示,最少的路径数量可能导致错误判断,但增加路径数量可以纠正错误。
(E)使用七条路径的CIFAR-10混淆矩阵。
(F)在mini-ImageNet数据集上进行100类别分类任务的模拟(蓝色)与实验(紫色)结果。
音乐家艺术家,全能模仿
(A)配备TEU集群的音乐生成网络。
(B)展示了巴赫风格原始音乐与生成的四声部音高模式的对比。
(C)展示了生成的巴赫音乐的音符分布情况。
(E)配备TEU集群的图像生成网络。
成果讨论
来源:新智元
编辑:Luke
(声明:请读者严格遵守所在地法律法规,本文不代表任何投资建议)
元宇宙头条现已开放专栏入驻,详情请见入驻指南: #
免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表元宇宙头条观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。
下载APP
微信公众号