Implementation of transformer-based LLMs with large-scale optoelectronic neurons on a CMOS image sensor platform
Neil Na, Chih-Hao Cheng, Shou-Chen Hsu, Che-Fu Liang, Chung-Chih Lin, Nathaniel Y. Na, Andrew I. Shieh, Erik Chen, Haisheng Rong, Richard A. Soref
最近快速部署数据中心基础设施,用于在云中执行大型语言模型(LLM)和相关人工智能(AI)应用,预计在不久的将来将产生指数增长的能源消耗。 在本文中,我们提出并分析了变压器模型的实现,该模型是现代LLM的基石,通过市售互补的金属氧化物半导体(CMOS)图像传感器(CIS)平台构建了新颖的大型光电神经元(OEN)。 所有所需的光电器件和电子电路集成在芯片中,尺寸仅为约2厘米乘3厘米,GPT-3的175亿度参数仅使用40nm CMOS工艺节点以前所未有的12.6 POPS速度进行推断,同时具有74 TOPS / W的高功率效率和19 TOPS /mm2的高功率效率,均超过相关数字电子器件约两个数量级。 量化格式和硬件诱导错误的影响是数值调查的,并且显示影响最小。 我们的研究为模拟神经处理单元(NPU)提供了一条新的实用路径,以补充现有的数字处理单元。
The recent rapid deployment of datacenter infrastructures for performing large language models (LLMs) and related artificial intelligence (AI) applications in the clouds is predicted to incur an exponentially growing energy consumption in the near-term future. In this paper, we propose and analyze the implementation of the transformer model, which is the cornerstone of the modern LLMs, with novel large-scale optoelectronic neurons (OENs) constructed over the commercially available complementary ...