异构机器学习加速器:高效能AI-IoT系统级芯片

需积分: 5 0 下载量 141 浏览量 更新于2024-06-26 收藏 43.92MB PDF 举报
"Session_22_Heterogeneous_ML_Accelerator.pdf" 本次会议的主题是“异构机器学习加速器”,重点关注在机器学习领域中如何通过优化硬件设计来提升性能和能效。会议由机器学习子委员会组织,讨论了两篇重要的论文。 首先,论文22.1(A12.4 TOPS/W @ 136 GOPS AI-IoT System-on-Chip with 16 RISC-V, 2-to-8b Precision-Scalable DNN Acceleration and 30% Boost Adaptive Body Biasing)由博洛尼亚大学、苏黎世联邦理工学院和Dolphin Design共同呈现。他们设计了一款异构系统级芯片(SoC),该芯片包含了16个RISC-V核心和可配置的深度神经网络(DNN)引擎,支持AI物联网应用。这款SoC采用22纳米工艺制造,其RISC-V DSP集群支持2到8位的指令集扩展,DNN引擎则能够实现混合精度的深度学习加速。在8位精度下,芯片实现了1.64 TOPS/W的能效,在2位精度下能效高达12.4 TOPS/W。此外,通过适应性体偏置技术,系统性能提高了30%,这在能源效率和性能之间找到了一个良好的平衡点,非常适合于资源受限的IoT设备。 其次,论文22.2(A 28nm 2D/3D Unified Sparse Convolution Accelerator with Block-Wise Neighbor Searcher for Large-Scale Voxel-Based Point Cloud Network)来自清华大学。清华大学的研究团队提出了一种2D/3D统一稀疏卷积加速器,专为基于体素的点云处理设计。这款芯片采用28纳米工艺制造,能有效地处理大规模的体素点云网络。点云数据处理通常涉及到大量的空间操作,而该加速器的独特之处在于其块级邻域搜索器,能够高效地进行邻居搜索,从而加速3D卷积计算。这对于自动驾驶、机器人导航等需要大量处理3D环境信息的应用场景具有重大意义。 这两篇论文都展示了如何通过创新的硬件设计来优化机器学习任务的性能和能效,尤其是在资源有限的环境中。RISC-V架构因其开源和可扩展性在嵌入式系统中的应用越来越广泛,而稀疏卷积加速器则针对深度学习模型的特性进行了定制,降低了计算复杂度,提升了处理效率。这些研究成果为未来AI和物联网领域的硬件设计提供了新的思路和实践案例。