在人工智能的算力竞赛中,云端训练固然是基石,但真正的智能化体验往往发生在边缘侧和端侧,也就是在你我的手机里、工厂的产线上、城市的监控摄像头中。如何让AI推理在边缘端实现低时延、高能效、低成本的落地应用,成为了行业亟待突破的“最后一公里”难题。
为了解决这一难题,智微智能通过子公司曜腾投资参股杭州元川微科技有限公司,深度布局AI推理芯片领域,瞄准边缘及端侧推理这一“最后一公里”的难题。这一战略动作标志着智微全场景AI算力的生态延伸。
关于元川微
杭州元川微科技有限公司专注于AI推理算力创新,通过回归AI推理的第一性原理,聚焦边端智能场景,是国内领先的基于LPU架构的算力芯片科技公司;依托自研的硬数据流架构与全资源编译器等核心技术,推出了面向大模型、多模态和端侧应用场景的Mountain(算力)、River(Agent)两大系列LPU+产品,显著降低部署复杂度与总体拥有成本(TCO),精准满足推理应用对确定性超低时延、高算力、高能效与低成本的核心需求。
元川微汇聚了业内顶尖的芯片、编译器与AI算法人才,构建了一支兼具技术深度与工程落地能力的核心团队。技术团队拥有平均超过15年的芯片研发经验,曾主导多款高性能芯片的设计与交付,具备深厚的系统架构与工程实现功底,对大模型推理的底层需求有深刻理解。另外,其团队成员能力可覆盖模型算法、芯片设计、软件设计及全栈验证等关键环节,形成“算法-架构-芯片-系统”一体化研发能力,确保从理论创新到产品落地的高效闭环。凭借强大的技术背景与丰富的产业经验,元川微在推理芯片领域具备突出的技术领先优势与快速迭代能力。
什么是LPU?
作为专为推理设计的ASIC(为单一任务量身定做的芯片),LPU(Language Processing Unit,语言处理单元)与GPU存在根本性差异。GPU源于图形渲染需求,凭借强大的并行计算能力被拓展至AI领域,支撑模型训练与推理;而LPU则聚焦语言处理场景,针对文本数据的特性深度优化,在自然语言理解、文本生成等任务中实现更高效的处理——如同为“文本引擎”量身定制的专用加速器,在语义解析、对话交互等垂直场景中,展现出比通用计算单元更精准的能效比与响应速度,重新定义了语言智能的硬件实现路径。
LPU采用大容量片上SRAM架构,数据直接集成于芯片,访问延迟远低于传统GPU的“仓库-生产线”分离模式,实现“生产线旁即仓库”的极速响应;其确定性执行架构通过“静态时序”规划,将计算与通信步骤精确到时钟周期,保障稳定高吞吐量。
更关键的是,LPU抛弃了传统“存算分离”的冯诺依曼架构包袱,如同专为推理定制的“F1赛车”,在低时延、高吞吐、低成本、高能效四大维度形成综合优势,成为大模型推理的“性能引擎”。


