近日,隼瞻科技创始人兼 CEO 曾轶接受黑曜半导体专访,深度解读后摩尔时代 DSA 领域专用架构的核心价值、技术路径与产业趋势,分享公司如何以完备处理器IP货架集群与ArchitStudio DSA敏捷设计平台,破解算力效率瓶颈、加速 DSA 方案落地。
以下内容原文来自黑曜半导体:
引言
当摩尔定律的脚步逐渐放缓,功耗墙、存储墙成为芯片设计难以突破的瓶颈,算力的提升早已不再是单纯的制程迭代与晶体管堆叠。
从数据中心的大模型推理,到自动驾驶的实时感知,再到工业机器人的边缘计算,不同场景对算力的需求呈现出高度差异化的特征——通用计算架构的“一刀切”模式,正陷入“算力过剩与效率不足并存”的尴尬。
行业开始思考:当通用CPU、GPGPU在各垂直领域的算力利用率不足20%,当算法工程师花费超70%的精力适配硬件,我们究竟需要怎样的计算架构,才能匹配智能时代的算力需求?
近日,黑曜半导体与隼瞻科技创始人曾轶展开深度对话。作为深耕领域专用架构(DSA)的先行者,隼瞻科技致力于为行业内的芯片客户提供针对垂直领域的专用处理器IP解决方案,从架构设计、软硬协同到生态构建,给出了关于后摩尔时代计算效率革命的思考与答案。
通用算力的“内卷困局”:效率错配与生态枷锁
黑曜:目前全球算力需求呈指数级增长,行业中却出现“算力堆叠≠效率提升”的现象,您认为主要原因是什么?
曾轶:我觉得本质上是算力供给与需求的结构性错配。
过去数十年,通用计算架构(CPU)凭借标准化、生态成熟的优势,成为算力供给的主流,但智能时代的算力需求已经从“通用计算”转向了“领域专属计算”。
大模型推理需要高吞吐的矩阵运算,自动驾驶需要低延迟的实时处理,边缘物联网需要超高能效比的轻量计算……这些场景的核心计算范式截然不同,通用架构的 “全场景适配” 特性,反而成为了效率的短板。
-
- 举个例子,随着移动时代来临,通信协议、音视频算法的计算高度复杂性让传统CPU不堪重负,随即衍生出了DSP、VPU等矢量处理器。
-
- 在AI时代,大规模矩阵计算需要更加专用的硬件架构才能实现高效运行,NPU、TPU、LPU等张量处理器随之而涌现。
更关键的是,为了适配通用硬件,算法不得不做大量“妥协性优化”,比如裁剪模型精度、简化计算逻辑,最终导致“硬件能力过剩,实际性能不足”的内卷。
我们接触过很多算法团队,他们70%的精力不是用于算法创新,而是花在硬件适配、算子优化上,这是整个行业的效率浪费。
黑曜:行业内是否会出现“通用架构持续升级,专用架构小众化”的趋势?很多场景是否依然离不开通用算力的支撑?
曾轶:通用架构不会消失,但我认为其“核心算力载体”的地位会动摇,未来会成为“控制底座+专用加速”体系中的辅助角色。
之所以存在“通用架构内卷”,是因为控制和调度的能力是所有系统级芯片都必备的核心功能,例如操作系统的运行,SoC系统的调度、桌面端的日常应用等。
-
- 我们发现,无论是互联网大厂、车厂还是工业机器人企业,都开始从“采购更高性能的通用硬件”转向“寻找适配自身场景的专用加速方案”,这是行业的必然趋势。
我觉得通用架构与专用架构并非对立关系,而是互补关系。
未来的计算体系,一定是通用算力负责统筹调度、非核心计算,DSA负责核心领域的高密度、高效率计算,两者协同才能实现算力效率的最大化。
就像电脑的CPU+显卡,显卡作为图形领域的DSA,将CPU从密集型图形计算中解放出来,这正是后摩尔时代的计算架构逻辑。
DSA的核心突破:从“硬件定制”到“软硬协同的领域优化”
黑曜:您所理解的DSA核心设计逻辑是什么?与传统的ASIC有何本质区别?
曾轶:很多人将DSA等同于ASIC,这是一个典型的误区。
传统ASIC是“为单一任务定制的硬件”,牺牲灵活性换取极致效率,生命周期短、开发成本高,无法适配算法的快速迭代。
而我们所定义的DSA,是“面向特定领域的计算范式优化,兼顾效率与领域内的灵活性”,这是两者最核心的区别。
具体来说,我们的DSA设计遵循三个核心逻辑:先定义领域计算范式,再设计硬件架构,最后构建软硬协同的优化体系。
黑曜:能否展开介绍一下操作方法。
曾轶:首先,我们会深度拆解目标领域的核心计算特征。
-
- 例如,AI推理的核心是矩阵运算、特征提取,自动驾驶感知的核心是实时数据处理、多模态融合,工业控制的核心是低延迟逻辑运算……这些领域内的计算范式具有高度的共性和稳定性,这是DSA设计的基础。
其次,基于领域计算范式,我们会定制硬件架构。
-
- 例如,在深刻理解应用场景的算法和模型后,为其设计专用的指令集和硬件功能单元,配置合适的存储资源和互联架构,在保证专用领域高性能加速的同时保留了可编程性,使得处理器IP在流片后面对新涌现的算子依然有灵活性。
-
- 我们为对称加密算法设计的专用处理器IP,在处理器内扩展了单独的矢量流水线,配备矢量寄存器、TCM等资源,大幅度减小了加密算法运行过程中的并行计算和访存指令开销,同时扩展的架构具有可编程性,为其他并行计算算子提供灵活定制的可能。
最关键的是软硬协同。
-
- DSA不是“硬件决定软件”,而是“软件定义硬件的优化方向”。
-
- 我们在设计硬件的同时,会同步开发配套的编译器、编程框架、算子库,让算法工程师能够以最低的成本适配硬件,无需做大量的妥协性优化。
简单来说,传统ASIC是“为一个任务造一颗芯片”,而DSA是“为一个领域造一套高效的计算体系”,我认为这才是后摩尔时代DSA的核心价值。
黑曜:当前DSA发展面临的最大挑战是什么?是硬件设计的难度,还是软件工具链的复杂性,还是市场的认知偏差?
曾轶:我认为市场已经对DSA的效果逐渐有了更多的认知,但是DSA发展面临最大的问题还是落地。
处理器作为半导体行业的上游,对工程师的能力要求非常严格,因为硬件架构、微架构、软件工具链是一个系统性工程,其中存在大量的know how和优化技巧。
-
- 例如,一个复杂的自研指令集的网络信号处理器内核,包含了标量、矢量单元,其硬件和编译器从研发到商用落地至少需要2-3年,还需要投入大量的专家和工程师,开发周期长,投入资源大。
此外,DSA还面临“领域边界界定”的挑战。
如果领域界定过窄,DSA就会陷入ASIC的困境,灵活性不足;如果领域界定过宽,又会失去专用架构的效率优势。
如何找到“领域共性”与“场景个性化”的平衡点,是DSA设计的核心难题。
-
- 例如,AI领域可以细分为训练、推理、计算机视觉、自然语言处理,每个细分场景的计算范式又有差异,我们需要在“AI通用DSA”和“细分场景DSA”之间找到最优解。
技术落地:从架构设计到场景验证,DSA的效率革命
黑曜:针对前面提到的挑战,隼瞻是如何解决这个问题的?如何为客户快速的落地DSA方案?
曾轶:我们开发了一套DSA敏捷设计平台ArchitStudio,是一个面向专用指令集处理器定制的EDA工具,使复杂的DSA处理器开发时间缩短70-80%,让开发者快速迭代,寻找最合适其应用场景的架构。
ArchitStudio的前端组件叫做Analyzer,这是一个性能分析工具。
-
- 客户将C语言格式的应用代码输入后,Analyzer会从函数调用、流水线堵塞、指令统计等不同层次生成直观的图像,让客户清晰的看到算法的热点函数,并对热点函数的指令调用进行展开,直观的分析算法的计算范式、计算瓶颈,为专用架构处理器的设计提供强有力的指导。
客户经过Analyzer组件的指导和分析后,进入了Designer环节。
-
- 我们定义了一套处理器设计语言RISCAL,是一个抽象层级接近C的语言,屏蔽了大量的硬件细节,让客户比较容易地完成处理器架构描述和指令设计。
-
- 例如,客户可以根据热点函数的计算范式去编写专用的指令,为计算瓶颈实现加速。
-
- 更进一步,客户可以用RISCAL语言为处理器单开一条流水线,编写一个矢量的协处理器,实现更加深度的并行计算功能。
最后,在客户完成RISCAL语言的建模后,进入了Generator的环节。
-
- Generator会识别RISCAL语言,并在几分钟内生成对应的完整处理器IP包,包含了硬件部分(可综合的RTL代码、UVM验证环境)和软件工具链(编译器、仿真器、调试器和IDE等)。
-
- 拿到自动生成的IP包后,客户可以在新的处理器IP上对算法进行再次仿真,并评估PPA(性能、面积、功耗)。
-
- 如果对结果不满意,可以调整和优化RISCAL语言建模,再次生成相应IP包,实现处理器架构的快速探索。
通过我们的ArchitStudio工具,工程师得以从繁重的底层RTL设计和工具链开发中解脱,专注对专用算法进行架构探索和设计,将传统需要数月甚至数年的繁重手工编码与集成工作缩短到数周时间,极大降低人力投入,显著提升项目交付效率与确定性,让处理器设计从 “精英专属” 走向 “普惠创新”。
黑曜:能否结合具体场景,谈谈隼瞻的DSA方案与通用架构相比,核心提升体现在哪些方面?
曾轶:我们的DSA方案已经在无线通信、工业控制、信息安全等多个核心场景完成落地验证并量产,实际表现远超通用架构。在保证接近ASIC性能的前提下,处理器依然具备一定的灵活可编程性,以应对后期的需求变化,这也是芯片行业最关注的需求之一。
我先以无线通信的信号处理为例。
-
- 通信协议通常被划分为多层架构,例如L1物理层、L2数据链路层、L3网络层等。
-
- 芯片架构师会将协议进行软硬件划分,将一些计算复杂度较高的算法固化为ASIC加速,而一些控制流的算法通过通用架构CPU去负载。
-
- 但随着通信标准的演进速度加快,并且在实际应用中会遇到一些非标的通信算法。ASIC无法为非标、变化的算法提供灵活性,就催生了DSA的需求。
-
- 因此我们为通信行业设计了数字信号处理器IP,具备相当程度的可编程性,为后期灵活变化的算法提供了性能保障。
-
- 在实际测试中,面积相较国际头部竞品更小的情况下,获得了数倍的性能收益。
还有一个例子是信息安全场景。
-
- 我们在一个案例中为国际标准AES加密算法设计了DSA处理器,先采用标量指令扩展提高数据计算的并行性、减少数据搬运操作,相较于通用处理器获得了十多倍的性能提升。
-
- 但这还远远不够,我们为这个处理器扩展了一条新的矢量流水线,并配备了相应的TCM、矢量寄存器等资源,经过进一步架构优化后,性能实现了50倍的大幅提升。
-
- 更为重要的是,相较于ASIC完全把计算逻辑固化在电路中,我们新扩展的矢量流水线在矢量处理上是通用的,意味着如果后续出现新的并行计算算子,我们可以灵活地通过编程的形式去加速和支持。
-
- 这就是面向专用领域加速,同时兼顾灵活性的体现。
实际的测试数据证明,DSA并非“实验室中的技术”,而是已经能够为各行业带来实际价值的成熟方案,核心优势就是在特定领域内,实现算力效率的极致提升。
黑曜:不同场景对DSA的需求差异巨大,比如数据中心追求高吞吐,边缘设备追求低功耗,车规级芯片要求高可靠性……隼瞻如何实现DSA架构的场景化适配?是否存在通用的DSA设计框架?
曾轶:这也是DSA设计的核心难点,对此我们有一套完整的解决思路。
我们在设计中引入了可配置项,比如可配置的指令集和运算引擎、可配置的存储层级、可配置的功耗管理策略。
算法工程师可以通过软件,对硬件资源进行动态调度和配置,让硬件能够适配场景内的不同任务需求。
-
- 例如在计算精度要求较高的场景,我们可以配置浮点计算单元;
-
- 在一些对计算并行度较高的场景,我们可以提供RVV、P扩展等可配置的扩展指令集选择。
最重要的是,我们构建了一套通用的DSA设计哲学,核心是“领域计算范式的抽象与提取”。
-
- 无论哪个场景,我们的设计流程都是通过Analyzer先直观的展示出该领域的核心计算范式、性能约束、功耗约束,然后基于通用的模块化架构,进行场景化的模块配置。
-
- 如果客户有进一步客制化的精细需求,可以通过我们提供的RISCAL语言进行架构和指令的建模,相对自由地为其领域专用算法设计最佳的处理器架构。
我们的ArchitStudio工具让我们的DSA设计不再是“从零开始”,而是“基于工具的快速迭代”,开发周期相比传统DSA缩短了70%以上。
当然,车规级、航规级等对可靠性要求极高的场景,还需要进行额外的高可靠性设计,比如冗余设计、容错设计、车规级工艺适配等。
生态构建:从单打独斗到产业链协同,打破DSA的生态壁垒
黑曜:生态是DSA发展的关键因素,隼瞻在这方面有哪些布局?如何解决“开发者学习成本高、算法迁移难度大”的问题?
曾轶:DSA的生态构建不可能靠单打独斗,需要产业链的协同创新,包括芯片设计企业、算法企业、应用企业、开源社区等多方参与。
在生态构建上,我们主要做了三方面工作:
第一,基于开源架构构建DSA的硬件生态。在起步阶段,我们选择RISC-V作为DSA的基础指令集架构。因为RISC-V具有开放、灵活、可扩展的特性,能够让产业链伙伴以最低的成本参与到DSA的硬件设计中。
我们将基于RISC-V开发的DSA架构模块、指令集扩展进行开源,让其他芯片设计企业可以直接基于我们的开源成果,进行场景化的DSA设计,这不仅能够降低整个行业的开发成本,还能推动DSA硬件生态的标准化。
第二,打造 “零成本迁移” 的软硬协同工具链。我们提供的软件工具链能够直接将Onnx、TensorFlow、PyTorch等主流框架的模型,自动编译适配到我们的处理器IP上,算法工程师无需修改代码,即可实现从通用架构到DSA架构的迁移,真正做到“零学习成本、零迁移成本”。
同时,我们还构建了丰富的领域专用算子库,覆盖AI推理、自动驾驶、工业控制等核心场景,让算法工程师能够直接调用,无需重新开发算子。
第三,联合产业链伙伴成立DSA领域计算实验室。我们与上海浦东软件园联合发起了DSA领域计算实验室,由RISC-V工委会指导,旨在推动DSA技术的研发、标准化和成果转化,联动产、学、研、用各方资源,解决DSA发展中的共性技术问题。
例如实验室正在推动DSA工具链的标准化、领域计算范式的抽象与共享、DSA应用案例的验证与推广,让更多企业能够参与到DSA生态中,实现互利共赢。
除此之外,我们还与高校、科研院所合作,开展DSA相关的人才培养工作,让更多的开发者了解和熟悉DSA架构,从源头解决“开发者短缺”的问题。
生态构建是一个长期的过程,不能一蹴而就,但我们相信,随着越来越多的企业参与,DSA的生态壁垒将被逐步打破,最终形成一套成熟、开放、标准化的DSA生态体系。
黑曜:目前全球范围的DSA生态发展格局是什么样的?
曾轶:目前全球DSA生态发展,呈现出“头部企业主导,开源社区崛起,区域化特征明显”的格局。
谷歌、亚马逊、英伟达等国际头部企业,在各自领域构建了专属的DSA生态:例如谷歌的TPU+XLA生态,亚马逊的Graviton+AWS生态,英伟达则通过在GPGPU中融入DSA设计理念,巩固自身的生态优势。
同时,OpenXLA、RISC-V等开源社区崛起,为中小企业参与DSA生态构建提供了机会,成为全球DSA生态的重要组成部分。
黑曜:国内企业在DSA生态构建中,有哪些优势和挑战?
曾轶:我认为国内企业在DSA生态构建中,拥有三个优势:
一是应用场景丰富,中国拥有全球最大的互联网市场、新能源汽车市场、工业机器人市场,这些场景为DSA的技术落地和生态验证提供了绝佳土壤;
二是产业链完整,中国拥有从芯片设计、制造、封测到应用的完整半导体产业链,能够为DSA的生态构建提供全产业链的支撑;
三是政策支持力度大,国家对半导体产业、人工智能产业的政策支持,为DSA的发展提供了良好的政策环境。
但国内企业也面临着一些挑战:
一是核心技术积累不足,在高端芯片设计、先进工艺、EDA工具等方面,与国际头部企业仍存在差距;
二是生态协同不足,国内企业之间存在“各自为战”的现象,缺乏有效的协同创新机制,导致生态碎片化;
三是高端人才短缺,DSA作为跨芯片设计、算法、软件工程的交叉领域,需要大量的复合型高端人才,而这正是国内半导体产业的短板。
不过这些挑战都是发展中的问题,随着国内半导体产业的不断升级,以及产业链协同的不断加强,这些问题都将逐步得到解决。
我认为国内企业的重要机会,在于立足本土丰富的应用场景,打造具有本土化优势的DSA生态,然后逐步走向全球,这也是我们的发展战略。
未来展望:DSA成为算力基础设施,开启后摩尔时代的计算新范式
黑曜:随着大模型、具身智能、6G等技术的发展,DSA在未来的计算体系中,将扮演怎样的角色?
曾轶:我认为DSA将扮演三大角色:
第一是核心领域的算力提供者。在AI推理、自动驾驶、工业控制、6G通信等核心领域,DSA将取代通用架构,成为核心的算力载体,为这些领域提供高密度、高效率、低功耗的算力支持,这是DSA最核心的角色。
第二是算力异构协同的纽带。未来的计算体系是异构的,由CPU、GPGPU、DSA、FPGA等多种架构组成,DSA将成为算力异构协同的纽带,通过标准化的互联架构和调度协议,实现不同架构算力之间的高效协同,让算力资源得到最优配置。
第三是算力智能化的基础。DSA不仅是算力提供者,还将融入智能化的算力调度和优化能力。比如通过芯片内置的智能调度引擎,根据任务的实时需求,动态调整硬件资源和算力输出,实现算力的“按需分配”,这将成为未来智能计算的基础。
简单来说,后摩尔时代的计算体系,将是“通用算力为基,DSA为核心,异构协同为纽带,智能调度为目标”的全新范式,而DSA将成为这一范式的核心支撑。
黑曜:隼瞻作为DSA领域的先行者,未来的发展规划是怎样的?如何进一步推动DSA技术的落地和普及?
曾轶:我们的发展目标,是成为全球领先的DSA架构解决方案提供商,推动DSA成为智能时代的核心算力基础设施。
在技术创新上,我们的核心思路是一方面提升我们的处理器IP的规格,从端侧设备到数据中心级别演进;另一方面我们需要完善处理器IP货架,我们以RISC-V架构的CPU IP起家,目前已经逐渐拓展出了DSP、NPU等其他的货架IP产品。
更重要的是,我们将以DSA设计敏捷化、智能化为核心思路,持续演进我们的ArchitStudio工具,进一步降低DSA设计的门槛。
在场景落地上,我们将继续聚焦人工智能、无线通信、工业控制等核心场景,不断优化场景化的DSA方案,推动技术的规模化商用。
同时,我们将积极拓展新的前沿应用场景,比如6G通信、存算一体、物理AI等,让DSA技术赋能更多的新兴领域。
在生态构建上,我们将继续推动DSA生态的开源化、标准化和协同化,进一步完善DSA工具链,扩大DSA领域计算实验室的影响力,联动更多的产业链伙伴,共同打造开放、共赢的DSA生态体系。
我们希望通过自己的努力,让DSA技术不再是少数企业的“专属品”,而是成为整个行业的“公共品”,推动整个半导体产业和人工智能产业的效率提升。
除此之外,我们还将加强国际合作,积极参与全球DSA生态的构建,将中国的DSA技术和生态优势推向全球,与国际伙伴共同推动后摩尔时代的计算效率革命。
黑曜:您觉得DSA的发展将为半导体产业带来怎样的变革?
曾轶:我对DSA的未来充满信心,DSA不仅是一种计算架构,更是后摩尔时代半导体产业的发展新方向,将带来三大变革:
第一,推动半导体产业从“制程驱动”向“架构驱动”转型。
DSA作为架构创新的重要方向,将推动半导体产业从“比制程、比晶体管数量”向“比架构、比算力效率”转型。
第二,打破通用架构的技术壁垒,推动半导体产业多元化发展。
DSA将为中小半导体企业提供新的发展机会,立足特定垂直领域,打造差异化的DSA产品。
第三,赋能人工智能等新兴产业,推动智能时代的加速到来。
DSA将为这些新兴产业提供低成本、高效率的算力支持,推动其从实验室走向规模化商用。
从更长远的角度来看,DSA 的发展将推动人类社会进入“按需算力”时代,我们很荣幸能够成为这场变革的参与者和推动者。
结语
当摩尔定律的光环逐渐褪去,算力的核心价值不再是“多”,而是“准”。领域专用架构(DSA)的出现,正是这一潮流的产物,让算力回归“效率为本”。
从架构设计到场景落地,从生态构建到产业链协同,隼瞻科技等先行者的探索,正在为后摩尔时代的计算产业开辟新的道路。



