
▲魔形智能科技创始人、CEO徐凌杰
5、中科加禾崔慧敏:AI编译优化跃升推理性能,有效扩展国产AI芯片生态
中国科学院计算技术研究所研究员、中科加禾创始人崔慧敏谈道,大模型推理私有化部署需求大涨,但面临硬件繁多、需求多元、多模部署等多重挑战。
中科加禾围绕编译优化构建大模型推理的引擎和软件栈,积累了大量实践案例:在推理引擎中实施深度显存优化,有效提高显存利用率;在大规模推理中实现多维并行策略,有效利用计算、访存、通信资源;基于多项联合优化,推理技术在某互联网厂商合作中将QPS提升50%以上,并在昇腾910B平台私有化部署场景下有效支持128K长上下文。
长期来看,基于AI编译技术,构建一套底层公共的编译支撑,能够长期有效解决AI生态碎片化及生态融合问题。

▲中国科学院计算技术研究所研究员、中科加禾创始人崔慧敏
6、趋境科技陈祥麟:千亿大模型的异构推理新路径
趋境科技技术负责人陈祥麟分享了大模型推理的技术创新。他认为大模型私有化推理架构将从传统的以GPU为中心转向全系统异构协同,需要充分提升算力利用率。
团队首创全系统异构协同与以存换算技术,充分利用底层GPU、CPU、存储等硬件设备算力,通过基于计算强度的offload策略、CPU/GPU的高性能算子改造、MTP等算力优化方法,以及prefix cache等融合推理策略,提升全系统算力,将大模型推理门槛降低至1/10。
趋境科技与清华KVCache.AI团队共同开源的异构推理框架KTranformers,能够利用单张消费级GPU+CPU异构推理DeepSeek-671B-r1/v3,decode速度最高达到20+ tokens/s。
同时参与月之暗面、清华MADSys实验室等多个产学研机构开源的项目Mooncake,以超大规模KVCache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。

▲趋境科技研发负责人陈祥麟
二、高端对话:国产AI算力的突围与崛起,中美差距正逐步缩小
以《国产AI算力的突围与崛起》为主题的高端对话,由智一科技联合创始人、智车芯产媒矩阵总编辑张国仁主持,中昊芯英创始人兼CEO杨龚轶凡,魔形智能科技创始人、CEO徐凌杰,中科加禾联合创始人兼CTO陈龙三位嘉宾进行分享。

张国仁谈道,从2018年AI芯片峰会到如今AI算力峰会,他感触最深的是国内企业对自己的产品、公司发展都表现得愈发云淡风轻。

▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁
1、国产算力与全球差距仍然存在
面对国产算力在全球发展中的地位,陈龙谈道,国内厂商已掌握算力底层技术,但在PyTorch等主流训练框架适配方面仍处于跟随、陪跑阶段。
杨龚轶凡从硬件的设计和生产两方面进行了比较:生产差距存在,但预测将在3-5年内逐步缩小;而在设计层面,从学术研究、论文创新性等角度看,设计的差距更大。随着模型算法收敛,更多创新型架构、设计出现,国外诸多路线已发展到产品落地,国内厂商需要共同拓展生态。

▲中昊芯英创始人兼CEO杨龚轶凡
徐凌杰认为,在如何做优秀的GPU、如何搭建生态、如何做集群等方面,中美认知差距正不断缩小。但实际产业中,差距进一步扩大,企业需要从底层供应链突破。
2、算力仍是资源导向型市场
对于国产算力的市场化,徐凌杰判断,政府、资源导向型的现状未来几年不会有很大改变,芯片晶圆、制程以及芯片创企在国产生态中的成长,都需要政府扶持。芯片公司的机会是通过更强互联、集群打造差异化,找到商业化落脚点。
杨龚轶凡同样认为,资源导向型走向市场导向型是一个过程,在半导体行业,老的生产制程永远比新的生产制程性价比低,生产制程每迭代一次会有4倍的性价比提升,这就导致纯国产芯片的性价比更低,需要政府扶持拉通生产工艺的产业链。
陈龙从应用层面进行分析,谈到国家的扶持很必要,企业通过软硬件优化降低了部署成本,但消费侧拉动还不够强,现状是上一代芯片尚没有完全落地应用,下一代芯片已经出来了,因此核心是要发掘更有价值的应用。

▲中科加禾联合创始人兼CTO陈龙
3、专用芯片、编译技术、超节点,是未来发展方向
杨龚轶凡坚信专用芯片是未来的发展方向,在通用性需求大幅降低的情况下,可以抛弃部分通用性,增加芯片核心的性能和性价比。越专越好,是在满足一定可控性和变化下的结果。
围绕编译技术在解决国产芯片面临的风险,陈龙认为,它是将专家的经验泛化、普适化的一种技术手段。编译技术最开始产生是为了弥补人的思维和机器能接受信息之间的鸿沟,使开发效率提升上百倍。
徐凌杰着重谈到超节点的发展方向,在大模型领域,类似MoE的创新结合超节点会有更大收益,即更大的问题用更大的集群解决,更大的集群反哺系统,从而做出更大的模型。

▲魔形智能科技创始人、CEO徐凌杰
4、算力产业格局未定
谈到全球算力产业的产业格局,陈龙认为,虽然国内巨头有积累优势,但产业规模足够大,且需求多元化,将来企业将百花齐放。
杨龚轶凡的观点更为激进:首先,3-5年内形成产业格局的可能性不高,目前仍是企业相互竞争、高速发展变革的过程;其次,资源型市场的天然属性决定了其很难形成垄断,且巨头穿越周期能力弱,因此AI产业爆发后市场格局会洗牌,初创公司或许会通过更好的组织形式去适应产业发展。
行业的重要性、资本周期发展对产业发展都会有影响。徐凌杰相信,算力变得越来越有吸引力,自然会有更多的钱涌入,会出现巨头被冲击、新生势力冒出的场景。创企和巨头需要找准自己的定位,通过“整合”变成更强实体可能是一条发展路径。
如今中国算力规模已在全球排名第二,被预测有望影响全球AI 竞赛格局。陈龙认为,AI算力市场规模和国家GDP发展成正比关系,当国家GDP反超或许是国产算力格局更进一步的机会。杨龚轶凡提到投入产出比,目前美国和中国算力开销差10倍,当投入量逐步赶上才会有变化。徐凌杰认为未来当AI赋能千行百业,算力真正变成生产力时,就是一个巨大的机会。
三、专题论坛:从软硬协同到端边云协同,底层技术创新突破AI算力瓶颈
下午场火热继续,在AI推理算力专题论坛和智算中心专题论坛中,来自行云集成电路、安谋科技、实在智能、白山云科技、Alluxio、浩云长盛集团、上海矩向科技、趋动科技的8位嘉宾带来了精彩演讲。
如何突破大模型推理芯片的核心瓶颈、如何实现出色的端侧模型性能?超大规模智算中心面临的数据、成本功耗、算力利用率等方面的一系列难题要如何破解?我们都将找到答案。
1、行云余洪敏:只有软硬件协同创新才能突破大模型推理芯片的核心瓶颈
行云联合创始人、CTO余洪敏谈道,高质量大模型最核心的需求就是极其变态的内存需求,既要带宽,又要容量。推理芯片核心瓶颈有:显存容量,价格高昂,只有通过软硬件协同创新才能解决。
行云致力于把AI基础设施从超算变成消费电子竞争,褐蚁是第一个十万元级运行DeepSeek满血671B、FP8非量化且对话速度在20TPS以上的解决方案,用数量级碾压的竞争力让全行业对AI超算祛魅。
近期行云将推出蚁群,实现500~1000有效并发下最高质量模型的流畅体验,价格在300~400万价位,接近DeepSeek公有云的性价比;此外,计划在明年年底推出自研GPU芯片,相比褐蚁性能将有数倍提升,集群化后,相比蚁群可以数倍提高有效并发。

▲行云集成电路联合创始人、CTO余洪敏
2、安谋科技鲍敏祺:NPU如何助力端侧设备突破内存、算力、功耗三堵墙?
安谋科技产品总监鲍敏祺观察到,端侧设备正逐步承担更多AI计算任务,端侧AI模型在算法迭代、上下文长度扩展和模型理解力提升等方面进展迅速。
随着模型的演进,端侧AI硬件也面临新的需求:一是算力需求持续增长,计算精度从INT向FLOAT转变,需通过多核协同实现算力提升;二是大模型对带宽要求更高,可通过提升数据本地化程度减少数据传输距离,从而优化能效比;三是需要优化硬件中向量计算与矩阵计算的配比。
为应对“内存墙”、“算力墙”和“功耗墙”三大挑战,安谋科技正升级其自研“周易”NPU产品,如扩展数据类型支持、新增W4A16硬件加速和DSA加速功能、提供更为丰富的算子库等,持续驱动终端算力跃迁,助力产业把握端侧AI“芯”机遇。

▲安谋科技产品总监鲍敏祺
3、实在智能欧阳小刚:Agent端侧性能超GPT-4o 10%,一体机30分钟开箱部署
实在智能合伙人、核心算法负责人欧阳小刚提到,算力需求与场景落地的双向倒逼,正推动智能体技术端侧的探索革新。
其公司行业首发的通用智能体“实在Agent”,专注跨系统、链接各类软件的办公流程自动化。其自研的实在TARS大模型和TARS-VL大模型分别在垂域任务理解性能超越GPT-4o达10个百分点,GUI多模态理解能力领先3%,而通用能力几乎无损;同时,该模型支持私有化部署,深度融合RPA与智能体工作流,实现浏览器、桌面应用、移动端的无缝操作,支持一键流程编辑和智能体共享,降低30%重复开发成本。
欧阳小刚提到与惠普联合打造的Z系列数字员工一体机:基于HP Z8 Fury G5工作站,得益于四块NVIDIA 5880 Ada的强大算力,开箱30分钟完成部署,核心业务数据全程本地处理。

▲实在智能合伙人、核心算法负责人欧阳小刚
4、 白山云科技李金锋:以边缘计算破解AI推理时延与成本难题
白山云科技智算产品研发负责人李金锋谈到,AI推理面临网络时延与成本挑战,对边缘计算的需求日益增长。当前的云边端架构依然适用:中心云集中计算,追求性能极致优化;边缘云在靠近用户处提供算力,作为重要补充,现可处理百亿参数内大模型推理,显著降低时延;终端算力则在保障数据隐私场景中发挥作用。
针对边缘云节点分散带来的算力管理难、任务调度复杂和单节点资源有限等挑战,李金锋介绍可通过全网任务调度、弹性算力调度、模型加载优化及单节点推理性能优化等方式解决。
依托覆盖全球的1700多个具备计算、存储、安全能力的数据节点及150多个海外运营商资源,白山云能轻松升级GPU算力,有力支撑边缘推理服务。

▲白山云科技智算产品研发负责人李金锋
5、Alluxio傅正佳:用去中心化架构方案,解决AI数据湖困境
Alluxio首席架构师傅正佳谈道,AI 数据全链路各环节面临的不同难题,以及环节间数据交互导致的资源浪费与效率低下,其本质都是数据湖困境的体现。
Alluxio介于分布式计算框架与存储系统之间,可以做到对当前AI Infra“零改造无侵入”,并提升数据安全性,还可以统一纳管数据孤岛,提供高性能缓存层。
Alluxio采用去中心化架构,支持100亿以上对象,能够降低数据工程复杂度与成本,提升模型迭代效率与数据方向速度。
Alluxio的核心技术包括协议转换、数据缓存层以及虚拟数据湖等,可应用于智驾、机器学习训练、智算、AI模型分发、科学计算等场景。基准测试显示,其性能与全球顶尖并行系统持平,成本更低,GPU利用率可达95%及以上。

▲Alluxio首席架构师傅正佳
6、浩云长盛赵亮:智算时代数据中心变革,液冷、超高压直流成大势所趋
浩云长盛集团首席增长官(CGO)赵亮称,随着智算时代的到来,数据中心的算力密度不断提升,同时,大模型推理和训推一体的需求也在增长。
这些变化对数据中心的供电和制冷系统提出了巨大挑战,设计和架构需要重大调整。如今,数据中心应配备更高的层高和更强的承重能力,以满足密度的提升,随之而来的散热问题让液冷成为必然选择。在电力层面,能够减少能源转换损耗、提升电力运营效率的高压直流技术正获得广泛采用。
此外,数据中心的选址也至关重要,需综合考虑电力供应便利性、运维便利性、算力设备梯级利用和实际应用场景,而非简单地将其布局在能源成本较低的地区,因此把训推一体智算中心建设在一线城市周边更有优势。

▲浩云长盛集团首席增长官CGO赵亮
7、矩向科技黄朝波:模算云破局算力浪费,毛利跃升超10倍
上海矩向科技创始人兼CEO黄朝波指出,当前智算中心深陷无序建设、架构封闭、远离业务场景三重困局,导致区域算力闲置、资源利用率不足。
传统硬件堆砌模式已无法满足AI爆发需求,唯有通过整合算力、模型与应用的模算云平台重构价值链,将电力转化为算力、模型力,并深加工为应用赋能能力,以此来实现算力服务毛利的跃迁。以3000P AI算力为例,服务毛利从智算中心的1亿飙升至模算云的10多亿,增幅超10倍。
模算云模式以轻资产实现高产出:政府可统筹闲置算力赋能中小企业,企业可通过开箱即用的MaaS服务降低AI门槛;技术上采用异构协同,国产芯片覆盖80%计算量,英伟达GPU兜底剩余需求,同时结合云边端协同,进一步降低推理成本,缩短业务落地周期。

▲上海矩向科技创始人兼CEO黄朝波
8、趋动科技张增金:通用行业GPU利用率不足30%,软件定义AI算力成必然趋势
趋动科技技术总监张增金指出,尽管生成式AI算力市场热度高涨,但非生成式AI的规模仍是其两倍,从运营层面来看,蕴藏着巨大的收入潜力(IDC 2025)。在国内众多智算场景中,GPU平均利用率低至5%左右,主要原因在于异构资源分配方式粗放、调度机制缺失以及管理效率低下等问题。
采用软件定义AI算力的模式,通过软件对算力基础设施进行重新构建,实现硬件资源的按需动态调用,能够有效解决当前异构硬件利用率低、调度模式僵化等难题,避免因资源管理不善而引发的系统瓶颈。
张增金表示,未来,软件定义将成为智算中心的关键发展方向。在一系列行业实践中,趋动科技借助软件定义技术,助力某客户将整体GPU平均利用率从8%提升至35%,峰值平均利用率从15%跃升至60%。目前,趋动科技已与数百家家来自运营商、金融、能源电力、制造业等领域的客户展开了深度合作。

▲趋动科技技术总监张增金
结语:中国AI算力蓬勃向前,技术创新加速涌现
在中美博弈的背景下,国产大模型们强势突围,带动了国内AI算力需求的持续增长,算力需求发生结构性变化、推理算力需求增速远超预期,中国AI算力产业不断迎来新的机遇和挑战,诸多优秀企业通过技术创新破解算力难题,加速AI的产业化落地。
站在技术与产业共振的历史节点,我们每一个人,都正在见证和参与一场激动人心的技术跃迁。随着Agent浪潮的涌起、端侧智能的加速落地、具身智能的觉醒、产业AI加速赋能,AGI的曙光正离我们越来越近。
中国AI算力产业必将乘着这股劲流扬帆起航,驶向更广阔的AI星辰大海。