华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
发布时间:2025-08-23 16:02:21 作者:玩站小弟
我要评论

新浪科技讯 8月12日下午消息,在2025金融AI推理应用落地与发展论坛上,华为联合中国银联共同发布AI推理创新技术UCM推理记忆数据管理器),实现高吞吐、低时延的推理体验。在当今数字化时代,AI发展
。
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
相关文章
- 4月19日,记者来到位于广州市从化区的香港赛马会从化马场,了解到得益于这里设备完善的马医院、马匹康复治疗中心以及放草场等设施,马匹产业得以克服一定疫情影响,健康发展。近三年,累计上万匹次马匹往返粤港两2025-08-23
- 北京时间2025年8月21日,据美记Ary报道,自由球员马尔科姆-布罗格登预计将签约勇士。布罗格登今年32岁,司职组织后卫。上赛季,布罗格登效力于奇才,出战24场,场均12.7分3.8篮板4.1助攻。2025-08-23
- 材料:牛肉1000g,红酒700ml,开水300ml,牛肉粉1大勺,洋葱2颗,杏鲍菇1颗,胡萝卜1根,培根150g,面粉25g,黄油50g,混合法国香草适量,百里香适量,香叶适量,橄榄油适量,盐适量,2025-08-23
- 英语学习中,在英语书面表达时,每次写作前问自己四个问题:这篇文章的体裁格式是怎样的?主体时态用什么时态?人称用第几人称?可以分几段,之间用什么过渡词、连接词?带着这四个问题去审题,搞清楚文章的主要内容2025-08-23
- 暑期档票房表现最好的电影《侏罗纪世界:重生》将于北京时间8月5日今日)中午12点上线流媒体平台,影片全球票房已超7.66亿美元。《侏罗纪世界:重生》国内票房为5.51亿人民币。《侏罗纪世界:重生》豆瓣2025-08-23
- 8月21日,中国男篮王俊杰接受澎湃新闻的专访,谈到自己在亚洲杯上落泪的原因。在2025年FIBA男篮亚洲杯上,中国男篮在决赛不敌澳大利亚队,获得本次亚洲杯亚军。整个亚洲杯期间,镜头捕捉到的王俊杰始终笑2025-08-23
最新评论