开云体育外洋评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token浪掷大

开云体育(kaiyun)官网

开云体育(kaiyun)官网: 开云体育; 真人棋牌; 电子电竞; 彩票捕鱼; 2026世界杯; 开云app下载

热点资讯

开云体育外洋评测DeepSeek-V4：智能体任务排名开源

开云app 【新韵诗派】陈现童的新韵诗

开云体育百灵Ling-2.6-flash发布：104B 参

开云app 别总作念当先和好的家长，终结留白更伏击

开云app 读在童话里

开云app 炸裂！批量高分聚拢爆发！亦申学员国考行测79.7

开云app 王楚然高度近视但毫不眯眼

开云app 谢什科: 为曼联遵循首赛季联赛进球就上双, 这是

开云app 好意思国没念念到, 阻滞霍尔木兹后, 中国船坞狂

开云体育 2026斯诺克中国德比! 丁俊晖爬台名方位笑翻全场

你的位置：开云体育(kaiyun)官网 > 2026世界杯 >

开云体育外洋评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token浪掷大

发布日期：2026-05-06 04:10 点击次数：87

开云体育外洋评测DeepSeek-V4：智能体任务排名开源第一，幻觉率上升，Token浪掷大

每经裁剪｜兰素英

4月24日， DeepSeek-V4预览版考究发布并同步开源，堪称在Agent能力、寰宇常识与推感性能三大维度达到国内及开源领域杰出水平。

DeepSeek-V4分为Pro与Flash两个版块，均支捏百万（1M）token超长高下文。

两个版块均大幅裁减了对谋略和显存的需求，将每个标记的推理FLOP裁减 73%，并将KV缓存内存占用裁减90%。

4月24日，环球最大AI模子应用时势编程接口团聚平台OpenRouter的数据流露，V4-Flash的调用量达270亿Token，V4-Pro为47.9亿Token，但莫得登上排名榜。

DeepSeek-V4发布后，主流评测平台进行了能力测试和排名。

Artificial Analysis对DeepSeek-V4进行了推理能力专项测评。松手流露，V4-Pro在东谈主工分析智能指数中斩获52分，相较V3.2版块的42分收尾10分跃升，成为仅次于Kimi K2.6的环球第二掀开源推理模子。

V4-Flash得分47分，性能弱于V4-Pro，但显耀超越DeepSeek-V3.2，概括智能水平对标Claude Sonnet 4.6（全力版），介于顶尖闭源模子与主流中端模子之间。

在智能体任务推崇方面，V4-Pro在信得过场景智能体职责任务中，性能位居所有这个词开源权重模子首位，得分1554，超越Kimi K2.6（1484）、GLM-5.1（1535）、GLM-5（1402）以及MiniMax-M2.7（1514）。

DeepSeek-V4常识储备升级，但幻觉发生率上升。V4-Pro在全知概括评测策划（AA-Omniscience）中得分为-10，较V3.2推理版升迁11分，中枢收获于常识复兴准确率的显耀优化。V4-Flash得分为-23，举座水平与V3.2基本捏平。

相较于V3.2的幻觉率（82%），V4两款模子的幻觉问题杰出：V4-Pro幻觉率为94%、V4-Flash幻觉率为96%，意味着模子在未知问题场景下，险些齐会强行生成谜底。

DeepSeek-V4的运转资本低于顶级闭源模子，高于主流开源模子，较前代大幅高潮。完周详套东谈主工分析智能指数测评，V4-Pro的运转资本为1071好意思元，仅不到Claude Opus 4.7（4811 好意思元）的四分之一；但对比同类开源模子仍偏高，高于Kimi K2.6（948 好意思元）、GLM-5.1（544好意思元）、DeepSeek-V3.2（71好意思元）、gpt-oss-120B（67 好意思元）。DeepSeek-V4-Flash运转资本仅约113好意思元，资本上风显耀。

完成模范测评历程，V4-Pro输出Token浪掷量达1.9亿，属于本次测评中Token浪掷最高的模子之一；V4-Flash浪掷进一步攀升至2.4亿Token。即便订价偏低，高额的Token浪掷依然V4-Pro概括使用资本高于其他开源模子的中枢原因。

在其他评测中，大模子竞技场Arena.ai将DeepSeek-V4-Pro定性为“相较DeepSeek-V3.2的要紧飞跃”，在其代码竞技场中位列开源模子第3位、概括第14位。DeepSeek-V4-Pro在智能体网页设备任务中与GPT-5.4-high和Gemini-3.1-Pro处于团结水平。在其文本竞技场中，DeepSeek-V4-Pro位列开源模子排名第2、概括第14，与Kimi-2.6捏平。DeepSeek-V4-Flash位列开源模子排名第10、概括第14。

另一家测评方Vals AI称，DeepSeek-V4在其Vibe Code Benchmark（氛围代码基准）中以“压倒性上风”拿下开源权重模子榜首，较上代V3.2收尾约10倍性能跃升，开云体育甚而打败了像Gemini 3.1 Pro这么的顶尖闭源模子。DeepSeek-V4亦然独逐一个在Vibe Code Benchmar上破裂40%的开源权重模子。

相较于DeepSeek-V4的能力，外洋愈加眷注DeepSeek与华为的合营。

在DeepSeek-V4公布API价钱信息的最下方，官方出奇标注指出：“受限于高端算力，现在Pro的做事朦拢量终点有限，瞻望下半年昇腾（Ascend）950超节点批量上市后，Pro的价钱会大幅下调。”

DeepSeek在期间敷陈中称，V4已在NVIDIA GPU和华为昇腾NPUs平台上考证了邃密粒度的EP（巨匠并行）决策，相较于雄伟的非交融基线，其在通用推理任务上可收尾1.50~1.73倍的加快成果，而在对时延明锐的场景（如RL推演和高速代理做事）中则可达到1.96倍的加快成果。

而在V4发布后，华为昇腾也同步通知“超节点全系列产物支捏DeepSeek-V4系列模子”。据悉，昇腾950通过交融kernel和多流并行期间裁减Attention谋略和访存支拨，大幅升迁推感性能，集会多种量化算法，收尾了高朦拢、低时延的DeepSeek-V4模子推理部署。

关于DeepSeek这次与华为合营，商场策划机构Omdia半导体策划欺诈何辉暗示：“这对中国东谈主工智能行业而言意旨要紧。”

他进一步说谈：“华为昇腾芯片是中国自研水平最高、可替代英伟达的产物。DeepSeek-V4大模子适配搭载华为芯片，标志着中国顶级大模子如今已大约收尾国产化硬件落地运转。”

高盛分析师Christopher Moniz点评称，DeepSeek-V4预览版发布后，GPU及国产芯片板块应声走强。中枢眷注点之一是支捏V4模子的芯片底层架构：包括模子历练所使用的芯片，以及推理阶段搭载的硬件设置。华为搭载昇腾AI措置器的新一代东谈主工智能谋略集群，可适配运转DeepSeek-V4模子。这也意味着，中国自研AI硬件生态，正在为DeepSeek捏续迭代前沿大模子提供算力支捏。

DeepSeek这次期间阶梯转向，也印证了英伟达首席实施官黄仁勋此前的担忧：英伟达正濒临失去中国设备者生态的风险。

本月上旬，英伟达创举东谈主黄仁勋在接管Dwarkesh Patel专访时曾言：“如若DeepSeek先在华为平台上发布，那对好意思国来说将是祸害性的。”在黄仁勋看来，诚然DeepSeek是一款开源模子，相似可被用于英伟达产物上，但如若DeepSeek特意针对华为算力进行优化，在高端算力采购受限等局限下，英伟达将处于瑕玷。

与DeepSeek-R1不同，DeepSeek-V4并莫得激勉好意思国科技股大跌。晨星高等股票分析师Ivan Su暗示，DeepSeek-V4很难复刻推理模子R1当初的商场影响力，因为交游商场早已充分消化了预期：中国东谈主工智能期间具备竞争力，且使用资本更低。

Ivan Su还称，DeepSeek这次全新的产物定位，将国内其他开源大模子奏凯划入竞品行列。

布鲁金斯学会策划员Kyle Chan暗示，DeepSeek-V4令东谈主印象久了，因为它是一个接近开赴点进水平的模子，具有高效的100万Token高下文长度，况兼不错在华为的新芯片上运转。DeepSeek-V4莫得复制“DeepSeek-R1时期”，因为外界对中国AI能力的盼望值要比以往高得多。

免责声明：本文本体与数据仅供参考，不组成投资提议，使用前请核实。据此操作，风险自担。

封面图片起原：每经记者兰素英摄