评测
-
一分钟的奇迹与幻觉:实测世界模型Happy Oyster
“具备初步的世界状态跟踪能力,但不适合强约束、高可预测性的系统任务。” 作者丨冯逸飞 编辑丨冯逸飞 梁丙鉴 4 月 16 日,阿里发布了主打实时构建和交互的开放式世界模型产品 Ha…
-
连夜测了一波DeepSeek-V4,我发现它可能只剩“审美”这个短板了
DeepSeek-V4六维实测 大模型的圈子最近真的是大戏连连,Claude和OpenAI你方唱罢我登场,两位CEO更是化身戏精,在社交媒体上大打舆论战。 不过,今天所有的风头都被…
-
DeepSeek-V4和GPT-5.5第一波实测对决,结果出人意料
编辑:Aeneas KingHZ 昨夜,GPT-5.5果然按期发布了,全网没有白等。更炸裂的是,就在同一天,DeepSeek-V4紧随其后发布了!实测后,结果出人意料。 2026年…
-
是夯爆了还是拉完了?Deepseek V4第一波测评来了(附排行榜)
DeepSeek V4 预览版开源上线后,第一波来自第三方榜单的测评结果已经出炉。 多家测评显示,DeepSeek V4性能尤其在代码任务上冲进开源第一梯队,同时以“百万级上下文+…
-
实测在DeepSeek-V4上烧1000万token,我发现了3个惊喜和1个意外
今天,DeepSeek-V4开源并火速冲上Hugging Face模型榜首,号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果,我们进行了多维度…
-
实测DeepSeekV4:天下武功,唯快不破
V4不是模型新物种,但要撑起200亿美金估值的雄心 “跳票”许久的DeepSeek-V4,终于来了。 几个小时前,DeepSeek-V4预览版上线并开源。巧的是,几乎同一天,Ope…
-
DeepSeek V4 编程测评
短的结论:漫长等待的超值回报 基本情况: DeepSeek 确实是最早备战编程的厂家之一了,早在V2 时代就发过单独的V2 Coder 模型,直到V2.5 才合入主线。此后Deep…
-
实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%
Qwen3.6系列全员集结完毕。 智东西4月23日报道,昨晚,阿里通义千问团队宣布开源Qwen3.6-27B——一款270亿参数的稠密多模态模型,支持思考与非思考模式。 与阿里上一…
-
实测ChatGPT最新生图模型三大发现
AI第一次从包工头,变成了建筑设计师。 以前我们混互联网论坛时,常说「无图无真相」,意思是你说的话我不信,有本事就把图或照片发上来。 之所以会这样,原因很简单,当时Photosho…
-
实测GPT5.5 : 最强模型不是嘴炮,它真能干活儿
GPT-5.5,终于发布。 作为OpenAI当下最强的模型,这次更新的亮点是“为真实工作而设计”。 和过去的模型相比,GPT-5.5能更快理解使用者真正想做的事情,也能自己承担更多…
-
GLM-5.1、Qwen 3.6 Max preview 与 Kimi 2.6 国产大模型横向对决
2026 年上半年,国产大模型赛道正式告别了纯粹的参数竞赛,进入了工程落地与商业性价比的贴身肉搏阶段。 智谱 AI、通义千问与月之暗面推出的三款最新旗舰,分别在自主编程、通用智能以…
-
实测混元Hy3 preview:混元再出发,中型模型的务实之战
编者按:本文为 Hy3 preview 评测,评测环境为 WorkBuddy,评测内容基于真实任务执行结果。本次共测试三个场景:事实审计员、文档可视化、深度研究。 Hy3 prev…
