评测组小编
-
6款AI大模型挑战高考数学!一款拿下148分,压轴题成分水岭
“6款主流大模型的解题能力整体表现呈现出清晰的梯队分化。” 6月7日,2026年全国高考数学科目考试落下帷幕,随后,多个数学相关的话题登上热搜。过去两年,AI行业迎来高速发展,大模…
-
Kimi Work不是中国版Codex
它帮我把马斯克“取关”了。 Kimi Work和CoWork。图片由AI生成 Vibe Working有可能是接下来比Vibe Coding更火的词。 就在上周,Kimi发布了新的…
-
Kimi Work内测三天,我的桌面变成了案发现场
上周拿到了Kimi Work的内测资格,说起来还挺巧的,那几天我正好在整理桌面文件。 做过的都知道这事有多烦,不说一个月了,就几天,桌面上密密麻麻几十上百个文件,截图一大堆乱七八糟…
-
93 亿参数打爆 800 亿,这个开源模型把 Midjourney 短板给秒了
开源模型Ideogram 4.0解决AI生图写字难问题 如果你用过 AI 生图,你应该经历过一种很微妙的崩溃。 你满怀期待地输入:“帮我做一张活动海报,标题写夏日大促全场五折。”几…
-
Kimi Work内测结论:是比Code们更懂中国职场
只能说,Vibe XXX这赛道还是太有的玩儿了…… Vibe Coding还火的不行呢,现在连专门给学生牛马党打造的Vibe Working也来了?? 昨天刷手机,看到Kimi搞了…
-
花1500美元,让AI“黑”自己的App:GPT-5.5成功率70%,部分模型0分交卷
一个专门为 AI 设计的“Bug 靶场”。 大模型会写代码已经不是什么新鲜事了。但如果给它们一个真实的移动应用、一份 APK 安装包以及有限的预算,它们能否像安全研究员一样主动发现…
-
Hermes桌面版真实体验:像极了Codex、全英文、profile切不了
Hermes官方终于出桌面版了! 智东西6月3日报道,宣布和英伟达合作后,Nous Research在昨日晚间,终于放出了他们开发的Hermes桌面版(预览)。 在此之前,Herm…
-
扣子3.0实测:手机就能远程遥控你电脑里的Agent
扣子,来了个大版本的升级——3.0正式发布! 现在做一个游戏,只需要给扣子看一眼就行。 例如我们给扣子发了个视频,然后只说了一句: 看一眼这个游戏,做一个类似《我的世界》的游戏项目…
-
MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它
MiniMax M3突然上线后,Token Plan的新计费方式也引起了热议。 众说纷纭之下,MiniMax官方也火速回应,提高了周用量限额,并对以前没有周限额的老用户保持了这个设…
-
MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受
前沿的 Coding 能力、1M 的上下文窗口,还有原生的多模态 就在今天,MiniMax 发布了新一代模型 M3。 这次最值得看的地方,是 M3 终于在同一个模型里凑齐了三种能力…
-
MiniMax M3 测评
短的结论:筑起高台摘星辰 基本情况: 在 4 月初,智谱发布的 GLM-5.1 彻底拉开了与 MiniMax M2.7 的差距,问鼎国产模型 Coding 王座至今。而彼时稀宇的下…
-
400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头
400TPS极速狂飙,开启生产级高效率Flash模型范式,直接一刀打穿Agent底价,把全球开发者惊艳到了。 世界上最遥远的距离,不是AI看不懂你的需求,而是你的经费,根本撑不到A…