评测
-
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
OpenRouter Trending榜单冷不丁窜出一匹国产黑马,热度暴涨稳居全球第二。 定睛一看,原来是阶跃星辰新发的Step 3.7 Flash。 再一看,不只OpenRout…
-
花1500美元,让AI“黑”自己的App:GPT-5.5成功率70%,部分模型0分交卷
一个专门为 AI 设计的“Bug 靶场”。 大模型会写代码已经不是什么新鲜事了。但如果给它们一个真实的移动应用、一份 APK 安装包以及有限的预算,它们能否像安全研究员一样主动发现…
-
Hermes桌面版真实体验:像极了Codex、全英文、profile切不了
Hermes官方终于出桌面版了! 智东西6月3日报道,宣布和英伟达合作后,Nous Research在昨日晚间,终于放出了他们开发的Hermes桌面版(预览)。 在此之前,Herm…
-
扣子3.0实测:手机就能远程遥控你电脑里的Agent
扣子,来了个大版本的升级——3.0正式发布! 现在做一个游戏,只需要给扣子看一眼就行。 例如我们给扣子发了个视频,然后只说了一句: 看一眼这个游戏,做一个类似《我的世界》的游戏项目…
-
百度最强视觉识别模型来了!仅0.9B,文档解析能力超越Gemini、GPT
近日,百度正式发布文心衍生视觉识别模型PaddleOCR-VL-1.6。 在权威文档解析能力评测集OmniDocBench v1.6上,PaddleOCR-VL-1.6总指标达到9…
-
MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它
MiniMax M3突然上线后,Token Plan的新计费方式也引起了热议。 众说纷纭之下,MiniMax官方也火速回应,提高了周用量限额,并对以前没有周限额的老用户保持了这个设…
-
MiniMax 低调发布 M3 和 MiniMax Code,我们测完后有几点感受
前沿的 Coding 能力、1M 的上下文窗口,还有原生的多模态 就在今天,MiniMax 发布了新一代模型 M3。 这次最值得看的地方,是 M3 终于在同一个模型里凑齐了三种能力…
-
MiniMax M3 测评
短的结论:筑起高台摘星辰 基本情况: 在 4 月初,智谱发布的 GLM-5.1 彻底拉开了与 MiniMax M2.7 的差距,问鼎国产模型 Coding 王座至今。而彼时稀宇的下…
-
400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头
400TPS极速狂飙,开启生产级高效率Flash模型范式,直接一刀打穿Agent底价,把全球开发者惊艳到了。 世界上最遥远的距离,不是AI看不懂你的需求,而是你的经费,根本撑不到A…
-
MiniMax M3来了!12小时无人干预炼出4个模型,还把CUDA内核加速到9.4倍
今天,MiniMax正式发布了其新一代旗舰大模型MiniMax M3,在多个衡量编程与Agent能力的基准测试中达到前沿水平。在真实软件工程能力基准测试SWE-Bench Pro上…
-
说实话,我觉得Claude 4.8有点拉
就在今天凌晨,Anthropic 掏出来了他们最新的 Claude Opus 4.8。 距离 Opus 4.7 才过去一个多月,不得不说,Claude 上新的速度是越来越快了。 本…
-
发现了个宝藏 AI 算力平台TokenLX ,内置 190+ 模型!
最近和几个做 AI 出海的朋友聊天,大家已经很少去聊哪个模型又刷了榜。谈论最多的,是哪个模型调度平台好用、实惠、安全。 这话题我是一点都不意外。毕竟前不久全球大佬都在扎堆往 AI …
