评测
-
OpenClaw:先驱准备成先烈
本文是 OpenClaw 架构在应用层的风险 的延伸。Anthropic 发布了 Managed Agents 架构,验证我们的一些判断,继续扩展讨论一下。 我们的判断被验证了 上…
-
实测Images 2.0 : 10招玩转生图新王
OpenAI的Images 2.0可算是来了,而且效果可以说是以假乱真。 此前这个模型是以灰度测试的形式,供给各种ChatGPT的付费用户测试,可惜我一直没被灰度到。 OpenAI…
-
花1.5万、烧掉23亿Token,CTO让Claude一周“打穿”Chrome,实测结果:别等Mythos了,现有AI已经“高危”
Mythos 是否强大,也许已经不重要了。 如果你在网络安全圈混,最近一定被“Mythos”刷过屏——Anthropic 搞出了一个能挖 Bug 的 AI 模型,但因为怕被坏人滥用…
-
国产 AI 编程工具不完整调研分析报告
一、市场概览 国产 AI 编程工具已从”代码补全”阶段全面迈入”全流程自动化 + 智能体协作”时代。据 Stack Overflow…
-
普通网线也能跑万亿大模型!月之暗面抛出王炸架构,亲证:不用全买 H100!1T模型实测:延迟暴降64%!大模型推理“围城”攻破了!
编辑 | 云昭 在 AI 工程界,长文本推理一直是个“富贵病”。 为了让大模型回话快一点,厂商们不得不把数千颗昂贵的GPU塞进同一个机房,并配上天价的 InfiniBand 交换机…
-
Kimi 2.6 深夜正式发布:对标opus 4.6,刷新开源编程天花板
月之暗面正式上线并开源了新模型 Kimi K2.6,从官方公布的benchmark来看,代码能力追平或者超越GPT 5.4和opus 4.6,非常能打,当然与A厂刚发布Mythos…
-
国内AI编程工具横评:字节Trae、阿里通义灵码、百度Comate、腾讯CodeBuddy,谁才是真香之选四款工具
先交代一下背景。 我不是来凑热闹的。最近在做一个内部工具项目,主力环境是 Claude Code,用着挺顺手,但有个痛点一直解决不了——网络延迟。国内访问海外服务,速度不稳定,有时…
-
谷歌发布 Android CLI:AI Agent 让安卓开发效率提升3倍
GOOGLE · ANDROID CLI · 2026 谷歌发布 Android CLI:AI Agent 让安卓开发效率提升 3 倍 支持任意 AI 编程工具 · Skills …
-
花顶级模型的钱,拿到的可能是假货:AI 中转站灰产链揭秘
你以为自己在用Claude Opus 4.6写代码,但后台跑的可能是一个9B参数的国产小模型。你以为省了钱,其实你的每一条prompt正在被人存档,拿去训练竞品模型。你以为找到了平…
-
实测 Cursor 与 Claude Code!AI Coding 哪个更好用?
Claude Code 和 Cursor 两者都能做 AI Coding,但如果要究其根本,两者其实是完全不同的 AI 编程工具,本文就来帮大家做下区分,帮助你选择更加适合自己的 …
-
AGENT WORLD 是什么?字节的AI野心藏不住了,扣子2.5这一步跨的有点大
今年1月,扣子刚推出2.0版本。当时的核心升级是:让AI能做”长期计划”——不是你说一步它做一步,而是你告诉它一个目标,它自己拆解步骤、分阶段执行。4月7号…
-
OPUS 4.7 VS 4.6 实测:最值升级在 CODING 和 DEBUG
Claude Opus 4.7 正式上线,它到底比 Opus 4.6 强多少?值不值得立刻切?哪些场景应该升级,哪些场景继续用 4.6 更划算?——我们跑了 7 项真实测试,答案很…
