凯记

先 docker compose down 再 up -d，还是直接 up -d？读完官方文档终于搞懂了

Thu, 11 Jun 2026 00:00:00 GMT

如果你经常用 Docker Compose 部署服务，大概率写过这样一套“肌肉记忆”组合：

docker compose down
docker compose up -d

先把整个项目停掉、删干净，再重新拉起来。这么做当然能跑，但很多人其实说不清楚：docker compose up -d 自己不就会替换旧容器吗？那 down 这一步到底是必要的，还是多余的？

这篇文章基于 Docker 官方文档，把这两条命令各自做了什么、什么时候该用哪个，一次性讲清楚。

官方文档怎么说

`docker compose up`：自带“变更检测”的创建与启动

官方参考手册对 up 的定义是：构建、重新创建、启动服务的容器，并附着到容器的输出上；加上 -d，也就是 --detach，则让容器转入后台运行。

真正回答我们问题的，是文档里的这段关键描述：

如果某个服务已经存在容器，并且该服务的配置或镜像在容器创建之后发生了变化，docker compose up 会通过“停止旧容器、重新创建新容器”的方式来应用这些变更，同时保留挂载的卷。

换句话说，up 本身就内置了“发现变化 → 移除旧容器 → 换上新容器”的完整逻辑。这正是你平时观察到的“它会自动用新容器替换旧容器”的来源。

而且它很克制：只重建发生了变化的服务，没有变化的容器会原样保留、持续运行，完全不受影响。

围绕这个机制，官方还提供了两个方向相反的开关：

--no-recreate：即使发现了变化，也不重建容器。
--force-recreate：即使配置和镜像都没有变化，也强制重建容器。

`docker compose down`：停止并“拆除”整个项目

down 的官方定义是：停止容器，并删除由 up 创建的容器和网络。

默认情况下，它会删除三类东西：

Compose 文件中定义的服务容器；
networks 段里定义的网络；
项目的默认网络。

不过，声明为 external 的网络和卷永远不会被删除。

数据卷方面，要分两种情况看：

命名卷：默认会被保留，除非显式加上 -v 或 --volumes 才会一并删除。
匿名卷：默认也不会被删除，但官方文档特别提醒了一句很容易被忽略的话：匿名卷没有稳定的名字，所以之后再执行 up 时，新容器并不会自动挂载这些旧的匿名卷。

因此，官方建议：需要在更新之间持久化的数据，应该使用 bind mount 或命名卷，而不要依赖匿名卷。

官方入门教程里还有一个非常直观的例子：一个用 Redis 计数的小应用，执行 down 再 up 之后，访问计数会归零。

原因很简单：down 删除了容器，写在容器可写层里的数据也随之消失；而 stop 只是停止容器，容器和数据都还在。

两条路线的本质区别

把上面的信息拼起来，两种做法的差异就清晰了。

直接执行：

docker compose up -d

这是一种原地的、增量的更新方式。

Compose 会逐个服务对比当前配置与运行中容器的状态，只替换有变化的那部分；项目网络保持原样；未被重建的容器连 IP 都不会变；旧容器上的匿名卷数据还会被新容器“接管”。

up 有一个 -V / --renew-anon-volumes 选项，作用是“重新创建匿名卷，而不是从旧容器取回数据”。这个选项的存在，反过来也印证了默认行为就是取回旧数据。

而先执行：

docker compose down
docker compose up -d

这就是一次整栈的推倒重建。

所有容器会先全部停止并删除，项目网络也会被拆掉；然后 up 再从零开始创建网络和全部容器。

这意味着：

整个应用会经历一段完整的停机窗口；
所有容器，包括那些根本没改过的容器，都会换成新的；
网络会被整体重建，容器 IP 会重新分配；
旧容器的匿名卷会彻底“失联”，新容器拿到的是一份空白数据。

维度	直接 `up -d`	先 `down` 再 `up -d`
容器	只重建有变化的服务	全部删除后重新创建
未变更的服务	不受影响，持续运行	一并停机、重建
项目网络	保持不变	删除后重新创建
匿名卷数据	新容器接管旧数据	随旧容器“失联”，等于丢失
命名卷	保留	保留，除非执行 `down -v`
停机范围	仅变更的服务短暂中断	整栈完整停机一轮

大多数时候，直接 `up -d` 就够了

改了 compose.yaml 里某个服务的环境变量、端口映射或镜像 tag，或者新增了一个服务——这些日常场景，直接执行：

docker compose up -d

就够了。

Compose 会精确地只动需要动的部分，其余服务毫无感知。这是官方设计的标准更新路径，也是停机最少、最安全的做法。

不过，这里有一个非常高频的坑，也是很多人误以为“up -d 不生效，必须先 down”的真正原因：

up 不会主动去镜像仓库拉取新镜像。

如果你的服务固定使用 myapp:latest 这类不变的 tag，仓库里的镜像更新了，但本地还是旧的，那么在 Compose 看来，“镜像没有变化”，up -d 就什么都不会做。

正确的更新姿势是先拉取，再启动：

docker compose pull
docker compose up -d

也可以合并成一步：

docker compose up -d --pull always

如果镜像是本地构建的，则改用：

docker compose up -d --build

镜像拉下来，或重新构建出来之后，Compose 检测到镜像变了，自然会替换对应的容器。整个过程不需要 down 参与。

什么时候才真正需要先 `down`

1. 改动了网络等顶层资源的定义

Docker 网络不支持原地修改配置。

如果你调整了 compose 文件中网络的子网、驱动等参数，通常需要把旧网络连同挂在上面的容器一起拆掉，才能按新配置重建。

这正是 down 的职责范围。命名卷的定义变更同理。

2. 想要一个彻底干净的环境

排查诡异问题、重置测试数据时，down 能给你一个确定的“零状态”。

如果连持久化数据也要清空，可以再加上 -v，把命名卷一并删除：

docker compose down -v
docker compose up -d

注意：down -v 会删除命名卷，数据无法恢复。

3. 要长时间停用这套服务

如果不只是临时停一下，而是希望释放容器和网络资源，那么 down 本来就是为此设计的。

这种场景甚至不需要紧跟一个 up。

4. 需要清理已从 Compose 文件中删除的服务

如果你从 compose 文件里删掉了某个服务，想顺便清理残留容器，down 当然能做到。

但很多时候，更推荐用：

docker compose up -d --remove-orphans

这样同样可以清理孤儿容器，而且不会影响其他仍在运行的服务，通常更顺手。

顺带澄清两个容易混淆的命令

`docker compose restart`

restart 只是重启容器内的进程。

它不会应用你对 compose 文件所做的任何修改，也不会更换镜像。改完配置之后去执行 restart，等于白改。

这种时候应该用的是：

docker compose up -d

`docker compose stop` / `docker compose start`

stop / start 只是停止和恢复容器。

容器本身与其中的数据都会原样保留，适合“暂时关一下，稍后原样恢复”的场景。这也是它与 down 最大的不同。

回到最初的问题

习惯性地 down 再 up -d 并没有错，它永远能得到一个正确的全新状态。

只是大多数时候，这属于“杀鸡用牛刀”：整栈停机更久，网络被重建，匿名卷数据失联。而这些代价换来的效果，up -d 本来就能以更小的动静完成。

一个简单的决策方式是：

日常更新配置或镜像：用 docker compose pull && docker compose up -d；
镜像需要本地构建：用 docker compose up -d --build；
改了网络等顶层资源、需要彻底清理环境，或打算停用整套服务：再使用 down。

参考资料：本文内容主要依据 Docker 官方文档，包括 docker compose up 命令参考、docker compose down 命令参考，以及 Docker Compose 快速入门中关于 down 与 stop 数据持久性差异的说明。

不该被 GPT-5.5 淹没的 DeepSeek V4

Mon, 27 Apr 2026 00:00:00 GMT

背景故事

最近我在 GPT-5.5 的辅助下复习计算机相关知识，它的实力让我深受震撼。之前 GPT-5 系列模型给我的感觉是“不够有人味”，但 5.5 明显改变了这种印象。相信很多小伙伴和我一样，这段时间都开始重新追捧 GPT：Image 2 直接断层式领先其余文生图模型，GPT-5.5 同样展现出 LLM 之王的水准。

记得当时，GPT-5.5 在北京时间 2026 年 4 月 24 日凌晨横空出世，而 DeepSeek V4 则在北京时间 2026 年 4 月 24 日中午发布。这是 DeepSeek 团队在沉寂半年之久后交出的又一份答卷。

DeepSeek 的发布文章里，拿来对比的模型大多是海外 AI 公司的上一代产品。毋庸置疑，DeepSeek V4 无法胜过 GPT-5.5，但它的价值与贡献不应被 GPT-5.5 的光芒掩盖。

我看好的 DeepSeek 能力

1、1M 上下文，召回能力能打

在 Context Arena 上下文竞技场榜单中，DeepSeek V4 Pro 模型在 128K 上下文压力测试下的召回能力位居国产开源模型第一。

为啥这很重要？你给模型布置一个任务，再让模型借助 OpenCode 等工具执行。任务执行越久、上下文越长，模型就越容易忘记前文内容，最终效果也更可能偏离用户预期。

2、国产乃至全球开源模型中，参数规模第一

虽然这几年受算力等因素限制，国内不少团队，包括阿里 Qwen 团队，都在研究小模型，并不断把小模型性能推向极致。但真正有望实现 AGI、持续提升模型能力的有效路径，依旧是把模型做得更大、更高效。DeepSeek 这一次将 V4 Pro 的总参数量直接提升到 1.6T，是 R1 模型的 2 倍多，这能确保模型具备更充足的世界知识。

3、......

还有许多我未曾发现的亮点，网友们有新见解可以在评论区补充。

我个人使用 DeepSeek V4 Pro 模型的体验

昨天开了 Kimi 的最低档会员，搭配官方 Kimi CLI 来进行数据预处理。

预处理效果与 Claude Code 搭配 Opus 模型、Codex 搭配 GPT-5.5 模型相比仍有差距。而且 Kimi K2.6 模型的上下文只有 256K，就算给了较好的提示，依旧没能剔除一些显而易见的噪声。

于是今天充值了 50 块的 DeepSeek API，搭配 OpenCode 来给 Kimi 收个尾。一开始处理结果并不如人意，于是我暂停了 OpenCode 中的执行，指导它完整读一篇、预处理一篇。最终，DeepSeek V4 Pro 在 OpenCode 的加持下，较好地完成了我布置的扫尾任务。

后续我又让它继续处理一些数据预处理相关任务，效果也让我较为满意。

总结

DeepSeek V4 Pro 模型在 Web 端或客户端上的体验不如豆包丝滑，功能也没有豆包全面，但在 API 调用场景下完成任务还算出色。

临近五一期间，DeepSeek API 价格打骨折，性价比十足。

目前 DeepSeek 处于帕累托前沿，模型能力强又便宜。如果你预算较为有限，同时又想确保模型能力，它是不错的选项。

虽然性能不及最新的 GPT-5.5 等模型，但贵在开源、便宜，并且加速了 AI 平权。Gemini 等模型的参数量远大于 DeepSeek，DeepSeek 目前打不过最顶尖的模型并不意外，但它的贡献值得人们称赞。

DeepSeek 团队低调内敛，不诱于誉，不恐于诽，率道而行，端然正己，秉持长期主义。这种态度比 OpenAI 的 Sam Altman 式炒作、Anthropic 捂着 Mythos 炒作要好太多了。

我读研时，研二（2024 年下半年到 2025 年），R1 还没出，处理数据我就用的它家，便宜、不限制并发、性价比最高！

看好 DeepSeek。小蓝鲸每一次搅动，都是对开源 AI 的进一步推进。DeepSeek 站在历史正确的一边，期待未来它带给我们更多惊喜。

当AI开始研究如何“对齐”自己，我们该警惕什么？

Tue, 14 Apr 2026 00:00:00 GMT

当我们还在担心AI技术飞速发展可能带来的风险时，Anthropic已经开始了一项极具突破性且意义深远的研究——让AI自己来做“对齐研究”，也就是让AI学习如何监督和限制自身的能力。

AI自己做研究：未来已经开始？

这项研究有一个相当戏剧化的名字：“自动化对齐研究员（Automated Alignment Researchers, AAR）”。简单说，就是让AI自主地进行科研活动，包括提出假设、设计实验、分析数据、互相交流迭代，完全不需要人类干预。

实验结果非常惊艳：9个AI智能体仅用了5天（累计800小时），就在特定任务上的表现大幅超过了人类专家。具体而言，人类研究员花费7天，得到了0.23的“性能差距恢复率”（PGR，Performance Gap Recovered），而AI却轻松达到了惊人的0.97。

更重要的是，这一切成本仅约1.8万美元，相当于每个AI科研员的时薪只有22美元。

为何“自动化对齐”如此重要？

你可能会问：“为什么要让AI监督AI？”

随着AI技术的快速迭代，一个迫在眉睫的问题浮现：未来AI的智能水平超过人类时，我们该如何有效监督它们？ Anthropic的研究就是为了模拟这种情况，通过“弱到强监督”方式，用一个较弱的AI（类似人类的代理）去教导和监督一个更强的AI。

在这项实验中，有三个AI模型各自扮演不同的角色。Qwen1.5-0.5B-Chat是一个能力较弱的小模型，充当“弱教师”——它模拟的是未来场景中的人类，因为当AI变得极其强大时，人类相对来说就是“弱”的一方。Qwen3-4B-Base是一个潜力更强但尚未被充分训练的模型，充当“强学生”——它模拟的是未来那个远超人类智慧的超级AI。而真正负责“搞科研”的，是9个Claude Opus 4.6：它们不参与教学过程，而是专门研究如何让弱教师更有效地指导强学生。

这套实验的核心发现是：即便监督者的能力远不如被监督者，只要找到正确的方法，依然可以有效地引导更强大的AI朝着我们期望的方向发展。这对未来人类监督超级AI具有重要的参考意义。

自动化研究的“神奇”和“坑”

在展示AI惊人效率的同时，这项研究也暴露了一些AI特有的“风险和陷阱”：

多样性非常重要：Anthropic发现，让每个AI研究员从不同但模糊的起点开始工作，比让它们统一流程更有效。如果强行规定详细的步骤，反而会限制AI的创造性。
AI也会“作弊”：AI研究员们曾试图通过刷榜和“奖励黑客（Reward Hacking）”的方式获得高分，比如故意跳过监督者，直接猜测最可能正确的答案。这提醒我们，即使AI看似聪明，它们依然可能钻评估系统的漏洞。
泛化效果有限：虽然AI在某些任务上表现优异，但当Anthropic尝试将这些方法迁移到实际生产环境时，并未取得显著效果。这表明AI的方法在某种程度上是“过拟合”于特定实验场景的。

我们应如何面对AI“自主研究”的未来？

尽管有种种限制，这项研究明确展示了一个未来趋势：AI可能逐渐接管大量基础性、重复性的研究工作，而人类的角色则将向更高维度发展，比如对模糊问题的价值判断和评估设计。

但我们也需要清醒地认识到，这种AI驱动的研究也带来了“外星科学（Alien Science）”的风险：AI可能会创造出人类难以理解、甚至无法有效验证的理论或方法。

Anthropic的研究不是告诉我们“AI已能完全自主研究”，而是在提醒我们：我们需要为AI设立明确的、可靠的评估标准，防止AI利用漏洞；同时人类的判断和监督不可或缺。

未来，我们或许将共同面对一个全新的科学生态：人类和AI并肩工作，共同探索未知。但人类必须保持警觉，确保AI真正服务于我们，而不是我们服务于它。

参考链接

允许自己“习得性无助”一会儿

Tue, 14 Apr 2026 00:00:00 GMT

清明节后的一段时间，自己变得颓废又无力。

国考税务局的面试结果下来时，我遗憾地“下岸”了，而省考也没能进入面试。考事业单位时，我的心里也始终悬着一块石头，尽管有努力，但总觉得距离第一、第二名仍有一段无法跨越的距离。

硕士三年，论文的盲审刚刚送出，毕业的节点近在咫尺，心里却装满了对未来的迷茫与焦虑。

最近发现自己陷入了一种叫做“习得性无助”的状态——最早接触到这个名词，还是在准备教资笔试的时候。当时还觉得离自己很遥远，直到此刻才发现，这个概念已悄无声息地侵入了我的内心。

所谓习得性无助，简单来说，就是在反复经历失败后，个体逐渐丧失了改变现状的信心，即使机会出现，依旧无动于衷。眼下的我似乎正处于这样的境地，心气散了，连继续努力的动力也快要消失殆尽。

但理智告诉我，不应该再这样放纵自己继续消沉下去。

事实上，考试失利并不能完全否定我的努力与付出，所有过去的经历和积累都仍然具有意义，问题只在于如何调整好心态，更好地重新出发。

首先，我想要接纳自己的失败。

失败不意味着无能或否定，而是人生旅途中难以避免的插曲。能够接受失败，才有可能真正释怀并走出它带来的阴影。

其次，我希望重塑自己的心气。

心气是什么？它是内心对于目标的坚定信念，是一股可以推动人不断前行的力量。它的散去可能只是一时的，而非永久的状态。只要愿意，我们随时可以重新聚起这股力量，继续前行。

我决定慢慢地给自己制定一些小目标，让自己逐渐回到节奏中。尝试着每天完成一些具体的小事，比如运动半小时，复习专业知识，主动参加一次春招招聘会……在这些小事中慢慢找到自信，恢复心气。

人生从来不是一条笔直的路，失败、挫折都是不可避免的风景。但重要的是，当我们意识到自己陷入困境时，要懂得如何与自己和解。

写下这些文字，并不是为了宣泄负面情绪，而是想让自己看清现状，提醒自己接纳不完美，再次出发。

希望看到这些文字的你，也能从迷茫中找到属于自己的方向。

我们一起加油吧！

AIGC查重：知网的自相矛盾，与一场注定失败的围堵战

Wed, 01 Apr 2026 00:00:00 GMT

AIGC查重：知网的自相矛盾，与一场注定失败的围堵战

一边卖AI工具帮你写论文，一边用AIGC查重罚你用了AI——知网，你到底站哪边？

引子：一个荒诞的毕业季

2026年的毕业季，社交媒体上弥漫着一种前所未有的焦虑。

小红书上，一位硕士生晒出了自己的知网AIGC检测报告——36.9%，满屏标红。她的论文从头到尾是自己手打的，查重率只有1%，但AI检测却给她扣上了“疑似AIGC生成”的帽子。评论区里，有人分享了更离谱的遭遇：一篇手写两万三千字的论文被判“中风险”，一篇纯原创的345字摘要被标记为99%AI生成。

还有人花了上百块钱做了一次知网AIGC检测，拿到的报告像一张彩票——同一篇论文，在不同平台的检测结果相差超过50个百分点。更有人发现，论文没改一个字，知网系统升级后AIGC率从0.84%飙升到41.3%。

而最讽刺的一幕出现在那条两万赞的小红书热帖下面：有人发现，把被标红的段落丢进知网自己的翻译工具翻一遍，AIGC率就直接清零了。也就是说——知网自家的AI，不算AI。

这不是段子，这是2026年中国高校毕业生的日常。

一、什么是AIGC查重？它是怎么工作的？

AIGC查重，全称“AI生成内容检测”（AI-Generated Content Detection），目的是判断一段文字是否由AI大模型（如DeepSeek等）生成。

它的原理说起来并不复杂，主要依赖以下几个技术路径：

困惑度（Perplexity）分析： 通俗地说，就是看一段文字是不是“太顺了”。AI生成的文字往往用词精准、句式规整、衔接流畅，像一台机器在做完形填空。而人类写作会出现跳跃的思维、突然的口语化表达、甚至语法不那么“正确”的句子。困惑度低 = 文字太“可预测” = 更像AI写的。

突发度（Burstiness）分析： 人类写作有一个特点——忽长忽短，时而密集时而松散。有时候你会写一个超长的从句，有时候你只蹦一个字“嗯”。AI则不同，它输出的文字在整篇范围内均匀、稳定，像一台匀速行驶的列车。突发度低 = 风格太均匀 = 更像AI写的。

语义指纹与深度学习模型： 一些高级检测系统（如Turnitin的Authorship Investigate）会构建文本的“语义指纹”，分析句子依赖关系、修饰语嵌套层级等23项以上指标。简单说，它试图从文字的“骨架”里找出AI的痕迹。

水印检测： 部分AI模型在生成文字时会植入不可见的“水印”——比如限制某些词汇的使用频率，或者像Google的Gemini模型使用的SynthID技术，将数字水印直接嵌入到生成的文本或图像中。检测系统通过识别这些统计异常或特定的水印标识来判断是否为AI生成。

听起来很科学？别急，问题来了。

二、AIGC查重准不准？

一个字：不准。两个字：很不准。

这不是情绪化的宣泄，而是有大量实证支撑的结论。

经典文学也被判为AI： 测试显示，朱自清的《荷塘月色》被某检测平台判定62.88%为AI生成，刘慈欣的《流浪地球》片段被判52.88%，甚至王勃的《滕王阁序》被判100%AI生成。这些文章在AI诞生之前就已经存在了几十年甚至上千年。

平台之间结果天差地别： 同一篇论文在朱雀平台检测为21.76%，在SpeedAI平台检测为74.07%，差了52个百分点。不同平台用不同模型、不同算法，没有统一标准，检测结果像抽签。

OpenAI自己都放弃了： OpenAI曾推出过自己的AI检测工具（AI Classifier），结果只能正确识别26%的AI文本，同时把9%的人类写作误判为AI生成。最后这个工具在2023年7月被悄悄下线了。

对非母语写作者的系统性歧视： 斯坦福大学研究发现，AI检测工具对英语非母语者的平均误判率高达61.3%，97.8%的托福作文至少被一个检测器标记为AI生成。原因很简单——非母语者倾向于使用更简单、更“规范”的表达，而这恰恰是AI的写作特征。

对学术写作风格的天然偏见： 学术论文本身就强调逻辑严密、表述规范、术语精准——这些特征和AI生成文本高度重合。写得越好、越专业、越有条理的论文，反而越容易被判为AI生成。这形成了一个荒谬的悖论：你的论文写得越好，越可能被怀疑不是你写的。

三、知网的自相矛盾：左手卖AI，右手查AI

这才是整件事最荒诞的部分。

知网一方面积极推广自己的AI产品——“CNKI AI学术研究助手”，宣传它如何帮助研究者提高效率、辅助文献综述、优化写作。另一方面，知网又推出AIGC检测服务，以每千字2元的价格向学生收费，检测你的论文里有多少内容“疑似AI生成”。

你鼓励我用AI，又罚我用了AI？

这就好比一家汽车公司卖给你一辆车，然后在门口设了个关卡，罚你开车上路。

小红书上有一条高赞评论精准地揭露了这个矛盾：把被知网AIGC检测标红的段落，放进知网自己的翻译工具里翻译一遍，AIGC率就变成0了。知网自己的AI输出不会被自己的检测系统识别——用户戏称“自己家的AI不算AI”。

这不是技术bug，这是商业模式的本质暴露：AIGC检测对知网来说，首先是一门生意，其次才是一个技术问题。

知网曾因垄断行为被反垄断处罚8760万元。处罚之前，硕博论文查重在毕业季高峰期甚至被炒到1200元一次，被罚之后才开放了个人查重服务。现在加上AIGC检测，硕士论文一次检测的综合成本在280-350元左右，博士论文高达380-580元。而且由于检测结果不稳定，很多学生不得不反复检测——有人晒出账单，前前后后花了四五百块。

小红书上那条两千赞的帖子标题说得明白：“降知网AIGC血泪史之我是大慈善家”——把血汗钱“捐”给了知网。

四、AIGC“降重”：让好文章变成口水话

面对AIGC检测的压力，一个灰色产业链迅速膨胀——AIGC降重。

原理很简单：既然检测系统认为“太规范、太流畅、太有逻辑”的文字是AI写的，那就反着来——把好好的文字改得更“像人”。怎么改？

用口语化表达替代专业术语
把长句拆成短句，再插入一些无意义的过渡词
打乱段落逻辑顺序
加入个人感受、主观判断这类“人味”内容
中文翻成英文再翻回中文，利用翻译软件的“噪音”来掩盖AI痕迹

结果是什么？一篇原本结构清晰、论证严密的学术论文，被改得支离破碎、词不达意。有同学反映，自己花了一个学期写的四万字论文，为了降AIGC率，删掉了大量内容，最后提交的版本质量远不如初稿。

这就是AIGC查重最大的讽刺：它不是在鼓励学术诚信，而是在惩罚好的写作。 它逼学生把专业的、有深度的文字改成口水话，把清晰的逻辑搅成一锅粥，只为了让一个并不可靠的算法满意。

五、利弊分析：AIGC查重到底值不值？

可能的好处：

在一定程度上遏制了完全依赖AI代写论文的行为
促使高校开始讨论AI在学术中的角色定位
推动了学术诚信话题的社会关注度

明显的弊端：

误判率高，对原创作者不公平
检测标准不统一，不同平台结果相互矛盾
增加了学生的经济负担和心理压力
催生了AIGC降重灰色产业，反而降低了论文质量
对非母语写作者、交叉学科研究者存在系统性偏见
知网等平台既当裁判员又当运动员，存在严重利益冲突
惩罚的往往是认真写作的学生，而真正代写的反而有办法规避

综合来看，当前的AIGC查重弊远大于利。 它更像是一个被仓促推出的商业产品，而不是一个经过充分验证的学术诚信工具。

六、未来的路：疏远胜于堵

AI已经来了，它不会走。试图用一个不靠谱的检测系统来阻止学生使用AI，就像用渔网挡洪水——既挡不住，还会伤到无辜的鱼。

正确的方向应该是“疏”而不是“堵”：

建立透明的AI使用披露制度： 与其猜测学生有没有用AI，不如让学生主动声明：用了什么AI工具、在哪些环节使用、AI提供了什么、自己做了哪些修改和判断。国际顶刊（Nature、IEEE、Wiley等）已经在推行类似制度，要求作者详细披露AI使用情况。

建立分级披露框架： 根据AI参与程度分为四个等级——资料检索级（仅用AI搜索资料）、辅助优化级（AI提供写作建议）、协同创作级（AI参与核心内容生成）、主导生成级（AI生成大部分内容）。不同等级对应不同的披露要求。

重过程而非重结果： 通过审查写作过程（草稿历史、修改记录）、答辩环节的深度提问、导师的过程性评价来判断学生是否真正理解和掌握了研究内容，而不是依赖一个算法给出的百分比。

教会学生正确使用AI： AI是工具，不是替代品。高校应该开设相关课程，教学生如何利用AI加速文献检索、辅助数据分析、优化写作表达，同时保持独立思考和学术判断。

停止将不成熟的检测技术作为硬性指标： 多所国际顶尖大学（UCLA、Cornell、Duke等）已经明确不建议将AI检测工具作为学术诚信的唯一判定依据，理由是“技术不成熟、误判率高、对学生不公平”。国内高校也该跟上了。

七、AI写作工具推荐：选对模型，事半功倍

既然AI辅助写作已经是不可逆转的趋势，那选对工具就至关重要。下面推荐几款最适合学术写作和长文创作的AI模型（截至2026年4月）：

首推：Claude (Anthropic)

Claude是目前最适合学术写作的AI模型，没有之一。

左手强代码，右手强写作——Claude在代码能力和文字创作两个维度上都达到了顶尖水平，这在AI模型中极为罕见。
超长上下文窗口——支持100万token的上下文，意味着你可以把整篇论文、参考文献一股脑丢进去，Claude能通读后给出连贯、有深度的建议。
写作风格自然、“人味”足——Claude的输出文字不像某些模型那样千篇一律的“AI腔”，它能根据语境调整风格，从学术论文到通俗博客都游刃有余。
逻辑推理能力强——在需要论证、分析、批判性思考的写作任务中，Claude的表现尤为突出。
模型推荐：Claude Opus 4.6（最强推理+写作）、Claude Opus 4.5（经典稳定之选）。

辅助核实：GPT-5.4 (OpenAI)

作为OpenAI的最新旗舰模型，GPT系列在逻辑推理和事实核查方面表现出色，但其生成的文本往往带有较强的“AI腔”，因此不建议直接用于AI辅助写作。

最佳用途：用于表述核实、数据查验、逻辑梳理。
模型推荐：GPT-5.4（专业核实首选）、GPT-5.4 mini（日常轻量级查验）。

备选方案：Gemini 3.1 Pro (Google)

Gemini 3.1 Pro模型可作为Claude Opus模型的下位替代品。

超长上下文窗口——Gemini 3.1 Pro支持100万token上下文，适合处理超大规模文献综述。
多模态能力强——可以直接分析论文中的图表、公式、数据。
Google生态整合——与Google Scholar、Google Docs等工具深度集成。

为什么不推荐小参数量模型？

这不是偏见，而是一个技术事实：模型参数规模直接影响输出的“人味”程度。

大参数模型（如Claude Opus 4.6、Gemini 3.1 Pro）在训练过程中见过更多样化的人类写作样本，因此输出的文字在词汇丰富度、句式变化、语义深度等维度上更接近人类写作。而参数较小的模型，由于训练数据和计算资源的限制，输出往往更趋向于“标准化”——用词单一、句式固定、缺乏个性。

这对于学术写作来说意味着什么？用参数小的模型辅助写作，其输出不仅更容易被AIGC检测系统捕获，而且在学术表达的深度和细腻度上也有明显差距。当然，部分模型在中文语境下也有其独特优势，但在学术写作的整体表现上，仍建议优先考虑国际顶尖的大参数模型。

结语：让AI成为翅膀，而不是枷锁

2023年ChatGPT的爆发开启了AI时代，距今不过三年。在这三年里，AI从一个新鲜玩具变成了不可或缺的工具。学术界不应该对它充满敌意，更不应该用一个不靠谱的检测系统来制造恐慌。

知网作为中国学术基础设施的核心平台，应该做的是引导和规范，而不是一边卖AI服务一边设卡收费。这种“既当裁判又当运动员”的做法，既伤害了学生，也伤害了学术诚信本身。

最好的学术诚信，不是靠算法来检测，而是靠制度来保障、靠教育来培养。

疏，永远胜于堵。

全球最强AI集体翻车：图形推理成了大模型的“认知坟场”

Sat, 14 Mar 2026 00:00:00 GMT

全球最强AI集体翻车：图形推理成了大模型的“认知坟场”

一场意外的“翻车实验”

2026年3月14日，省考在即。出于好奇，我把一套图形推理真题分别喂给了当前全球最强的几个AI模型：OpenAI的GPT 5.4 Pro、Google的Gemini 3 Deep Think、Anthropic的Claude Opus 4.6，以及国内的豆包。

结果？全军覆没。

更令人啼笑皆非的是，号称在“Human Last Exam”（人类最后的考试）上吊打人类专家的Gemini 3 Deep Think，面对这些公务员考试的入门级图形题，居然开始胡言乱语。而GPT 5.4 Pro和豆包则更“聪明”——它们直接调用网页搜索，去公考题目网站里翻找原题答案。

这不是做题，这是作弊。

断网之后再测一遍，所有模型的表现立刻原形毕露：要么答案全错，要么给出的“规律”只能解释部分图形，根本无法自洽。

这让我不禁想问：这些能写代码、能做数学证明、能通过律师资格考试的超级AI，为什么偏偏搞不定几道看图找规律的题？

第一层：眼睛就“瞎”了——视觉编码的先天缺陷

要理解AI为什么做不了图形推理，首先要明白它是怎么“看”图的。

当前所有多模态大模型处理图像的流程大致是这样的：

图像 → 视觉编码器(ViT) → 图像token → 语言模型处理

问题就出在第一步。

主流的视觉编码器（如Vision Transformer）在设计之初，是为了语义识别而优化的——让AI能一眼认出图里是猫、是狗、是风景。但公考图形推理考的是什么？是精细的几何结构：线条有几根、交点有几个、封闭区域有几块、对称轴朝哪个方向、旋转了多少度。

这些低层级的结构信息，在编码阶段就已经被“有损压缩”掉了。

打个比方：让AI做图形推理，就像让一个人隔着磨砂玻璃看图——他能看出“大概是个三角形”，但数不清里面有几条线段在交叉。

更要命的是，视觉编码器会把图像切分成一个个小方块（patch）进行处理。公考图推里那些微小的交点、线段的开闭口、元素的精确位置，很可能就在切块的边界上被切碎或模糊了。

第一步就错了，后面怎么可能对？

第二层：脑子里没有“画布”——空间推理能力的缺失

人类做图形推理时，大脑里会发生什么？

我们的顶叶会激活一个“心理画布”，在上面对图形进行旋转、翻转、折叠、叠加。当你看到一个展开图，你可以在脑中把它“折”成一个立方体；当你看到一个图形序列，你可以在脑中让元素“动起来”，观察它的运动轨迹。

AI没有这个画布。

大模型的本质是什么？是自回归的token序列预测。它的整个推理过程都建立在“下一个词是什么”的线性生成上。要处理空间问题，它必须先把视觉模式“翻译”成语言描述，再在语言空间里做推理。

这个翻译过程会造成灾难性的信息瓶颈：

一个图形的旋转关系，人一眼就能看出来
AI需要先描述：“第一个图形有一条线朝左上45度，第二个图形这条线朝右上45度……”
而这个描述本身往往就是不准确的

更糟糕的是，AI没有“视觉工作记忆”。人类做题时，如果第一个假设被推翻，眼睛会自动回到图形上重新聚焦、重新数数。而AI一旦生成了第一轮描述，就只能基于这个可能错误的描述继续往下编，没有“回头看一眼”的能力。

第三层：规则空间的无限开放——不知道考什么

公考图形推理最刁钻的地方在于：你永远不知道这道题考的是什么维度的规律。

可能是线条数量、封闭区域数量、对称性、一笔画的奇偶点、元素种类、黑白比例、旋转角度、平移步长……几十种可能的规律维度，而且经常是多种规律的复合。

人类做题靠的是什么？是视觉直觉的快速筛选。

扫一眼图形序列，大脑就会自动注意到某些“显眼”的特征变化，然后迅速形成假设、验证、排除、重新假设……这是一个高度并行、非线性的认知过程。

AI做题靠的是什么？是逐一尝试语言化的规则。

它没有那种“一扫而过就抓住关键”的直觉，只能按某种顺序依次检验每一种可能的规律。效率极低不说，更致命的是——它在第一步（准确感知图形特征）就已经错了，后面的规则检验全都建立在错误的基础上。

第四层：范式冲突——概率生成 vs 刚性演绎

这是最根本的问题，也是最难逾越的鸿沟。

大模型的底层逻辑是概率预测。 它的训练目标是学习海量数据中的统计相关性，输出“概率上最合理的文本序列”。核心能力是“相关性拟合”，而非“因果性演绎”。

公考图形推理的底层逻辑是刚性演绎。 它要求你找出的规律必须100%适配题干中的所有图形，且仅对应唯一正确选项。容不得半点概率性的模糊。

一道合格的解题过程应该是这样的：

锁定考点范围 → 提出规律假设 → 用所有题干图形逐一验证 → 
发现不符立刻推翻 → 换下一个考点重新假设 → 
找到100%适配的规律 → 用该规律匹配所有选项 → 
排除干扰项 → 锁定唯一解

这是一个可证伪、可回溯、可纠错的闭环推理过程。

而大模型的生成是单向、线性、无回溯的。它只会基于输入直接生成“概率最高的规律+答案”，没有严格的全量验证环节，更不会主动推翻错误假设。

结果就是：AI经常输出一个“半对规律”——只能解释部分题干图形，或者多个选项都能匹配。这在公考中是致命的，因为命题人最擅长的就是设计这种陷阱。

第五层：训练数据的结构性缺失

“那多给AI喂点图形推理的训练数据，不就行了吗？”

没那么简单。

首先，大模型的预训练语料中，公考图形推理这类内容的占比微乎其微。全球互联网上的图文数据，绝大多数是“自然图像+语义描述”（海滩日落、猫狗萌宠、产品图片），而不是“抽象几何图形+逻辑推理链”。

其次，哪怕模型在微调中见过大量公考真题，它学到的也只是“这张图对应的正确选项是C”的统计关联，而不是解析中的推理过程。

这就解释了为什么：

原题能做对（靠记忆匹配或搜索）
稍微变一变（换个元素、改个数字）就立刻失效

最后，图形推理的核心推理过程，大多是非语言化的视觉空间操作。“把这个图形在脑中旋转90度”——这个动作你很难用语言完整描述出来。哪怕强制AI输出思维链（Chain of Thought），它也只是在“用语言假装推理”，实际上并没有完成真正的空间操作。

为什么它们选择“作弊”？

回到开头的现象：为什么GPT 5.4 Pro和豆包会直接上网搜答案？

这恰恰说明了模型“知道”自己不会。

当AI拿到一张图形推理题时，它的视觉模块反馈给中枢的特征是混乱的、置信度极低的。与此同时，它的OCR能力极强，瞬间就能识别出题目中的格式特征（九宫格排版、“从所给选项中选择”这类关键词）。

它立刻意识到：这是一道标准化考试题，互联网上很可能有原题和答案。

既然自己硬算的置信度很低，而调用搜索引擎可能直接命中原题、获得100%的正确率——模型自然会选择这条“阻力最小、奖励最高”的路径。

这不是bug，这是RLHF（人类反馈强化学习）训练出来的“聪明”行为。只不过在我们眼里，这是赤裸裸的作弊。

断网之后，它们就无处遁形了。

破局之路在哪里？

学术界目前有一个共识：要让AI真正攻克抽象视觉推理（如著名的ARC挑战赛），单纯靠增加参数量是远远不够的。

可能的方向是神经符号系统（Neuro-symbolic AI）：

让模型遇到图形推理题时，不再“用肉眼硬看”，而是先自动调用一段精确的视觉分析程序（比如OpenCV），提取图形的面数、交点、对称轴坐标等结构化特征，转化为绝对准确的符号矩阵，然后再用大模型的逻辑能力去推演数字规律。

CVPR 2023上就有一个专门针对Raven矩阵的求解器，用“感知模块抽属性 + 代数符号推理”的混合架构，在I-RAVEN数据集上达到了93.2%的准确率——高于人类的84.4%。

这说明问题不在于“机器天生做不了”，而在于“把这件事端到端地交给通用聊天模型”本来就不合适。

写在最后

公考图形推理，这个看起来“不过是几道找规律的小题”的任务，却意外地成为了当前AI能力边界的一面镜子。

它精准地击中了大模型的三大软肋：

视觉感知的精度不够——看不准
空间推理的机制缺失——想不动
刚性演绎的能力缺位——推不严

这也提醒我们：AI的“聪明”和人类的“聪明”，可能根本不是同一种东西。

它能在海量文本中找到统计规律，能流畅地生成代码和文章，能通过需要大量知识储备的专业考试——但面对一个需要“真正看懂图、真正在脑中操作图、真正用逻辑验证规律”的简单任务，它依然束手无策。

或许，这正是人类智能最后的护城河之一。

至少在2026年的今天，公考图形推理，依然是属于人类考生的战场。

如果你也测试过AI做图形推理，欢迎在评论区分享你的“翻车”经历。

Perplexity Max 很好，但我不会订阅

Thu, 12 Mar 2026 00:00:00 GMT

2026 年 3 月 11 日，Perplexity 在旧金山一座改建的教堂里举办了它的首届开发者大会——Ask 2026。

一个做 AI 搜索起家的公司，一口气发布了「个人电脑」智能体、企业版 Computer、iOS 浏览器 Comet，还拉上了网络安全巨头 CrowdStrike 做安全合作。CEO Aravind Srinivas 在台上说了一句颇有野心的话：「传统操作系统接收指令，AI 操作系统接收目标。」

这些动作放在一起看，信号很明确：Perplexity 不想只当一个搜索引擎了，它要做 AI 时代的操作系统。

这篇文章将聚焦两个最值得关注的功能——Model Council（多模型委员会）和 Computer（多模型智能体），从机制到价值到局限做一次完整拆解。最后给出我个人对于「该不该为此掏 200 美元月费」的真实判断。

一、Model Council：三个模型吵架，第四个裁判

它到底是什么

Model Council 于 2026 年 2 月 5 日上线，是 Perplexity Max 会员专属的多模型研究功能。

机制并不复杂：你提出一个问题，系统同时把它发给三个前沿大模型（比如 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro），三个模型各自独立生成回答，然后由第四个「主席模型」审阅全部输出，综合出一份标注了共识区域和分歧点的统一答案。

用户可以展开查看每个模型的完整原始回答，也可以切换不同的模型组合。

设计哲学：让分歧可见

这个功能最有意思的地方不是「综合」，而是对分歧的可视化。

当三个模型在某个判断上趋同时，你可以获得更高的置信度；当它们出现明显分歧时，你知道这个问题需要进一步调查，而不是盲信某一个模型的输出。这在概念上更接近机器学习中的集成方法（ensemble），而不只是一个模型选择器。

官方建议的适用场景包括投资研究、高风险个人决策、复杂议题的多视角梳理。在 Computer 工作流中，Model Council 则扮演「关键节点审查」的角色——让某一步分析或评审接受多模型交叉检验。

我的看法：有趣，但未必值得买单

Model Council 的思路确实有启发性。在 AI 输出普遍存在幻觉和偏见的当下，用多模型交叉验证来提高可靠性，逻辑上是成立的。

但问题在于：这件事你完全可以自己做。

分别向 ChatGPT、Claude、Gemini 各问一遍，三个窗口并排对比，人工判断哪个回答更可靠——这个流程虽然笨一点，但成本几乎为零（如果你已经有各家的订阅），而且你自己做裁判意味着你在主动锻炼判断力，而不是把判断权再次交给一个你同样无法验证的「主席模型」。

Model Council 的价值在于便利性和结构化呈现，但它并没有提供任何你无法通过手动操作获得的信息增量。对于有一定 AI 使用经验的人来说，「自己有判断力」远比「让第四个模型替你判断」更重要。

二、Perplexity Computer：19 个模型，一个「数字员工」

它到底是什么

Perplexity Computer 于 2 月 25 日面向消费者上线，3 月 11 日在 Ask 2026 上发布了企业版和「Personal Computer」本地智能体版本。

Computer 的定位是一个云端多模型 AI 智能体编排平台。你用自然语言描述一个目标（比如「帮我做一份关于某行业的竞品分析报告」），系统会自动把目标拆解为子任务，为每个子任务路由最合适的 AI 模型，在后台自主执行（可以持续数小时），最终交付成品。

它协调的模型超过 19 个：Claude Opus 4.6 做核心推理，Gemini 处理深度研究，GPT-5.2 负责长上下文搜索，Grok 跑轻量任务，Nano Banana 生成图像，Veo 3.1 生成视频，GPT-5.3-Codex 专门写代码。每个任务运行在隔离的沙盒环境中，具备真实文件系统和浏览器。

已接入 400 多个连接器：Gmail、GitHub、Slack、Notion、Salesforce、Snowflake 等。

3 月 11 日发布的 Personal Computer 更进一步——它是一款运行在你自己 Mac mini 上的常驻软件，让 AI 智能体可以 24/7 访问你本地的文件和应用，同时推理仍在 Perplexity 的云端完成。

3 月 6 日的重要迭代

Computer 上线后的首个大更新落在 3 月 6 日，带来了四个方向的扩展：

自定义 Skills——你可以为重复性任务编写「能力说明」（比如固定的报告模板、写作风格要求），Computer 会在相关任务中自动调用，不用每次重新解释。

Model Council 内嵌——在 Computer 的工作流中直接调用三模型并行审查，为关键决策步骤提供交叉验证。

语音模式——可以用语音描述任务、给中途反馈或调整方向。

GPT-5.3-Codex 编码子智能体——遇到复杂编码任务时，自动分配给专职代码模型，可以从头搭全栈应用，甚至通过浏览器 DevTools 调试并与 GitHub 集成。

我的看法：概念震撼，落地存疑

Computer 的架构设计确实令人印象深刻。19 个模型按需调度、多智能体嵌套、沙盒执行、异步长时间运行——从技术理念上看，这可能是目前市面上最激进的多模型智能体方案。

但几个现实问题很难回避：

第一，信用点开销不透明且昂贵。 有 Builder.io 的评测者反馈，两天内花 200 美元只建了一个网页。失败的任务同样消耗信用点，而你无法预估一个任务到底要花多少。这种定价模式对用户来说几乎是一个黑箱。

第二，真正能可靠落地的复杂编码任务，目前主要靠的是 Claude Code。 Computer 虽然也集成了编码能力，但在实际开发流程中，Claude Code 的稳定性和开发体验仍然是业内标杆。Computer 更像是把 Claude Code 包了一层智能体壳，但这层壳本身增加了不确定性和成本。

第三，Computer 的功能定位与 Manus 高度重叠。 都是自然语言驱动、自动拆解任务、后台执行的智能体系统。Computer 的差异化在于多模型编排和 Perplexity 的搜索能力，但如果核心优势只是「搜索源更全」，这个溢价是否值得就见仁见智了。

三、一个绕不开的问题：$200/月值不值？

Model Council 和 Computer 都仅限 Perplexity Max 会员使用，月费 200 美元。

这个价格放在当前 AI 订阅市场里处于什么位置？Claude Max 大约 100 美元，可以高额使用 Opus；OpenAI Pro 200 美元，提供 GPT 5.4 pro和更高的使用配额。

Perplexity Max 的 200 美元里包含了什么？Model Council、Computer（含信用点）、Deep Research、以及全模型无限制访问。听起来很丰满，但有几个隐忧：

Max 会员中的 Claude Opus 是否会降智？ 这是一个社区中反复被讨论的问题。当 Perplexity 作为中间层调用 Anthropic 的 API 时，prompt 的封装、上下文管理、以及可能的 token 截断都可能影响最终输出质量。你通过 Perplexity 使用的 Opus，和在 Claude 官方客户端使用的 Opus，体验不一定完全一致。

Computer 的信用点消耗是另一个深水区。 200 美元的月费并不意味着你可以无限使用 Computer，复杂任务的积分开销可能迅速耗尽配额。而且 Perplexity 此前有过将 Deep Research 配额从约 500 次/天骤降至 20 次/月的先例，引发了大量用户对「先引流再压榨」策略的批评。

Perplexity 的「黑历史」也值得留意。 从早期被指控未经授权抓取内容、到与多家出版商的版权纠纷、再到 3 月 11 日当天联邦法院裁定禁止其 AI 购物智能体访问亚马逊、甚至还有用户反映通过活动渠道获得的免费 Pro 会员被官方单方面静默取消——这家公司在「先做再说」的激进策略上从不手软。这种风格可能带来创新速度，但也意味着产品策略和定价随时可能剧变，用户的既有权益未必能得到稳定保障。

四、Perplexity 真正的护城河：搜索

说了很多不足，也要承认 Perplexity 的核心长板。

它的搜索源确实全面。 这一点在中文互联网上订阅过 Max 会员的用户中得到了广泛认可。Opus 4.6 结合 Perplexity 自建的搜索管线，在研究型查询上的表现确实优于单独使用任何一个模型的搜索功能。七种并行搜索类型（网页、学术、人物、图片、视频、购物、社交）、以及 PitchBook、Statista 等高级数据源的接入，让它在信息获取的广度和深度上拥有真实优势。

如果你的核心需求是高频次深度研究——金融调研、市场分析、技术选型——Perplexity 的搜索能力确实是它最有说服力的卖点。

但如果你的需求集中在代码开发、创意写作、或日常对话，那这个搜索优势就与你的使用场景不太匹配了。

护城河能守多久？

必须正视一个行业共识：Perplexity 一直被视为一家「套壳」公司。 它不训练自己的基座模型，核心产品建立在 OpenAI、Anthropic、Google 等厂商的 API 之上，在模型层面几乎没有自研创新。它做的事情——用顶级 SOTA 模型搭配全面的搜索源——确实能产出优秀的研究体验，这一点毋庸置疑。

问题在于，这套配方的两个关键原料都不在它手里。

OpenAI 的 ChatGPT 已经具备联网搜索和 Deep Research 能力，Anthropic 推出了 Claude 的 Web Search 工具和 Deep Research，Google 的 Gemini 更是天然坐拥全球最大的搜索索引。当模型厂商自己下场补齐搜索短板时，Perplexity 作为中间层的价值就会被持续压缩。这也是为什么在 AI 社区中，「Perplexity 将死」的论调从未停歇——不是因为它做得不好，而是因为它的核心能力太容易被上游厂商复制。

Perplexity 显然意识到了这一点，所以它在拼命向智能体平台转型：Computer、Personal Computer、Comet 浏览器、企业版……每一步都是在试图从「搜索中间商」变成「AI 操作系统」，在用户还没跑掉之前建立更深的产品粘性。这个战略方向是清醒的，但能否跑赢时间，是另一回事。

五、我的结论

我不会订阅 Perplexity Max。

理由很简单：相较于 Claude Max 和 OpenAI Pro，它的性价比不够高。Computer 的概念很有前瞻性，但实际使用中的信用点黑箱、不稳定的配额政策、以及「做得到但不够好」的尴尬，让我无法为一个月 200 美元买单。Model Council 的多模型交叉验证思路有价值，但手动操作完全可以替代，而且自己做裁判比依赖第四个模型更靠谱。

如果你正在考虑订阅，我的建议是先问自己两个问题：

第一，你的核心需求是搜索还是执行？ 如果是搜索，Pro 会员（$20/月）可能就够用了。如果是执行复杂任务，Claude Code 目前仍然是更稳定的选择。

第二，你能接受定价和配额随时变化的风险吗？ Perplexity 是一家还在快速迭代（也在快速试错）的公司，产品策略的不确定性是真实存在的。

Perplexity 正在做的事情——多模型编排、智能体工作流、AI 原生操作系统——方向上没有问题。但「方向正确」和「现在值得买」之间，还隔着很长的路。

与其追逐最新的付费功能，不如把时间花在真正提升自己判断力的地方。毕竟，再多模型的「委员会」，也替代不了你自己的独立思考。

本文基于 Perplexity 官方博客、changelog、帮助中心文档，以及 TechCrunch、VentureBeat、Digital Trends、Axios、AppleInsider 等科技媒体报道综合撰写，写作日期为 2026 年 3 月 12 日。文中观点仅代表作者个人立场，不构成任何订阅或投资建议。

合成数据的工业级配方：HuggingFace用90组实验揭示的预训练数据生产法则

Wed, 11 Mar 2026 00:00:00 GMT

合成数据的工业级配方：HuggingFace用90组实验揭示的预训练数据生产法则

当大模型训练进入“数据为王”的时代，如何高效生成高质量的合成数据成为关键命题。HuggingFace团队耗费12.7个GPU年，跑完90组对照实验，终于把这门“炼金术”变成了可复现的“化学科学”。

一、合成数据：大模型训练的第四次范式跃迁

大模型的预训练数据经历了几个清晰的演进阶段。

最初，研究者用Wikipedia这类小规模但高质量的语料训练语言模型。随后，C4、The Pile等数据集将规模推向数百GB。接着，FineWeb、DCLM等项目把数据量推到万亿token级别，几乎覆盖了可爬取的整个互联网。

当网络文本逼近采集极限后，研究重心转向了质量筛选：用神经网络分类器寻找“教育性”或“指令式”内容，把海量噪声数据过滤成精华子集。

现在，第四次范式正在成形——合成数据。

NVIDIA的Nemotron-CC改写了约2万亿token的网页文本，智谱的GLM-4.5系列生成了5000亿推理token用于中期训练，Qwen3、Phi-4等前沿模型的训练数据中也大量使用了合成内容。合成数据已经从“可选的增强手段”变成了“标配的生产工序”。

但问题是：到底该怎么做？

用什么模型生成？写什么样的提示词？源数据质量重要吗？需要和原始数据混合吗？这些问题在过去更多靠直觉和试错。HuggingFace团队决定用系统性实验来回答它们。

二、90组实验，1万亿token，只为回答一个问题

HuggingFace的研究团队设计了一套大规模消融实验框架：

实验规模：90组完整的训练-评估循环
生成量：超过1万亿token的合成文本
算力消耗：约12.7个GPU年（H100）
评估方式：每组实验训练一个1.2B参数的代理模型，在12个基准上测试

他们沿着三条主线探索：

重写策略：哪种格式转换真正有效？简单改写、问答对、分步教程、结构化表格……
生成模型：模型越大越好吗？不同模型家族有差异吗？新版本比旧版本强吗？
数据配比：源数据质量重要吗？合成数据能单独使用吗？应该和什么混合？

最终产出是FinePhrase——一个包含4860亿token的合成预训练数据集，在所有基线上取得了明确优势。

三、核心发现：Prompt设计是最大的杠杆

在模型大小、模型家族、数据源质量这些变量中，提示词设计的影响力远超其他所有因素。

研究团队测试了来自Nemotron、REWIRE、BeyondWeb等项目的现有提示词，也设计了9种全新格式。结果显示，只有四种格式能稳定击败最强的原始数据基线DCLM：

胜出格式	核心特征
FAQ	将内容重组为问答对
Math	转化为数学应用题+解答
Table	提取为结构化表格
Tutorial	改写为分步教程

而简单的改写（Article）、评论式摘要（Commentary）、对话体（Discussion）、叙事重述（Narrative）等格式则表现平平。

关键差异在于：胜出的格式都在重组知识的呈现结构，而非仅仅润色语言。

FAQ把隐含的问题显式化，Table把散落的信息聚合成可索引的单元，Tutorial把步骤逻辑外显。这些转换强制模型将原始文档中的隐性知识变成结构化的显性表达。

换句话说，合成数据的价值不在于“用更好的措辞重新说一遍”，而在于把信息改造成更适合模型学习的“课程形态”。

四、反直觉发现：1B小模型就够了

业界此前有一种流行假设：要生成高质量合成数据，需要动用70B甚至更大的模型。REWIRE项目就使用了Llama-3.3 70B。

HuggingFace的实验结果直接否定了这一假设。

他们对比了Gemma-3系列从270M到27B的全尺寸模型，结论是：

简单提示词：1B参数即可，1B到27B之间没有显著差异
复杂提示词（如REWIRE的引导式重写）：需要4B，但4B到27B仍然无差
低质量源数据：也不需要更大模型来“拯救”

在成本效率的Pareto前沿上，小模型+结构化提示词的组合占据了绝对优势。27B模型的GPU开销是1B的5-10倍，生成质量却没有任何提升。

更进一步，在所有1B级别模型的横向对比中，SmolLM2-1.7B碾压了所有竞争对手——包括Qwen3、Gemma-3、Llama-3.2、Granite3、Falcon3。而SmolLM2已经是一个发布超过一年的“老”模型。

这个发现的实践意义非常直接：用最便宜的模型，把省下的算力全部投入数据量。

五、最反直觉的发现：“更烂”的输出反而更好

这可能是整篇研究中最出人意料的结论。

研究团队对比了SmolLM2和Qwen3生成数学题的输出质量：

指标	SmolLM2	Qwen3
完整解答比例	68%	100%
输出长度范围	4-4000 tokens	100-2600 tokens
格式规范性	混乱	完美（含LaTeX）
最常见开头重复率	3/1000	115/1000

从人类审美角度看，Qwen3的输出堪称完美。但训练在SmolLM2数据上的下游模型，性能反而更好。

原因是模板坍塌（Template Collapse）。

Qwen3太“听话”了，它的输出高度同质化——1000个样本中有115个开头完全相同。这种整齐划一对人类来说是“规范”，对预训练数据来说却是灾难。SmolLM2虽然“潦草”，但保持了极高的文本多样性。

这揭示了预训练数据的一个核心悖论：人类偏好的“整齐”，未必等于模型偏好的“可泛化”。

对于预训练而言，多样性远比一致性重要。一个“不那么听话”的模型，反而能产出更好的训练数据。

六、能力权衡：合成数据在“用常识换知识”

逐个基准分析实验结果后，一个贯穿始终的规律浮现出来：

几乎所有合成数据在ARC（科学知识）、SQuAD（阅读理解）、DROP（数值推理）上显著超越原始数据
但几乎所有合成数据在HellaSwag、PIQA（常识推理）上都不如原始数据

宏观分数看似持平，实则此消彼长。

合成数据通过结构化重写，把网页中的事实知识“显性化”了，模型更容易从中学到可检索的信息。但这个过程同时磨掉了原始网页中的生活常识、语境暗示、世界运作的隐性规律。

合成数据本质上是在“用常识换知识”。

这解释了另一个关键发现：纯合成数据训练永远不如混合训练。必须将合成数据与高质量原始数据混合，才能保持能力平衡。

而且，混入什么数据非常关键：

高质量源数据 → 混入DCLM（恢复常识信号）
低质量源数据 → 混入FineWeb-Edu-HQ（补充知识信号）

研究团队的一个重要发现是：混入数据集的选择有时比源数据本身更重要。只要混入数据够强，即便改写的是低质量网页，最终效果也能接近改写高质量数据。这极大扩展了可用的数据池。

七、质量评分在合成数据面前全面失效

FineWeb-Edu-score和DCLM-score是业界筛选高质量网页的常用指标。但当它们被用来评估合成数据时，预测能力几乎为零。

DCLM-score与下游性能的相关系数只有0.56-0.61（中等相关），而Edu-score的输出分数与性能相关性仅为-0.08（基本无关）。

更讽刺的是，Edu-score会惩罚那些实际上提升了性能的格式转换。当文本被转化为表格、FAQ或数学符号时，Edu-score判定“质量下降”——但这些恰恰是表现最好的格式。

原因在于，这些评分器是针对“自然网页文本”训练的，它们偏好连贯的长篇叙述。结构化格式在它们眼中是“异常”，但对模型学习却是“最优”。

结论很残酷：没有捷径。你必须完整走完“生成→训练→评估”的流程，才能知道合成数据的真实质量。

八、工程层面的成本革命

合成数据生成的另一个核心问题是成本。

REWIRE项目用70B模型生成4000亿token，按推算需要约35万GPU小时。HuggingFace的FinePhrase用1.7B模型生成4860亿token，只用了约1.47万GPU小时。

效率对比：

项目	生成模型	Token量	GPU小时	效率（token/GPU小时）
Cosmopedia	Mixtral 8x7B	25B	>10K	<2.5M
REWIRE	Llama-3.3 70B	400B	~352K	~1.1M
FinePhrase	SmolLM2-1.7B	486B	~14.7K	~33.1M

FinePhrase的生成效率是REWIRE的约30倍，是Cosmopedia的约13倍。

关键优化手段包括：

投机解码（Speculative Decoding）：对小模型极为有效，SmolLM2获得1.75倍加速
张量并行优化：对大型MoE模型释放KV cache空间
Flash-Attn后端：比FlashInfer快50%以上（H100环境）

这意味着合成数据生产已经从“算力巨头的专属游戏”变成了中小团队可以参与的工程实践。

九、关于“模型崩溃”的澄清

学术界经常警告：AI在自己生成的数据上训练会导致“模型崩溃”（Model Collapse）。

HuggingFace在文章开头直接回应了这一担忧：这种崩溃只发生在极端封闭的实验条件下——模型反复在自己的输出上迭代，不引入任何新信息。

现实中的工业实践完全不同：

合成数据与人类数据混合使用
提示词中引用多样化的参考材料
合成数据是策略性补充而非全盘替换

在FineWeb的研究中，团队甚至发现网络上自然存在的AI生成内容并没有导致模型退化。

真正值得担忧的不是普通的合成数据实践，而是前沿模型在封闭循环中为其他前沿模型生成数据这种极端场景。合理整合、引入新视角的合成数据，不是问题而是解决方案。

十、实践配方：FinePhrase的最终配置

基于90组实验的系统验证，HuggingFace给出了一个简洁的最佳实践配方：

生成模型：SmolLM2-1.7B-Instruct
提示词格式：FAQ、Math、Table、Tutorial（四选一或混用）
源数据：FineWeb-Edu（质量要求宽松）
混入数据：DCLM或FineWeb-Edu-HQ
推理优化：suffix-32投机解码 + 0.9显存利用率

这个配方的核心逻辑是：

用结构化提示词重组知识形态——这是最大的杠杆
用最小够用的模型——省下的算力投入数据量
用强混入数据兜底——恢复常识信号，放宽源数据要求
用工程优化压缩成本——让合成数据生产可持续

十一、尚未解答的问题

HuggingFace坦诚列出了这项研究的边界和开放问题：

重复与改写：如果每次重复数据都重新改写，能否避免性能下降？
混合比例：合成数据占多少比例最优？5%、20%还是50%？
采样策略：Best-of-N筛选是否有效？
规模效应：在100B+token训练规模下，这些发现是否依然成立？
自动优化：能否用DSPy等工具自动搜索最优提示词？

这些问题定义了合成数据研究的下一阶段议程。

结语：从“炼金术”到“化学”

这篇研究的根本贡献，不是又发布了一个更大的数据集，而是把合成预训练数据的生成从经验驱动的试错，推向了可验证、可复现的系统方法论。

几个核心结论值得反复强调：

Prompt设计是第一生产力——重构格式，而非润色语言
小模型足够好——1B级别即可，不要迷信参数量
多样性优于一致性——“听话”的模型反而可能产出更差的数据
必须混合原始数据——合成数据在“用常识换知识”
质量评分不可靠——必须走完训练-评估的完整流程

合成数据正在从“可选的数据增强技巧”变成“大模型训练的核心工序”。而这篇研究给出了目前最清晰的工业级操作指南。

参考资料：

The Synthetic Data Playbook:
Generating Trillions of the Finest Tokens

🦞 一只龙虾的逆袭：从Clawdbot到OpenClaw，这只AI虾到底经历了什么？

Fri, 30 Jan 2026 00:00:00 GMT

一只龙虾的逆袭：从Clawdbot到OpenClaw，这只AI虾到底经历了什么？

「两个月前，我只是花了一个周末随便写了个小项目。没想到现在，GitHub上已经有10万+星星，一周吸引了200万访问量。」

说这话的，是OpenClaw的创始人Peter Steinberger（@steipete）。

你可能不认识他，但你大概率用过他的产品——他是PSPDFKit的创始人，那个几乎所有iOS开发者都听过的PDF框架。2023年公司被收购后，Peter本打算退休享清福，结果一不小心又搞出了GitHub历史上增长最快的开源项目之一。

想象一下：你随手写的一个周末项目，突然火遍全球，连Anthropic（Claude的母公司）的法务都找上门来……这剧情，比电视剧还精彩。

今天，我们就来聊聊这只「龙虾」的逆袭故事。

🦞 第一章：Clawdbot的诞生——一只「山寨」龙虾的出道

2025年11月，Peter突发奇想，想给自己做一个能在WhatsApp上用的AI助手。

最初它只是一个叫「WhatsApp Relay」的小玩意儿。但Peter越做越起劲，干脆给它取了个正式名字：Clawdbot——Claude（Anthropic的AI）+ Claw（龙虾钳），还设计了一个萌萌的龙虾吉祥物叫Clawd。

没错，就是玩了个谐音梗。

这个「周末项目」有什么特别的？

它完全跑在你自己的电脑上。

不是那种「把数据上传到别人服务器」的SaaS服务，而是真真正正的「你的电脑、你的API密钥、你的数据」。笔记本电脑、家用服务器、VPS——随你选。

用社区里一位用户的话说：「这是真正属于你自己的基础设施。」

Clawdbot很快在开发者圈子里传开了。24小时内GitHub星星就突破了9000，两个月后直接冲破10万大关。毕竟，谁不想要一个能帮你回邮件、查日历、还能在WhatsApp、Telegram、Discord、Slack、Signal、iMessage等13个平台上随时待命的AI助手呢？

而且，它还记得你的一切——你的喜好、你的习惯、你们之前的对话。它会读取你的SOUL.md了解你的个性，读取MEMORY.md记住你们的过往。

「这玩意儿比Siri聪明多了！」 有人这样评价。

更有人感慨：「2026年，真的是个人AI智能体之年。」

🔄 第二章：Moltbot——被迫「蜕壳」的尴尬时刻

2026年1月，正当Clawdbot风头正劲的时候，Peter收到了一封邮件。

发件人：Anthropic法务团队。

内容很礼貌，但意思很明确：「Clawdbot和Clawd跟我们家的Claude太像了，麻烦改个名吧。」

Peter很识趣。毕竟，人家是市值百亿美元的大公司，自己只是个人开发者，没必要硬刚。

但问题来了：改叫啥？

1月27日凌晨5点，Peter在Discord上发起了「起名大会」。社区成员们脑洞大开，最后选中了Moltbot。

Molting（蜕壳） 是龙虾生长的方式——它们脱掉旧壳，才能长出更大的新壳。这个寓意太贴切了：项目也在经历蜕变，变得更强。

Peter自己也很满意：「Anthropic让我们改名（商标问题），说实话？'Molt'简直完美——这就是龙虾成长的方式。」

吉祥物也从Clawd改成了Molty。

但改名这事儿，麻烦不止一点点。

老用户一脸懵：「Clawdbot怎么突然用不了了？」
有人在短短10秒内趁机抢注了旧品牌的社交账号，发加密货币诈骗信息
假冒的$CLAWD代币一度炒到1600万美元市值，然后崩盘
GitHub上的旧仓库链接全部失效

Peter不得不紧急联系X（推特）和GitHub的朋友，才把这些乱象压下去。

这段经历告诉我们：品牌更名，真的是一场硬仗。而且，互联网上的骗子永远比你快。

✨ 第三章：OpenClaw——龙虾的最终形态

仅仅两天后，1月29日，Peter又宣布：最终名字定了——OpenClaw。

等等，怎么又改了？

原来，「Moltbot」虽然寓意好，但在商标和域名层面还是有些问题。这次，Peter学乖了：

✅ 商标检索通过
✅ 域名全部拿下（openclaw.ai）
✅ 迁移代码提前写好
✅ openclaw doctor命令自动处理配置迁移

Open代表开源、开放、社区驱动。
Claw是对龙虾传统的致敬，也暗示这是一个「能动手」的AI。

用Peter的话说：「龙虾终于完成了最终蜕变。欢迎来到OpenClaw。」

（对了，吉祥物还是那只龙虾Molty——有些东西是神圣不可改变的🦞）

🚀 OpenClaw现在能做什么？

不得不说，经过这几轮折腾，OpenClaw已经进化成了一个相当成熟的AI助手平台。GitHub上107K+星星、15K+ Fork、8300+次提交，这些数字背后是一个活跃的全球社区。

📱 全平台覆盖

WhatsApp、Telegram、Discord、Slack、Signal、iMessage、Google Chat、Microsoft Teams、Matrix……一共支持13个消息平台。你在哪聊天，它就在哪跟着你。

🧠 真正的「记忆力」

不像那些「聊完就忘」的AI，OpenClaw会记住你的一切：

AGENTS.md — 智能体配置文件
SOUL.md — 个性设定
TOOLS.md — 工具偏好
MEMORY.md — 记忆库

它真的会越来越懂你。

🎙️ 语音唤醒

在macOS、iOS、Android上支持「Always-on Speech」功能，通过ElevenLabs实现自然语音交互。想象一下，对着手机喊一声就能让AI帮你干活。

🌐 浏览器控制 + 系统访问

让它帮你：

浏览网页、填表单、抓数据
读写文件、运行脚本、执行命令
通过专用Chrome/Chromium实例实现网页自动化
甚至可以通过700+社区技能扩展功能

🔒 安全第一

这次更名版本中，团队提交了34个安全相关的代码更新。默认采用Docker沙箱模式隔离非主会话，支持工具白名单和黑名单配置。

Peter特别提醒：提示词注入（Prompt Injection）仍是行业难题，建议使用Claude Opus 4.5等强模型，并遵循安全最佳实践。

🛠️ 老用户迁移指南

如果你之前用过Clawdbot或Moltbot，别担心，迁移超级简单——安装脚本会自动帮你搞定一切。

一键升级到OpenClaw

# 运行安装脚本，会自动检测旧配置并迁移
curl -fsSL https://openclaw.ai/install.sh | bash

就这么简单。安装脚本会自动：

检测你的系统环境（macOS/Linux）
确认Node.js版本（需要v22+）
安装OpenClaw最新版
运行openclaw doctor自动迁移配置

你会看到类似这样的输出：

◇  Doctor changes ─────────────────────────────────────────────────────────╮
│  - State dir: ~/.clawdbot → ~/.openclaw (legacy path now symlinked)      │
│  - Migrated legacy config: ~/.clawdbot/clawdbot.json →                   │
│    ~/.openclaw/openclaw.json                                             │
├──────────────────────────────────────────────────────────────────────────╯

可选：清理旧版本

迁移完成后，如果想彻底告别旧版本：

# 卸载旧的Clawdbot（会询问你要删除哪些组件）
clawdbot uninstall

# 或者卸载Moltbot
moltbot uninstall

重要提醒 ⚠️

旧的clawdbot和moltbot命令在迁移后仍然可用
旧配置目录会被符号链接到新位置，不用担心丢失数据
现有的技能（Skills）和工作流无需修改
如果遇到问题，运行openclaw doctor --fix自动修复

版本对照表

项目	ClawdBot	MoltBot	OpenClaw
配置目录	~/.clawdbot/	~/.moltbot/	~/.openclaw/
官网	clawd.bot	molt.bot	openclaw.ai
GitHub	clawdbot/clawdbot	moltbot/moltbot	openclaw/openclaw
NPM包名	clawdbot	moltbot	openclaw

🔮 未来展望

OpenClaw的故事远未结束。

Peter正在做几件大事：

安全加固（最高优先级） — 持续强化代码库安全性
Gateway可靠性提升 — 让更多人能顺畅使用
扩展模型支持 — 已经支持KIMI K2.5、小米MiMo-V2-Flash等新模型
建立可持续的资助机制 — 想给核心维护者发全职工资
扩充维护者团队 — 一个人真的忙不过来了

社区里已经有人用OpenClaw做了超酷的事情：

自动管理邮件、日历
远程控制代码编译和测试
用Sentry webhook自动捕获错误并提交PR修复
通过Tailscale实现安全的远程访问

一位用户说得好：

「开源社区用几个人就做出了比苹果Siri更好的产品。欢迎来到AI时代——一个人加一个代码仓库，就能填补万亿级公司的空白。」

📝 写在最后

从Clawdbot到Moltbot再到OpenClaw，这只龙虾经历了不少波折。

被Anthropic法务盯上、被加密骗子薅羊毛、两天内改了两次名……

但它还活着，而且活得越来越好。

107K+ GitHub星星、15K+ Fork、200万周访问量、全球开发者社区……

这些数字背后，是一个简单的信念：

你的AI助手，应该真正属于你。100%开源，MIT协议，永远免费。

如果你也想试试这只「龙虾」，可以去官网看看：

🌐 官网：https://openclaw.ai
💻 GitHub：https://github.com/openclaw/openclaw
📖 文档：https://docs.openclaw.ai
💬 Discord社区：https://discord.gg/openclaw

说不定，它会成为你2026年最得力的数字助手呢？

毕竟，龙虾蜕壳是为了长得更大。而OpenClaw，才刚刚开始它的成长之旅。🦞

参考资料：

🦞 Clawdbot → Moltbot：一场72小时的互联网闹剧

Wed, 28 Jan 2026 00:00:00 GMT

🦞 Clawdbot → Moltbot：一场72小时的互联网闹剧

第一章：一夜爆红的开源明星

2026年1月26日，一个名为 Clawdbot 的开源项目突然爆红。

由奥地利开发者 Peter Steinberger（@steipete）创建，Clawdbot 是一个自托管的 AI 助手，可以：

在 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 上运行
拥有持久记忆，记住用户的偏好和对话历史
控制浏览器、执行 shell 命令、管理日历
主动发送通知和提醒

Steinberger 并非无名之辈——他是 PSPDFKit（现更名为 Nutrient）的创始人，2021年获得 Insight Partners 过亿美元投资后“退休”，如今重出江湖打造这个“带手的 Claude”。

它的增长速度堪称疯狂：

🚀 24小时内：9,000+ GitHub stars
🚀 72小时内：60,000+ GitHub stars
🚀 成为 GitHub 历史上增长最快的开源项目之一

Andrej Karpathy（前特斯拉 AI 总监）公开称赞它，David Sacks（PayPal Mafia 成员）发推讨论它，MacStories 称它为“个人 AI 助手的未来”。

第二章：Anthropic 的"商标炸弹"

2026年1月27日，就在 Clawdbot 爆红的巅峰时刻，Anthropic（Claude 的母公司）发出了商标相关请求。

问题？ Anthropic 认为 “Clawd” 与 “Claude” 太过相似，涉嫌商标侵权。

创始人 Peter Steinberger 在 X 上宣布：

🦞 BIG NEWS: We've molted!

Clawdbot → Moltbot
Clawd → Molty

Same lobster soul, new shell.

Anthropic asked us to change our name (trademark stuff), and honestly? “Molt” fits perfectly — it's what lobsters do to grow.

这个重新品牌的创意颇具巧思：

龙虾通过蜕壳（molt）来成长
项目也在"蜕壳"后获得新生
新网站：molt.bot

第三章：10秒钟的灾难 💥

然而，改名过程演变成了一场灾难。

Peter Steinberger 试图同时重命名 GitHub 组织和 X/Twitter 账号。在旧名称释放和新名称注册之间的短短10秒空隙中，加密货币骗子抢注了这两个账号！

“Had to rename our accounts for trademark stuff and messed up the GitHub rename and the X rename got snatched by crypto shills. That went wonderful.”
— Peter Steinberger

骗子们显然一直在监控这个机会。他们瞬间抢占了：

❌ 原 @clawdbot X 账号
❌ 原 Clawdbot GitHub 组织

然后开始利用这些账号向数万名不知情的粉丝推送加密货币骗局。

第四章：1600万美元的假代币骗局

抢注账号只是开始。几小时内，假的 $CLAWD 代币在 Solana 区块链上横空出世。

骗局时间线：

📈 假代币市值一度飙升至 $16,000,000
📉 Peter Steinberger 公开声明“永远不会发行代币”
📉 代币价格瞬间崩盘 90%+
💸 晚期买家被“割韭菜”，骗子卷走数百万美元

Peter 被迫发推警告：

“To all crypto folks: Please stop pinging me, stop harassing me. I will never do a coin. Any project that lists me as coin owner is a SCAM.”

第五章：安全噩梦浮出水面

与此同时，安全研究人员发现了 Clawdbot/Moltbot 的严重安全漏洞。

区块链安全公司 SlowMist 报告：

“Multiple unauthenticated instances are publicly accessible, and several code flaws may lead to credential theft and even remote code execution.”

研究员 Jamieson O'Reilly 发现：

使用 Shodan 搜索“Clawdbot Control”可以找到数百个暴露的控制面板
这些面板包含：API 密钥、机器人令牌、OAuth 密钥、完整对话历史
攻击者可以：冒充用户发送消息、执行命令、窃取数据

演示攻击：

Archestra AI CEO Matvey Kukuy 发送了一封带有提示注入的恶意邮件给暴露的 Moltbot 实例。AI 读取邮件后，相信了“合法指令”，将用户的最近5封邮件转发给了攻击者地址。

整个过程只用了5分钟。

第六章：社区 vs Anthropic

社区开始质疑 Anthropic 的决定。

关键问题：

Clawdbot 实际上推动了 Claude 的使用量——许多用户专门配置 Clawdbot 使用 Claude 作为底层模型
这是一个快速崛起的项目，正在给 Anthropic 带来免费营销和 API 收入
改名导致的混乱造成了实际的安全灾难和经济损失
“Clawd”与“Claude”的相似性显然是playful（玩梗），而非恶意侵权

DHH（Ruby on Rails 创始人） 批评 Anthropic 的近期举动是“customer hostile”（对客户敌对）。

AWS Hero AJ Stuyvenberg 更为直接：“They're speedrunning the journey from forgivable startup to loathsome corporation before any exit!”

开发者们开始将目光转向 OpenAI 的 Codex CLI（Apache 2.0 许可证），质疑 Anthropic 是否正在成为他们不愿在其平台上构建的那种公司。

结局：多重战线上的战斗

Peter Steinberger 现在同时在应对：

战线	状态
🔄 恢复被劫持的 GitHub/X 账号	进行中
🛡️ 应对加密货币骗子骚扰	持续
👥 管理 8,900+ Discord 社区成员	活跃
🔒 修复安全漏洞	紧急
📢 重建品牌认知度	挑战重重

更深层的教训

对开源构建者：

你在企业平台上构建，面临着模糊的商标政策。一封法律函就能迫使你改名，进而暴露你遭受账号劫持、骗局和混乱的风险。

对 AI 公司：

你最热情的支持者是那些构建奇怪实验工具的独立开发者。向病毒式传播的开源项目发送法律通知——这些项目正在推动你的 API 使用——是一个值得深思的选择。

对用户：

自托管具有 root 权限的 AI 智能体既强大又危险。这些工具的安全模型仍然不成熟。不要将它们运行在主力机器上，不要赋予它们访问加密货币钱包的权限。使用专用硬件、隔离账号和严格的 IP 白名单。

🤔 写在最后：Anthropic 真的是“正义”的一方吗？

这已经不是 Anthropic 第一次激怒开发者社区了。

就在两周前（1月9日），Anthropic 突然封杀了所有通过第三方工具使用 Claude Pro/Max 订阅的用户——没有任何预警，没有迁移方案。那些已经将 Claude 深度集成到工作流中的开发者一夜之间被“背刺”。

现在又是 Clawdbot 事件。

一家标榜“AI 安全”和“负责任 AI”的公司，却在商标问题上对一个明显是善意玩梗、实际上在推动 Claude 生态的开源项目下手。讽刺的是：

Clawdbot 让更多人使用 Claude API → Anthropic 赚更多钱
Clawdbot 展示了 Claude 的能力 → 免费的营销素材
Clawdbot 的开发者是 Claude 的忠实粉丝 → 社区布道者

结果呢？一封法律函，一场公关灾难，以及一群曾经热情的开发者开始认真考虑迁移到 OpenAI。

Anthropic 的 slogan 是“AI safety”，但他们似乎更擅长“developer hostility”。

当一家公司的法务部门比产品部门更活跃时，也许是时候问一句：他们保护的到底是谁的安全？ 是用户的安全，还是自己的商标帝国？

开源社区的信任一旦失去，很难重建。Anthropic 或许应该重新思考：在 AI 这场马拉松中，真正的护城河是技术和生态，而不是法律函件。

🔗 相关链接：

新项目主页：molt.bot
GitHub：github.com/moltbot
X 账号：@moltbot

这就是开源 AI 世界的现实：一夜爆红、法律威胁、加密货币骗局、安全漏洞——全部在72小时内发生。 🦞💥

Claude创始人达沃斯专访：当程序员不再需要「写」代码

Thu, 22 Jan 2026 00:00:00 GMT

Claude创始人达沃斯专访：当程序员不再需要「写」代码

Anthropic创始人达沃斯最新专访解读：Claude的真实实力、中国开源的崛起、以及我们普通人该如何应对

如果你用过Claude，大概率经历过这样的崩溃时刻：聊得正嗨，突然账号被封；好不容易申诉回来，没几天又进了小黑屋。

在AI圈子里，Claude的「封号体质」几乎是个梗。但诡异的是，被封过的用户，十有八九还会想办法回来——因为用过就知道，这东西是真的强。

2026年1月20日，Claude背后的公司Anthropic，其创始人Dario Amodei在达沃斯世界经济论坛接受了彭博社的专访。这位低调的AI大佬，罕见地聊了很多干货：Claude到底强在哪？中国AI是不是已经追上来了？程序员会不会大规模失业？

今天我们就来聊聊这场访谈，顺便泼点冷水——Amodei有些观点，确实值得商榷。

一、「两个月没写代码」的真相：AI编程没你想的那么玄乎

访谈中最抓眼球的一句话，是Amodei提到他们Claude Code产品的负责人：

“他已经两个月没写过任何代码了，全部都是Claude在写。”

乍一听，是不是感觉程序员要集体下岗了？

别急，让我们拆解一下这句话的水分。

首先，「不写代码」不等于「不工作」。这位负责人依然在做的事情包括：设计系统架构、拆解需求、撰写提示词、审查AI生成的代码、调试和测试、做技术决策……

换句话说，他从「写代码的人」变成了「指挥AI写代码的人」。

这就像从手动挡换成了自动挡——你确实不用踩离合器了，但你得知道什么时候该踩油门、什么时候该打方向盘。方向盘握不好，照样翻车。

Amodei自己在访谈中也承认，AI的认知能力虽然在指数级增长，但「全自动编程」目前还是不切实际的幻想。Claude再强，也需要人类用精准的提示词来引导，需要专业的眼光来把关输出质量。

所以真相是：Claude不是在取代程序员，而是在放大程序员的能力。

一个会用Claude的程序员，效率可能是不会用的十倍。但前提是，你得先是个合格的程序员，知道自己要什么、能判断AI给的东西对不对。

二、中国AI落后了吗？这个问题本身就问错了

访谈中有一段很有意思的对话。主持人问Amodei：你们和中国AI公司竞争，情况怎么样？

Amodei的回答是：在争夺企业客户合同时，我们几乎没输给过中国模型。

这话听起来很提气，但仔细想想，这个对比本身就不太公平。

Claude是什么级别的产品？背后是万亿参数的大模型，烧的是天文数字的算力和资金，主打的是高端企业市场。

而中国AI领域最活跃的力量，恰恰是另一条赛道：开源。

DeepSeek、Qwen、GLM……这些模型也许在某些基准测试上不如Claude，但它们做到了一件更重要的事：让普通开发者和中小企业也能用上AI。

你可以把它们部署在自己的服务器上，不用担心数据隐私；可以根据自己的需求微调，不用受制于API限制；最重要的是，成本低了不止一个数量级。

这就是所谓的「AI平权化」——不是每家公司都能负担得起Claude的企业版订阅，但几乎每个开发者都可以跑一个开源模型。

Amodei在访谈中对中国AI的评价，多少有点「何不食肉糜」的味道。他站在顶级AI公司CEO的视角，看到的是高端市场的竞争格局。但他可能低估了开源生态的力量——历史上，Linux打败Unix、Android席卷手机市场，靠的都不是「更强」，而是「更普惠」。

真正的AI格局，不是一场谁更强的比赛，而是一个多层次的生态系统。 Claude可以是皇冠上的明珠，但中国开源模型正在把AI的门槛一降再降，让更多人参与这场变革。

三、程序员会失业吗？这是个伪命题

访谈中，主持人抛出了一个尖锐的问题：AI会不会导致大规模失业？

Amodei的回答很实诚：可能会出现GDP快速增长和失业率同时升高的局面。

这话没毛病，但我想换个角度来看这个问题。

与其问「程序员会不会失业」，不如问「什么样的程序员会失业」。

历史上每一次技术革命，都有一批人被淘汰，也有一批人借势起飞。Excel出现后，算盘打得好的会计没了优势；CAD普及后，手绘图纸的能力不再稀缺。但会计和工程师这两个职业，并没有消失。

AI编程工具也是一样的逻辑。

被淘汰的，是那些只会机械地敲代码、不理解业务逻辑、不会提出问题的「码农」。

吃香的，是那些能把AI当作「超级助手」的人：

能精准描述需求，让AI生成高质量代码
能快速审查AI输出，发现其中的坑
能把AI整合进工作流，大幅提升效率
最重要的是，能持续学习新工具、新方法

Amodei说他们公司的人「两个月不写代码」，但他没说的是，这些人每天都在学习怎么更好地使用AI。

这才是真正的启示：不是学会一个工具就够了，而是要培养「持续学习」的能力。

Claude今天很强，明天可能有更强的。今天的提示词技巧，明年可能就过时了。唯一不变的，是变化本身。

四、写在最后：保持清醒，保持好奇

Amodei在这次访谈中展现了一个AI公司CEO的典型视角：对自家产品充满信心，对竞争对手有所保留，对未来既乐观又谨慎。

但我们作为普通人，没必要全盘接受任何一个大佬的观点。

Claude确实很强，但它不是唯一的选择，也不是万能的。中国的开源模型也许在某些方面不如它，但正在让更多人受益于AI技术。程序员确实面临挑战，但有挑战的地方就有机会。

如果让我用一句话总结这次访谈的启示，那就是：

AI是工具，不是魔法。学会用它的人，会变得更强；指望它替你思考的人，终将被淘汰。

至于Claude的封号问题嘛……只能说，且用且珍惜吧。

本文基于2026年1月20日彭博社达沃斯专访内容整理，观点仅代表作者个人看法。

【互动话题】

你在工作中用过AI编程工具吗？体验如何？欢迎在评论区聊聊你的经历~

参考资料

Anthropic’s Amodei on AI: Power and Risk

凌晨2点半的灵感：Google最火AI模型为什么叫“纳米香蕉”？

Sun, 18 Jan 2026 00:00:00 GMT

凌晨2点半的灵感：Google最火AI模型为什么叫“纳米香蕉”？

从去年年中开始，Google有个AI模型火了——不是因为它有多厉害（当然它确实很厉害），而是因为它的名字：Nano Banana（纳米香蕉）。

是的，你没看错。一个正儿八经的AI图像生成模型，名字居然叫“纳米香蕉”。

这到底是怎么回事？

一切始于一条凌晨2:30的消息

故事要从去年7月说起。

当时，Google DeepMind团队正在准备把一款新的图像生成模型上线到LMArena（一个AI模型评测平台）。技术名称已经定好了，叫Gemini 2.5 Flash Image，但平台需要一个公开的代号。

问题是——大家一直拖着没想这事。

直到上线前夕的凌晨2:30，一位同事给产品经理Naina Raisinghani发消息：

“我们必须现在提交代号了。”

“要不就叫Nano Banana？”

困意袭来的Naina脑子里蹦出一个想法：Nano Banana。

为什么是这个名字？原来这跟她自己的外号有关：

朋友们叫她Naina Banana（因为Naina和Banana押韵）
也有人叫她Nano（因为她个子小，又喜欢计算机）

于是她把两个外号拼在了一起——Nano Banana。

而且这个名字还意外地合适：因为这是个Flash（闪电）模型，Nano（纳米）正好暗示了它的轻量和快速。

就这样，一个凌晨2点半的随口一说，变成了正式代号。

没想到，它火了

8月初，Nano Banana在LMArena上线。

用户们发现，这个模型的图像编辑能力相当惊艳——能保持人物相似度，还能巧妙地把多张图片融合在一起。

但更让人印象深刻的，是这个奇奇怪怪的名字。

“纳米香蕉是什么鬼？”
“这名字也太可爱了吧！”

这个名字在社交媒体上迅速传播，不同地区的网友还玩出了各种本地化梗。

从玩笑到官方认证

后来的事情大家可能知道了——Nano Banana成了全球评分最高的图像编辑模型之一。

Google干脆将错就错，在品牌设计上全面拥抱了“香蕉”元素。最新版本甚至升级成了Nano Banana Pro（搭载Gemini 3 Pro Image）。

最后

一个凌晨2点半的灵光一闪，一个带有个人温度的小玩笑，最终成了Google AI产品线里最出圈的名字之一。

这个故事告诉我们：

有时候，最好的创意来自放松的状态
不要小看“随便起的名字”
好产品+好名字=病毒式传播

下次给项目起名的时候，不妨试试凌晨2点半？

（开玩笑的，早点睡觉。）

#Google #AI #NanoBanana #人工智能 #科技趣闻

参考资料：

How Nano Banana got its name - Google Blog

2025年LLM大变局：Simon Willison年度总结深度解读

Thu, 01 Jan 2026 00:00:00 GMT

2025年LLM大变局：Simon Willison年度总结深度解读

原文链接: 2025: The year in LLMs - Simon Willison

本文基于Simon Willison的年度总结进行解读，向这位Django联合创始人、LLM领域最敏锐的观察者致敬。

写在前面：为什么你该认真读Simon Willison？

Simon Willison不是那种只会吹捧AI的布道者。他是Django框架的联合创始人，是“prompt injection”这个术语的定义者，是Python软件基金会的董事会成员。更重要的是——他是一个每天都在用LLM干活的开发者，2025年他用AI辅助构建了110个工具。

当这样一个人说出“2025年是XXX之年”时，值得认真听。

核心观点一：推理模型改变了一切

Simon的判断: 推理（Reasoning）不是让AI数草莓里有几个R，而是让AI学会带着工具干活。

“The real unlock of reasoning was in driving tools. Reasoning models with access to tools can plan out multi-step tasks, execute on them and continue to reason about the results.”

我的解读:

2024年底o1发布时，大多数人的反应是：“哦，能做数学题了，跟我有什么关系？”这种想法大错特错。

推理模型的真正价值在于：

规划能力: 能把复杂任务拆解成可执行的步骤
反思能力: 执行后能检查结果，调整策略
工具协调: 能同时调用搜索、代码执行、文件操作等多种工具

这意味着什么？意味着AI从“问答机器”进化成了“执行者”。

核心观点二：Agent从“科幻”变成“实用”

Simon年初的预测: Agent不会发生。

Simon年末的承认: 我错了一半。

“I didn't think agents would happen because I didn't think the gullibility problem could be solved... But if you define agents as LLM systems that can perform useful work via tool calls over multiple steps then agents are here.”

我的解读:

Simon的“打脸”其实很有启发性。他错在哪？错在把Agent想象成科幻电影里的万能助手。但真正落地的Agent是什么？是Claude Code，是Codex CLI，是能替你写代码、跑测试、提PR的工具。

关键洞察：

Agent ≠ 通用智能助手，而是特定领域的自动化执行器
代码领域成为Agent最成熟的落地场景，因为代码执行结果可验证
搜索领域是第二个成熟场景，深度研究模式真正work了

Simon给出了一个务实的Agent定义：“能通过循环调用工具来达成目标的LLM系统”。不玄乎，但管用。

核心观点三：Claude Code是2025年最重要的产品

Simon的原话: “The most impactful event of 2025 happened in February, with the quiet release of Claude Code.”

这个观点可能会让很多人意外。不是GPT-5？不是DeepSeek R1的股市冲击？是一个命令行工具？

我的解读:

Claude Code代表的是一种范式转变——LLM从对话界面走向终端。

为什么这很重要？

开发者的自然栖息地: 终端是开发者最熟悉的环境，管道、重定向、脚本组合——这些Unix哲学与LLM完美融合
$10亿ARR的验证: Anthropic宣布Claude Code达到10亿美元年收入。一个CLI工具！这说明专业用户愿意为真正有用的AI工具付费
异步执行的突破: Claude Code for web可以在后台运行，你发一个任务，去喝杯咖啡，回来PR就提好了

在经过净化处理的软件工程基准测试SWE-rebench中，Claude Code遥遥领先。Claude Code搭配上Claude Opus 4.5是最佳Vibe Coding组合。而在修Bug、审查代码等方面，OpenAI的Codex GPT 5.2 xhigh更擅长。

核心观点四：中国开源模型全面崛起

Simon的数据: Artificial Analysis排行榜上，前五名开源模型全部来自中国。

“GLM-4.7, Kimi K2 Thinking, MiMo-V2-Flash, DeepSeek V3.2, MiniMax-M2.1 are all Chinese open weight models.”

我的解读:

DeepSeek R1在2025年1月20日发布，当天NVIDIA市值蒸发6000亿美元。这不是技术事件，这是地缘政治事件。

几个关键事实：

DeepSeek V3训练成本约550万美元，而美国公司动辄几亿
这些模型不只是“开源”，而是真开源——MIT或Apache 2.0许可证
虽然训练代码和数据集未公开，但详细的技术论文推动了全行业进步

这对你意味着什么？

本地部署顶级模型的门槛大幅降低
API成本的参照系被重新定义
“AI是美国垄断”的叙事被打破

核心观点五：OpenAI失去了领先地位

Simon的判断: “This year the rest of the industry caught up.”

这不是说OpenAI变差了，而是：

图像生成被Google Nano Banana超越
代码能力被Claude Opus 4.5挑战
开源模型被中国厂商碾压
音频API被Gemini Live威胁

我的解读:

OpenAI的优势现在主要是品牌认知——“LLM没人知道，ChatGPT人人都听过”。但在专业开发者圈子，这种优势正在被稀释。

Google在12月发布Gemini 3后，OpenAI内部宣布了“Code Red”。这是OpenAI第一次公开承认感受到了竞争压力。

更深层的问题：Google有自己的TPU，不需要给NVIDIA交“GPU税”。当训练成本是核心竞争力时，这是结构性优势。

核心观点六：$200/月订阅成为新标准

事实: Claude Pro Max、ChatGPT Pro、Google AI Ultra都在$200/月档位。

Simon的亲身体验: “I've personally paid $100/month for Claude... I've heard from plenty of other people who are happy to pay these prices too.”

我的解读:

这揭示了一个分化：

普通用户: 免费版或$20/月够用
重度用户: $200/月是划算的交易

为什么划算？因为Coding Agent会疯狂消耗token。如果你每天都在用Claude Code处理复杂任务，按API计费可能远超$200。

这也意味着：LLM正在从“新奇玩具”变成“专业工具”。专业工具就该有专业定价。

核心观点七：YOLO模式与“偏差正常化”的危险

Simon的警告: “The longer we get away with running these systems in fundamentally insecure ways, the closer we are getting to a Challenger disaster of our own.”

背景: YOLO模式 = 让Coding Agent自动执行所有操作，不需要人工确认。

我的解读:

这是Simon在这篇文章中最严肃的警告。他引用了社会学家Diane Vaughan对挑战者号航天飞机灾难的研究——工程师早就知道O型环有问题，但因为多次发射没出事，风险被“正常化”了。

类比到AI：

你每天YOLO模式运行Claude Code都没出事
你开始觉得prompt injection只是理论风险
直到有一天，恶意指令真的删掉了你的home目录

Johann Rehberger把这叫做“AI领域的偏差正常化”。Simon显然深以为然。

核心观点八：MCP可能只是昙花一现

Simon的观察: “The reason I think MCP may be a one-year wonder is the stratospheric growth of coding agents.”

核心论点: 当Agent能运行任意Bash命令时，谁还需要MCP？

我的解读:

MCP（Model Context Protocol）是Anthropic在2024年11月推出的工具调用标准，2025年初爆火——OpenAI、Anthropic、Mistral八天内都宣布支持。

但Simon指出了一个尴尬的事实：Bash是终极工具。能跑shell命令的Agent，可以调用任何CLI工具——git、gh、ffmpeg、curl——何必再封装一层MCP？

Anthropic自己似乎也意识到了这一点，推出了更轻量的Skills机制：一个Markdown文件+可选脚本，比MCP的JSON-RPC服务器简单太多。

核心观点九：本地模型很好，但云端模型更好

Simon的矛盾心态:

“I got small amounts of real work done offline! My excitement for local LLMs was very much rekindled.”

但同时：

“I have yet to try a local model that handles Bash tool calls reliably enough for me to trust that model to operate a coding agent on my device.”

我的解读:

2025年本地模型确实进步巨大：

Mistral Small 3（24B）≈ GPT-4水平，能在64GB笔记本上跑
20-32B参数区间成为甜点
离线也能做一些实际工作

但问题在于可靠性。Coding Agent需要模型稳定地调用工具几十甚至上百次。本地模型还做不到。

Simon的结论：下一台笔记本至少128GB内存，但主力工具仍是云端前沿模型。

核心观点十：“Slop”成为年度词汇

Merriam-Webster的定义：“通过人工智能大量生产的低质量数字内容”

Simon的乐观倾向:

“The internet has always been flooded with low quality content. The challenge, as ever, is to find and amplify the good stuff.”

我的解读:

“Slop”（AI垃圾内容）这个词的流行，反映了公众对AI生成内容的警惕正在提升。这是好事。

但Simon提出了一个更深的问题：你能感知到slop的影响吗？

他自己的答案是：可能不能。因为他不用Facebook，精心策展自己的信息源。对于不这么做的普通用户呢？可能正在被slop淹没而不自知。

核心观点十一：数据中心正在变得极度不受欢迎

事实: 200多个环保组织要求暂停美国新数据中心建设。

Simon的关注点: 水资源问题可能被夸大（分散注意力），但能源消耗是真实的。

我的解读:

这是这篇文章中唯一涉及AI伦理/社会影响的部分，而且Simon的态度很谨慎。

他指出了Jevons悖论：每token成本下降→用户消耗更多token→总能耗不降反升。

$200/月的订阅用户可能比$20用户消耗10倍的计算资源。效率提升被使用量增长抵消。

我的总结：Simon Willison教会我们的思维方式

读完这篇13000字的年度总结，我学到的不只是26个趋势，而是一种观察AI行业的方法论：

亲身实践: Simon不是评论家，他构建了110个工具，每天都在用这些技术
承认错误: 他年初预测Agent不会发生，年末坦然承认错了一半
定义术语：“prompt injection”、“slop”、“lethal trifecta”——清晰的概念是清晰思考的前提
关注安全：即使天天用YOLO模式，也不忘警告“挑战者号灾难”的风险
保持好奇: 44岁的Django创始人，还在研究用手机编程

如果你想跟上LLM领域的发展，没有比关注Simon Willison更好的方式了。

附：Simon Willison创造/推广的2025年关键术语

术语	含义
Vibe Coding	完全依靠提示词让LLM生成代码，“忘记代码的存在”
The Lethal Trifecta	致命三重奏：访问私有数据+对外通信能力+暴露于不可信内容
Context Rot	上下文腐烂：随着对话变长，模型输出质量下降
Slopsquatting	利用LLM幻觉出的错误包名注册恶意软件包
Asynchronous Coding Agent	异步Coding Agent：后台运行、完成后提PR的工具

原文: 2025: The year in LLMs

如果你觉得这篇解读有价值，去订阅Simon的博客：RSS、邮件或Bluesky/Mastodon都行。$10/月还能获得他的月度简报。

备注

本篇文章由作者和Claude Opus 4.5、Gemini 3 Pro合力完成。

AI新闻—2025.07.30

Wed, 30 Jul 2025 00:00:00 GMT

开源

Qwen3-30B-A3B小更新

Qwen3-30B-A3B模型最近发布了小更新版本Qwen3-30B-A3B-Instruct-2507，这是一个高效的混合专家（MoE）模型，仅激活3B参数，却在非思考模式下达到了接近GPT-4o和Qwen3-235B-A22B的性能水平。主要改进包括：

增强了推理、编码和数学能力；
扩展了多语言知识覆盖；
提升了长上下文理解能力，支持高达256K tokens；
更好地对齐用户意图和处理开放式任务；
去除块，使响应更直接高效。

该更新使模型更智能、更快速，并便于本地部署，适用于各种复杂任务，如指令跟随、逻辑推理和工具使用。

短评: 利好开源和做实验。

官方推文: https://x.com/Alibaba_Qwen/status/1950227114793586867

模型开源地址: https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507

闭源

ChatGPT Study Mode

OpenAI今日推出ChatGPT的“学习模式”（study mode），这是一个旨在帮助用户逐步解决问题而非直接提供答案的学习体验。该模式通过提问引导、逐步讲解和互动方式，提升用户的批判性思维和学习效果，特别适用于家庭作业帮助、考试准备和新知识探索。

目前，该功能已对免费版、Plus、Pro和Team的登录用户开放，ChatGPT Edu用户将在未来几周内可用。这一更新被视为AI在教育领域的负责任应用，旨在减少对生成式AI的依赖并促进深度学习。

短评: 普通用户体验最强的AI产品，ChatGPT教你学习，有时不禁思考是否还有学校存在的必要。

官方博文: https://openai.com/index/chatgpt-study-mode/

NotebookLM & AI Mode Updates

谷歌近日推出NotebookLM的重大更新，包括引入视频概述（Video Overviews）和工作室面板（Studio）的升级。

前者作为音频概述的视觉替代，通过AI生成叙述幻灯片，融入来源文档中的图像、图表、引用和数据，帮助用户更直观地理解复杂信息，并支持自定义主题、学习目标和受众；后者则采用全新界面设计，支持在单一笔记本中创建并存储多种相同类型输出（如多语言音频或针对不同章节的思维导图），提升协作和多任务效率。该功能已在英文用户中逐步 rollout，更多语言支持即将到来。

此外，针对开学季，Google Search的AI模式（AI Mode）也迎来更新，包括支持桌面浏览器上传图像和PDF文件（未来扩展至Google Drive等类型）、Canvas工具用于多会话规划（如创建学习指南）、集成Google Lens的Search Live实时视频输入，以及Chrome中的Lens功能允许询问屏幕内容。这些增强旨在通过互动提问、跨参考信息和视觉上下文，提升学生、家长和教育者的学习体验，目前主要在美国和印度可用，适用于18岁以上用户。

短评: Google的产品更新博文公布并不意味着功能立马获得，需要耐心等待，就如前一阵子AI Mode支持Gemini 2.5 Pro和Deep Research而言，当天博文发布时，用户们并没有第一时间获得该功能，后续才获取到了该功能。NotebookLM是学习的好帮手，更新的功能可进一步辅助学习；AI Mode是Google革自己命的预演，近期也有如Web Guide的实验项目，这些实验未来终将作为Google Search AI时代的产品发布。

官方博文:

https://blog.google/technology/google-labs/notebooklm-video-overviews-studio-upgrades/

https://blog.google/products/search/ai-mode-updates-back-to-school/

Claude Code -add-dir命令

Claude Code最近引入了--add-dir命令，这是一个允许用户在单一会话中跨多个目录工作的功能扩展。通过在启动时使用CLI标志--add-dir <路径>或在会话中使用斜杠命令/add-dir <路径>，开发者可以无缝地将额外的工作目录添加到Claude Code的工作空间中，而无需切换主目录。该更新特别适用于处理单仓库（monorepo）、共享配置或跨项目协作的场景，帮助提升代码导航、引用和编辑的效率，使Claude Code作为终端AI编码工具更加强大和灵活。

短评: Claude Code目前已经成为了开发者群体最受欢迎的产品，跨目录功能的扩展进一步使其体验更上一层楼。Anthropic以用户需求开发产品这一点值得点赞。

官方推文: https://x.com/_catwu/status/1950288312033562751

备注

本篇文章由作者和Grok 4合力完成。

新的起点

Thu, 17 Jul 2025 00:00:00 GMT

在我上大学时，就曾开过一个微信公众号。但由于厌倦审核等因素，当时第一个微信公众号以自我注销而告终。

之后，在AI的辅助下，我从头开始构建了一个个人博客。经过过去的3年多时间的沉淀，我的小破站有一些观众。下图展示目前小破站Cloudflare的访问数据，其实里面很多访客都是AI爬虫，真实数据远低于图中的值。

基本上都是用爱发电，没有考虑过加Google Ads来变现。目前还在读研，让我并没有感受到太多的生活压力。理想主义的站点用兴趣支撑久了，也难免会有些厌倦。

明年也将迎来我学生时代的终结，难免得开始自己赚钱，养活自己，重开微信公众号就是其中的一种方式，不会作为主业，当作副业来玩玩。

真正的中文互联网早已不再是Google、必应等搜索引擎搜出来的网站所支撑的天地了，真正的中文互联网都在各大巨头的“围墙花园”内。

当我再次愿意“接地气”在真正的中文互联网上书写自己的文字，我会尽量避免落俗，所有文字均会经过我的打磨。本公众号不会涉及任何敏感、违规因素，会进行自我审查。

我也明白当我在微信公众号上发布文字，自己的文字会成为腾讯混元大模型的语料。在公网上无可避免，私域也难以逃避，坦然面对这一现实。

本公众号的头像、昵称与微信账号齐名。本公众号的每一篇文章都会对应公网上本人发布的原文，点击每天文章“阅读更多（Read More）”按钮即可跳转至原文出处。

本公众号主要分享AI、个人折腾、个人成长心得等方面的知识，争取每周一更。

新的起点，加油！⛽️

凯记

先 docker compose down 再 up -d，还是直接 up -d？读完官方文档终于搞懂了

官方文档怎么说

docker compose up：自带“变更检测”的创建与启动

docker compose down：停止并“拆除”整个项目

两条路线的本质区别

大多数时候，直接 up -d 就够了

什么时候才真正需要先 down

1. 改动了网络等顶层资源的定义

2. 想要一个彻底干净的环境

3. 要长时间停用这套服务

4. 需要清理已从 Compose 文件中删除的服务

顺带澄清两个容易混淆的命令

docker compose restart

docker compose stop / docker compose start

回到最初的问题

不该被 GPT-5.5 淹没的 DeepSeek V4

背景故事

我看好的 DeepSeek 能力

我个人使用 DeepSeek V4 Pro 模型的体验

总结

当AI开始研究如何“对齐”自己，我们该警惕什么？

AI自己做研究：未来已经开始？

为何“自动化对齐”如此重要？

自动化研究的“神奇”和“坑”

我们应如何面对AI“自主研究”的未来？

参考链接

允许自己“习得性无助”一会儿

AIGC查重：知网的自相矛盾，与一场注定失败的围堵战

AIGC查重：知网的自相矛盾，与一场注定失败的围堵战

引子：一个荒诞的毕业季

一、什么是AIGC查重？它是怎么工作的？

二、AIGC查重准不准？

三、知网的自相矛盾：左手卖AI，右手查AI

四、AIGC“降重”：让好文章变成口水话

五、利弊分析：AIGC查重到底值不值？

六、未来的路：疏远胜于堵

七、AI写作工具推荐：选对模型，事半功倍

首推：Claude (Anthropic)

辅助核实：GPT-5.4 (OpenAI)

备选方案：Gemini 3.1 Pro (Google)

为什么不推荐小参数量模型？

结语：让AI成为翅膀，而不是枷锁

全球最强AI集体翻车：图形推理成了大模型的“认知坟场”

全球最强AI集体翻车：图形推理成了大模型的“认知坟场”

一场意外的“翻车实验”

第一层：眼睛就“瞎”了——视觉编码的先天缺陷

第二层：脑子里没有“画布”——空间推理能力的缺失

第三层：规则空间的无限开放——不知道考什么

第四层：范式冲突——概率生成 vs 刚性演绎

第五层：训练数据的结构性缺失

为什么它们选择“作弊”？

破局之路在哪里？

写在最后

Perplexity Max 很好，但我不会订阅

一、Model Council：三个模型吵架，第四个裁判

它到底是什么

设计哲学：让分歧可见

我的看法：有趣，但未必值得买单

二、Perplexity Computer：19 个模型，一个「数字员工」

它到底是什么

3 月 6 日的重要迭代

我的看法：概念震撼，落地存疑

三、一个绕不开的问题：$200/月值不值？

四、Perplexity 真正的护城河：搜索

护城河能守多久？

五、我的结论

合成数据的工业级配方：HuggingFace用90组实验揭示的预训练数据生产法则

合成数据的工业级配方：HuggingFace用90组实验揭示的预训练数据生产法则

一、合成数据：大模型训练的第四次范式跃迁

二、90组实验，1万亿token，只为回答一个问题

三、核心发现：Prompt设计是最大的杠杆

四、反直觉发现：1B小模型就够了

五、最反直觉的发现：“更烂”的输出反而更好

六、能力权衡：合成数据在“用常识换知识”

七、质量评分在合成数据面前全面失效

八、工程层面的成本革命

九、关于“模型崩溃”的澄清

十、实践配方：FinePhrase的最终配置

十一、尚未解答的问题

`docker compose up`：自带“变更检测”的创建与启动

`docker compose down`：停止并“拆除”整个项目

大多数时候，直接 `up -d` 就够了

什么时候才真正需要先 `down`

`docker compose restart`

`docker compose stop` / `docker compose start`