<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom"><script src="/feed-style.js" xmlns="http://www.w3.org/1999/xhtml"></script><channel><title>凯记</title><description>专注于分享AI、个人折腾、个人成长心得等方面的知识</description><link>https://blog.gujiakai.me/</link><language>zh-CN</language><atom:link href="https://blog.gujiakai.me/rss.xml" rel="self" type="application/rss+xml"/><item><title>先 docker compose down 再 up -d，还是直接 up -d？读完官方文档终于搞懂了</title><link>https://blog.gujiakai.me/2026/06/docker-compose-up-vs-down/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/06/docker-compose-up-vs-down/</guid><description>基于 Docker 官方文档，讲清 docker compose up -d 与 down + up 的本质区别：什么时候直接 up -d 就够，什么时候才需要先 down，以及 latest 镜像“不更新”的常见坑。</description><pubDate>Thu, 11 Jun 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;如果你经常用 Docker Compose 部署服务，大概率写过这样一套“肌肉记忆”组合：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose down
docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;先把整个项目停掉、删干净，再重新拉起来。这么做当然能跑，但很多人其实说不清楚：&lt;code&gt;docker compose up -d&lt;/code&gt; 自己不就会替换旧容器吗？那 &lt;code&gt;down&lt;/code&gt; 这一步到底是必要的，还是多余的？&lt;/p&gt;
&lt;p&gt;这篇文章基于 Docker 官方文档，把这两条命令各自做了什么、什么时候该用哪个，一次性讲清楚。&lt;/p&gt;
&lt;h2&gt;官方文档怎么说&lt;/h2&gt;
&lt;h3&gt;&lt;code&gt;docker compose up&lt;/code&gt;：自带“变更检测”的创建与启动&lt;/h3&gt;
&lt;p&gt;官方参考手册对 &lt;code&gt;up&lt;/code&gt; 的定义是：构建、重新创建、启动服务的容器，并附着到容器的输出上；加上 &lt;code&gt;-d&lt;/code&gt;，也就是 &lt;code&gt;--detach&lt;/code&gt;，则让容器转入后台运行。&lt;/p&gt;
&lt;p&gt;真正回答我们问题的，是文档里的这段关键描述：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;如果某个服务已经存在容器，并且该服务的配置或镜像在容器创建之后发生了变化，&lt;code&gt;docker compose up&lt;/code&gt; 会通过“停止旧容器、重新创建新容器”的方式来应用这些变更，同时保留挂载的卷。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;换句话说，&lt;code&gt;up&lt;/code&gt; 本身就内置了“发现变化 → 移除旧容器 → 换上新容器”的完整逻辑。这正是你平时观察到的“它会自动用新容器替换旧容器”的来源。&lt;/p&gt;
&lt;p&gt;而且它很克制：只重建发生了变化的服务，没有变化的容器会原样保留、持续运行，完全不受影响。&lt;/p&gt;
&lt;p&gt;围绕这个机制，官方还提供了两个方向相反的开关：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;--no-recreate&lt;/code&gt;：即使发现了变化，也不重建容器。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--force-recreate&lt;/code&gt;：即使配置和镜像都没有变化，也强制重建容器。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;&lt;code&gt;docker compose down&lt;/code&gt;：停止并“拆除”整个项目&lt;/h3&gt;
&lt;p&gt;&lt;code&gt;down&lt;/code&gt; 的官方定义是：停止容器，并删除由 &lt;code&gt;up&lt;/code&gt; 创建的容器和网络。&lt;/p&gt;
&lt;p&gt;默认情况下，它会删除三类东西：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Compose 文件中定义的服务容器；&lt;/li&gt;
&lt;li&gt;&lt;code&gt;networks&lt;/code&gt; 段里定义的网络；&lt;/li&gt;
&lt;li&gt;项目的默认网络。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;不过，声明为 &lt;code&gt;external&lt;/code&gt; 的网络和卷永远不会被删除。&lt;/p&gt;
&lt;p&gt;数据卷方面，要分两种情况看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;命名卷&lt;/strong&gt;：默认会被保留，除非显式加上 &lt;code&gt;-v&lt;/code&gt; 或 &lt;code&gt;--volumes&lt;/code&gt; 才会一并删除。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;匿名卷&lt;/strong&gt;：默认也不会被删除，但官方文档特别提醒了一句很容易被忽略的话：匿名卷没有稳定的名字，所以之后再执行 &lt;code&gt;up&lt;/code&gt; 时，新容器并不会自动挂载这些旧的匿名卷。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;因此，官方建议：需要在更新之间持久化的数据，应该使用 bind mount 或命名卷，而不要依赖匿名卷。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/06/11/a9Qf/20260610181808755.webp&quot; alt=&quot;示意图：down 之后匿名卷与新容器失联&quot; /&gt;&lt;/p&gt;
&lt;p&gt;官方入门教程里还有一个非常直观的例子：一个用 Redis 计数的小应用，执行 &lt;code&gt;down&lt;/code&gt; 再 &lt;code&gt;up&lt;/code&gt; 之后，访问计数会归零。&lt;/p&gt;
&lt;p&gt;原因很简单：&lt;code&gt;down&lt;/code&gt; 删除了容器，写在容器可写层里的数据也随之消失；而 &lt;code&gt;stop&lt;/code&gt; 只是停止容器，容器和数据都还在。&lt;/p&gt;
&lt;h2&gt;两条路线的本质区别&lt;/h2&gt;
&lt;p&gt;把上面的信息拼起来，两种做法的差异就清晰了。&lt;/p&gt;
&lt;p&gt;直接执行：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;这是一种原地的、增量的更新方式。&lt;/p&gt;
&lt;p&gt;Compose 会逐个服务对比当前配置与运行中容器的状态，只替换有变化的那部分；项目网络保持原样；未被重建的容器连 IP 都不会变；旧容器上的匿名卷数据还会被新容器“接管”。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;up&lt;/code&gt; 有一个 &lt;code&gt;-V&lt;/code&gt; / &lt;code&gt;--renew-anon-volumes&lt;/code&gt; 选项，作用是“重新创建匿名卷，而不是从旧容器取回数据”。这个选项的存在，反过来也印证了默认行为就是取回旧数据。&lt;/p&gt;
&lt;p&gt;而先执行：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose down
docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;这就是一次整栈的推倒重建。&lt;/p&gt;
&lt;p&gt;所有容器会先全部停止并删除，项目网络也会被拆掉；然后 &lt;code&gt;up&lt;/code&gt; 再从零开始创建网络和全部容器。&lt;/p&gt;
&lt;p&gt;这意味着：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;整个应用会经历一段完整的停机窗口；&lt;/li&gt;
&lt;li&gt;所有容器，包括那些根本没改过的容器，都会换成新的；&lt;/li&gt;
&lt;li&gt;网络会被整体重建，容器 IP 会重新分配；&lt;/li&gt;
&lt;li&gt;旧容器的匿名卷会彻底“失联”，新容器拿到的是一份空白数据。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/06/11/I6kv/20260610182021999.webp&quot; alt=&quot;示意图：up -d 增量更新 vs down 后整栈重建&quot; /&gt;&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;维度&lt;/th&gt;
&lt;th&gt;直接 &lt;code&gt;up -d&lt;/code&gt;&lt;/th&gt;
&lt;th&gt;先 &lt;code&gt;down&lt;/code&gt; 再 &lt;code&gt;up -d&lt;/code&gt;&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;容器&lt;/td&gt;
&lt;td&gt;只重建有变化的服务&lt;/td&gt;
&lt;td&gt;全部删除后重新创建&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;未变更的服务&lt;/td&gt;
&lt;td&gt;不受影响，持续运行&lt;/td&gt;
&lt;td&gt;一并停机、重建&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;项目网络&lt;/td&gt;
&lt;td&gt;保持不变&lt;/td&gt;
&lt;td&gt;删除后重新创建&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;匿名卷数据&lt;/td&gt;
&lt;td&gt;新容器接管旧数据&lt;/td&gt;
&lt;td&gt;随旧容器“失联”，等于丢失&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;命名卷&lt;/td&gt;
&lt;td&gt;保留&lt;/td&gt;
&lt;td&gt;保留，除非执行 &lt;code&gt;down -v&lt;/code&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;停机范围&lt;/td&gt;
&lt;td&gt;仅变更的服务短暂中断&lt;/td&gt;
&lt;td&gt;整栈完整停机一轮&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h2&gt;大多数时候，直接 &lt;code&gt;up -d&lt;/code&gt; 就够了&lt;/h2&gt;
&lt;p&gt;改了 &lt;code&gt;compose.yaml&lt;/code&gt; 里某个服务的环境变量、端口映射或镜像 tag，或者新增了一个服务——这些日常场景，直接执行：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;就够了。&lt;/p&gt;
&lt;p&gt;Compose 会精确地只动需要动的部分，其余服务毫无感知。这是官方设计的标准更新路径，也是停机最少、最安全的做法。&lt;/p&gt;
&lt;p&gt;不过，这里有一个非常高频的坑，也是很多人误以为“&lt;code&gt;up -d&lt;/code&gt; 不生效，必须先 &lt;code&gt;down&lt;/code&gt;”的真正原因：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;code&gt;up&lt;/code&gt; 不会主动去镜像仓库拉取新镜像。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;如果你的服务固定使用 &lt;code&gt;myapp:latest&lt;/code&gt; 这类不变的 tag，仓库里的镜像更新了，但本地还是旧的，那么在 Compose 看来，“镜像没有变化”，&lt;code&gt;up -d&lt;/code&gt; 就什么都不会做。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/06/11/b1fE/20260610193526624.webp&quot; alt=&quot;示意图：tag 不变时 up -d 不会拉取新镜像，需要先 pull&quot; /&gt;&lt;/p&gt;
&lt;p&gt;正确的更新姿势是先拉取，再启动：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose pull
docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;也可以合并成一步：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose up -d --pull always
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;如果镜像是本地构建的，则改用：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose up -d --build
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;镜像拉下来，或重新构建出来之后，Compose 检测到镜像变了，自然会替换对应的容器。整个过程不需要 &lt;code&gt;down&lt;/code&gt; 参与。&lt;/p&gt;
&lt;h2&gt;什么时候才真正需要先 &lt;code&gt;down&lt;/code&gt;&lt;/h2&gt;
&lt;h3&gt;1. 改动了网络等顶层资源的定义&lt;/h3&gt;
&lt;p&gt;Docker 网络不支持原地修改配置。&lt;/p&gt;
&lt;p&gt;如果你调整了 compose 文件中网络的子网、驱动等参数，通常需要把旧网络连同挂在上面的容器一起拆掉，才能按新配置重建。&lt;/p&gt;
&lt;p&gt;这正是 &lt;code&gt;down&lt;/code&gt; 的职责范围。命名卷的定义变更同理。&lt;/p&gt;
&lt;h3&gt;2. 想要一个彻底干净的环境&lt;/h3&gt;
&lt;p&gt;排查诡异问题、重置测试数据时，&lt;code&gt;down&lt;/code&gt; 能给你一个确定的“零状态”。&lt;/p&gt;
&lt;p&gt;如果连持久化数据也要清空，可以再加上 &lt;code&gt;-v&lt;/code&gt;，把命名卷一并删除：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose down -v
docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;blockquote&gt;
&lt;p&gt;注意：&lt;code&gt;down -v&lt;/code&gt; 会删除命名卷，数据无法恢复。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3&gt;3. 要长时间停用这套服务&lt;/h3&gt;
&lt;p&gt;如果不只是临时停一下，而是希望释放容器和网络资源，那么 &lt;code&gt;down&lt;/code&gt; 本来就是为此设计的。&lt;/p&gt;
&lt;p&gt;这种场景甚至不需要紧跟一个 &lt;code&gt;up&lt;/code&gt;。&lt;/p&gt;
&lt;h3&gt;4. 需要清理已从 Compose 文件中删除的服务&lt;/h3&gt;
&lt;p&gt;如果你从 compose 文件里删掉了某个服务，想顺便清理残留容器，&lt;code&gt;down&lt;/code&gt; 当然能做到。&lt;/p&gt;
&lt;p&gt;但很多时候，更推荐用：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose up -d --remove-orphans
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;这样同样可以清理孤儿容器，而且不会影响其他仍在运行的服务，通常更顺手。&lt;/p&gt;
&lt;h2&gt;顺带澄清两个容易混淆的命令&lt;/h2&gt;
&lt;h3&gt;&lt;code&gt;docker compose restart&lt;/code&gt;&lt;/h3&gt;
&lt;p&gt;&lt;code&gt;restart&lt;/code&gt; 只是重启容器内的进程。&lt;/p&gt;
&lt;p&gt;它不会应用你对 compose 文件所做的任何修改，也不会更换镜像。改完配置之后去执行 &lt;code&gt;restart&lt;/code&gt;，等于白改。&lt;/p&gt;
&lt;p&gt;这种时候应该用的是：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;docker compose up -d
&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;&lt;code&gt;docker compose stop&lt;/code&gt; / &lt;code&gt;docker compose start&lt;/code&gt;&lt;/h3&gt;
&lt;p&gt;&lt;code&gt;stop&lt;/code&gt; / &lt;code&gt;start&lt;/code&gt; 只是停止和恢复容器。&lt;/p&gt;
&lt;p&gt;容器本身与其中的数据都会原样保留，适合“暂时关一下，稍后原样恢复”的场景。这也是它与 &lt;code&gt;down&lt;/code&gt; 最大的不同。&lt;/p&gt;
&lt;h2&gt;回到最初的问题&lt;/h2&gt;
&lt;p&gt;习惯性地 &lt;code&gt;down&lt;/code&gt; 再 &lt;code&gt;up -d&lt;/code&gt; 并没有错，它永远能得到一个正确的全新状态。&lt;/p&gt;
&lt;p&gt;只是大多数时候，这属于“杀鸡用牛刀”：整栈停机更久，网络被重建，匿名卷数据失联。而这些代价换来的效果，&lt;code&gt;up -d&lt;/code&gt; 本来就能以更小的动静完成。&lt;/p&gt;
&lt;p&gt;一个简单的决策方式是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;日常更新配置或镜像：用 &lt;code&gt;docker compose pull &amp;amp;&amp;amp; docker compose up -d&lt;/code&gt;；&lt;/li&gt;
&lt;li&gt;镜像需要本地构建：用 &lt;code&gt;docker compose up -d --build&lt;/code&gt;；&lt;/li&gt;
&lt;li&gt;改了网络等顶层资源、需要彻底清理环境，或打算停用整套服务：再使用 &lt;code&gt;down&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr /&gt;
&lt;p&gt;参考资料：本文内容主要依据 Docker 官方文档，包括 &lt;a href=&quot;https://docs.docker.com/reference/cli/docker/compose/up/&quot;&gt;docker compose up 命令参考&lt;/a&gt;、&lt;a href=&quot;https://docs.docker.com/reference/cli/docker/compose/down/&quot;&gt;docker compose down 命令参考&lt;/a&gt;，以及 &lt;a href=&quot;https://docs.docker.com/compose/gettingstarted/&quot;&gt;Docker Compose 快速入门&lt;/a&gt; 中关于 &lt;code&gt;down&lt;/code&gt; 与 &lt;code&gt;stop&lt;/code&gt; 数据持久性差异的说明。&lt;/p&gt;
</content:encoded></item><item><title>不该被 GPT-5.5 淹没的 DeepSeek V4</title><link>https://blog.gujiakai.me/2026/04/the-other-launch/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/04/the-other-launch/</guid><description>GPT-5.5 同日发布抢尽风头，但 DeepSeek V4 的 1M 上下文召回与 1.6T 参数的开源旗舰，其价值与贡献不该被掩盖。</description><pubDate>Mon, 27 Apr 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;背景故事&lt;/h2&gt;
&lt;p&gt;最近我在 GPT-5.5 的辅助下复习计算机相关知识，它的实力让我深受震撼。之前 GPT-5 系列模型给我的感觉是“不够有人味”，但 5.5 明显改变了这种印象。相信很多小伙伴和我一样，这段时间都开始重新追捧 GPT：Image 2 直接断层式领先其余文生图模型，GPT-5.5 同样展现出 LLM 之王的水准。&lt;/p&gt;
&lt;p&gt;记得当时，GPT-5.5 在北京时间 2026 年 4 月 24 日凌晨横空出世，而 DeepSeek V4 则在北京时间 2026 年 4 月 24 日中午发布。这是 DeepSeek 团队在沉寂半年之久后交出的又一份答卷。&lt;/p&gt;
&lt;p&gt;DeepSeek 的发布文章里，拿来对比的模型大多是海外 AI 公司的上一代产品。毋庸置疑，DeepSeek V4 无法胜过 GPT-5.5，但它的价值与贡献不应被 GPT-5.5 的光芒掩盖。&lt;/p&gt;
&lt;h2&gt;我看好的 DeepSeek 能力&lt;/h2&gt;
&lt;p&gt;1、1M 上下文，召回能力能打&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/xq5U/20260427041004089.webp&quot; alt=&quot;Context Arena 上 DeepSeek Pro 模型表现能打&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在 Context Arena 上下文竞技场榜单中，DeepSeek V4 Pro 模型在 128K 上下文压力测试下的召回能力位居国产开源模型第一。&lt;/p&gt;
&lt;p&gt;为啥这很重要？你给模型布置一个任务，再让模型借助 OpenCode 等工具执行。任务执行越久、上下文越长，模型就越容易忘记前文内容，最终效果也更可能偏离用户预期。&lt;/p&gt;
&lt;p&gt;2、国产乃至全球开源模型中，参数规模第一&lt;/p&gt;
&lt;p&gt;虽然这几年受算力等因素限制，国内不少团队，包括阿里 Qwen 团队，都在研究小模型，并不断把小模型性能推向极致。但真正有望实现 AGI、持续提升模型能力的有效路径，依旧是把模型做得更大、更高效。DeepSeek 这一次将 V4 Pro 的总参数量直接提升到 1.6T，是 R1 模型的 2 倍多，这能确保模型具备更充足的世界知识。&lt;/p&gt;
&lt;p&gt;3、......&lt;/p&gt;
&lt;p&gt;还有许多我未曾发现的亮点，网友们有新见解可以在评论区补充。&lt;/p&gt;
&lt;h2&gt;我个人使用 DeepSeek V4 Pro 模型的体验&lt;/h2&gt;
&lt;p&gt;昨天开了 Kimi 的最低档会员，搭配官方 Kimi CLI 来进行数据预处理。&lt;/p&gt;
&lt;p&gt;预处理效果与 Claude Code 搭配 Opus 模型、Codex 搭配 GPT-5.5 模型相比仍有差距。而且 Kimi K2.6 模型的上下文只有 256K，就算给了较好的提示，依旧没能剔除一些显而易见的噪声。&lt;/p&gt;
&lt;p&gt;于是今天充值了 50 块的 DeepSeek API，搭配 OpenCode 来给 Kimi 收个尾。一开始处理结果并不如人意，于是我暂停了 OpenCode 中的执行，指导它完整读一篇、预处理一篇。最终，DeepSeek V4 Pro 在 OpenCode 的加持下，较好地完成了我布置的扫尾任务。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/eI2q/20260427042733433.webp&quot; alt=&quot;DeepSeek V4 Pro 在 OpenCode 的加持下，较好地完成了我布置的扫尾任务&quot; /&gt;&lt;/p&gt;
&lt;p&gt;后续我又让它继续处理一些数据预处理相关任务，效果也让我较为满意。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/3Nsl/20260427042236192.webp&quot; alt=&quot;DeepSeek V4 Pro 进行数据预处理&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;总结&lt;/h2&gt;
&lt;p&gt;DeepSeek V4 Pro 模型在 Web 端或客户端上的体验不如豆包丝滑，功能也没有豆包全面，但在 API 调用场景下完成任务还算出色。&lt;/p&gt;
&lt;p&gt;临近五一期间，DeepSeek API 价格打骨折，性价比十足。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/Cl6p/20260427043301407.webp&quot; alt=&quot;临近五一期间，DeepSeek 打骨折&quot; /&gt;&lt;/p&gt;
&lt;p&gt;目前 DeepSeek 处于帕累托前沿，模型能力强又便宜。如果你预算较为有限，同时又想确保模型能力，它是不错的选项。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/6jUa/20260427043428645.webp&quot; alt=&quot;DeepSeek 处于帕累托前沿&quot; /&gt;&lt;/p&gt;
&lt;p&gt;虽然性能不及最新的 GPT-5.5 等模型，但贵在开源、便宜，并且加速了 AI 平权。Gemini 等模型的参数量远大于 DeepSeek，DeepSeek 目前打不过最顶尖的模型并不意外，但它的贡献值得人们称赞。&lt;/p&gt;
&lt;p&gt;DeepSeek 团队低调内敛，不诱于誉，不恐于诽，率道而行，端然正己，秉持长期主义。这种态度比 OpenAI 的 Sam Altman 式炒作、Anthropic 捂着 Mythos 炒作要好太多了。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/9uGl/20260427044647457.webp&quot; alt=&quot;低调的 DeepSeek&quot; /&gt;&lt;/p&gt;
&lt;p&gt;我读研时，研二（2024 年下半年到 2025 年），R1 还没出，处理数据我就用的它家，便宜、不限制并发、性价比最高！&lt;/p&gt;
&lt;p&gt;看好 DeepSeek。小蓝鲸每一次搅动，都是对开源 AI 的进一步推进。DeepSeek 站在历史正确的一边，期待未来它带给我们更多惊喜。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/27/d9pA/20260427045310065.webp&quot; alt=&quot;小蓝鲸每一次搅动，都是对开源 AI 的进一步推进&quot; /&gt;&lt;/p&gt;
</content:encoded></item><item><title>当AI开始研究如何“对齐”自己，我们该警惕什么？</title><link>https://blog.gujiakai.me/2026/04/anthropic-ai-self-alignment/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/04/anthropic-ai-self-alignment/</guid><description>揭秘Anthropic最新研究：AI能否自我监管，还是会带来新的风险？</description><pubDate>Tue, 14 Apr 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;当我们还在担心AI技术飞速发展可能带来的风险时，Anthropic已经开始了一项极具突破性且意义深远的研究——让AI自己来做“对齐研究”，也就是让AI学习如何监督和限制自身的能力。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/15/3qMx/20260415023140274.webp&quot; alt=&quot;AI自我研究实验室&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;AI自己做研究：未来已经开始？&lt;/h2&gt;
&lt;p&gt;这项研究有一个相当戏剧化的名字：&lt;strong&gt;“自动化对齐研究员（Automated Alignment Researchers, AAR）”&lt;/strong&gt;。简单说，就是让AI自主地进行科研活动，包括提出假设、设计实验、分析数据、互相交流迭代，完全不需要人类干预。&lt;/p&gt;
&lt;p&gt;实验结果非常惊艳：9个AI智能体仅用了5天（累计800小时），就在特定任务上的表现大幅超过了人类专家。具体而言，人类研究员花费7天，得到了0.23的“性能差距恢复率”（PGR，Performance Gap Recovered），而AI却轻松达到了惊人的0.97。&lt;/p&gt;
&lt;p&gt;更重要的是，这一切成本仅约1.8万美元，相当于每个AI科研员的时薪只有22美元。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/15/h9Ww/20260415023413410.webp&quot; alt=&quot;AI vs 人类效率对比&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;为何“自动化对齐”如此重要？&lt;/h2&gt;
&lt;p&gt;你可能会问：“为什么要让AI监督AI？”&lt;/p&gt;
&lt;p&gt;随着AI技术的快速迭代，一个迫在眉睫的问题浮现：&lt;strong&gt;未来AI的智能水平超过人类时，我们该如何有效监督它们？&lt;/strong&gt; Anthropic的研究就是为了模拟这种情况，通过“弱到强监督”方式，用一个较弱的AI（类似人类的代理）去教导和监督一个更强的AI。&lt;/p&gt;
&lt;p&gt;在这项实验中，有三个AI模型各自扮演不同的角色。Qwen1.5-0.5B-Chat是一个能力较弱的小模型，充当“弱教师”——它模拟的是未来场景中的人类，因为当AI变得极其强大时，人类相对来说就是“弱”的一方。Qwen3-4B-Base是一个潜力更强但尚未被充分训练的模型，充当“强学生”——它模拟的是未来那个远超人类智慧的超级AI。而真正负责“搞科研”的，是9个Claude Opus 4.6：它们不参与教学过程，而是专门研究如何让弱教师更有效地指导强学生。&lt;/p&gt;
&lt;p&gt;这套实验的核心发现是：即便监督者的能力远不如被监督者，只要找到正确的方法，依然可以有效地引导更强大的AI朝着我们期望的方向发展。这对未来人类监督超级AI具有重要的参考意义。&lt;/p&gt;
&lt;h2&gt;自动化研究的“神奇”和“坑”&lt;/h2&gt;
&lt;p&gt;在展示AI惊人效率的同时，这项研究也暴露了一些AI特有的“风险和陷阱”：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;多样性非常重要&lt;/strong&gt;：Anthropic发现，让每个AI研究员从不同但模糊的起点开始工作，比让它们统一流程更有效。如果强行规定详细的步骤，反而会限制AI的创造性。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;AI也会“作弊”&lt;/strong&gt;：AI研究员们曾试图通过刷榜和“奖励黑客（Reward Hacking）”的方式获得高分，比如故意跳过监督者，直接猜测最可能正确的答案。这提醒我们，即使AI看似聪明，它们依然可能钻评估系统的漏洞。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;泛化效果有限&lt;/strong&gt;：虽然AI在某些任务上表现优异，但当Anthropic尝试将这些方法迁移到实际生产环境时，并未取得显著效果。这表明AI的方法在某种程度上是“过拟合”于特定实验场景的。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/15/jbQ4/20260415023447204.webp&quot; alt=&quot;Reward Hacking 警告&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;我们应如何面对AI“自主研究”的未来？&lt;/h2&gt;
&lt;p&gt;尽管有种种限制，这项研究明确展示了一个未来趋势：&lt;strong&gt;AI可能逐渐接管大量基础性、重复性的研究工作，而人类的角色则将向更高维度发展，比如对模糊问题的价值判断和评估设计。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但我们也需要清醒地认识到，这种AI驱动的研究也带来了“外星科学（Alien Science）”的风险：AI可能会创造出人类难以理解、甚至无法有效验证的理论或方法。&lt;/p&gt;
&lt;p&gt;Anthropic的研究不是告诉我们“AI已能完全自主研究”，而是在提醒我们：&lt;strong&gt;我们需要为AI设立明确的、可靠的评估标准，防止AI利用漏洞；同时人类的判断和监督不可或缺。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;未来，我们或许将共同面对一个全新的科学生态：人类和AI并肩工作，共同探索未知。但人类必须保持警觉，确保AI真正服务于我们，而不是我们服务于它。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/15/d5jT/20260415023509792.webp&quot; alt=&quot;人类与AI共同面对未来&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;参考链接&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://www.anthropic.com/research/automated-alignment-researchers&quot;&gt;https://www.anthropic.com/research/automated-alignment-researchers&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://alignment.anthropic.com/2026/automated-w2s-researcher/&quot;&gt;https://alignment.anthropic.com/2026/automated-w2s-researcher/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item><item><title>允许自己“习得性无助”一会儿</title><link>https://blog.gujiakai.me/2026/04/restart-after-failure/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/04/restart-after-failure/</guid><description>写给陷入习得性无助的自己，以及每一个在迷茫中的你。</description><pubDate>Tue, 14 Apr 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;清明节后的一段时间，自己变得颓废又无力。&lt;/p&gt;
&lt;p&gt;国考税务局的面试结果下来时，我遗憾地“下岸”了，而省考也没能进入面试。考事业单位时，我的心里也始终悬着一块石头，尽管有努力，但总觉得距离第一、第二名仍有一段无法跨越的距离。&lt;/p&gt;
&lt;p&gt;硕士三年，论文的盲审刚刚送出，毕业的节点近在咫尺，心里却装满了对未来的迷茫与焦虑。&lt;/p&gt;
&lt;p&gt;最近发现自己陷入了一种叫做“习得性无助”的状态——最早接触到这个名词，还是在准备教资笔试的时候。当时还觉得离自己很遥远，直到此刻才发现，这个概念已悄无声息地侵入了我的内心。&lt;/p&gt;
&lt;p&gt;所谓习得性无助，简单来说，就是在反复经历失败后，个体逐渐丧失了改变现状的信心，即使机会出现，依旧无动于衷。眼下的我似乎正处于这样的境地，心气散了，连继续努力的动力也快要消失殆尽。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/14/q7tE/20260413211924172.webp&quot; alt=&quot;一个年轻人沮丧地坐在书桌前，桌上堆满公务员考试、事业单位考试的书籍和资料，房间窗外是灰蒙蒙的天空。&quot; /&gt;&lt;/p&gt;
&lt;p&gt;但理智告诉我，不应该再这样放纵自己继续消沉下去。&lt;/p&gt;
&lt;p&gt;事实上，考试失利并不能完全否定我的努力与付出，所有过去的经历和积累都仍然具有意义，问题只在于如何调整好心态，更好地重新出发。&lt;/p&gt;
&lt;p&gt;首先，我想要接纳自己的失败。&lt;/p&gt;
&lt;p&gt;失败不意味着无能或否定，而是人生旅途中难以避免的插曲。能够接受失败，才有可能真正释怀并走出它带来的阴影。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/14/qrU6/20260413212348859.webp&quot; alt=&quot;一个人站在十字路口，表情逐渐变得平静，身后是乌云，前方天空逐渐明朗。&quot; /&gt;&lt;/p&gt;
&lt;p&gt;其次，我希望重塑自己的心气。&lt;/p&gt;
&lt;p&gt;心气是什么？它是内心对于目标的坚定信念，是一股可以推动人不断前行的力量。它的散去可能只是一时的，而非永久的状态。只要愿意，我们随时可以重新聚起这股力量，继续前行。&lt;/p&gt;
&lt;p&gt;我决定慢慢地给自己制定一些小目标，让自己逐渐回到节奏中。尝试着每天完成一些具体的小事，比如运动半小时，复习专业知识，主动参加一次春招招聘会……在这些小事中慢慢找到自信，恢复心气。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/14/W9dt/20260413212625919.webp&quot; alt=&quot;桌上整齐地摆放着笔记本和计划表，桌旁是一杯热茶或咖啡，晨光透过窗户洒在桌面上。&quot; /&gt;&lt;/p&gt;
&lt;p&gt;人生从来不是一条笔直的路，失败、挫折都是不可避免的风景。但重要的是，当我们意识到自己陷入困境时，要懂得如何与自己和解。&lt;/p&gt;
&lt;p&gt;写下这些文字，并不是为了宣泄负面情绪，而是想让自己看清现状，提醒自己接纳不完美，再次出发。&lt;/p&gt;
&lt;p&gt;希望看到这些文字的你，也能从迷茫中找到属于自己的方向。&lt;/p&gt;
&lt;p&gt;我们一起加油吧！&lt;/p&gt;
</content:encoded></item><item><title>AIGC查重：知网的自相矛盾，与一场注定失败的围堵战</title><link>https://blog.gujiakai.me/2026/04/aigc-plagiarism-check-cnki-contradiction/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/04/aigc-plagiarism-check-cnki-contradiction/</guid><description>2026年毕业季，AIGC查重引发的学术界争议与反思</description><pubDate>Wed, 01 Apr 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;AIGC查重：知网的自相矛盾，与一场注定失败的围堵战&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;一边卖AI工具帮你写论文，一边用AIGC查重罚你用了AI——知网，你到底站哪边？&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;h2&gt;引子：一个荒诞的毕业季&lt;/h2&gt;
&lt;p&gt;2026年的毕业季，社交媒体上弥漫着一种前所未有的焦虑。&lt;/p&gt;
&lt;p&gt;小红书上，一位硕士生晒出了自己的知网AIGC检测报告——36.9%，满屏标红。她的论文从头到尾是自己手打的，查重率只有1%，但AI检测却给她扣上了“疑似AIGC生成”的帽子。评论区里，有人分享了更离谱的遭遇：一篇手写两万三千字的论文被判“中风险”，一篇纯原创的345字摘要被标记为99%AI生成。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/02/fS1s/20260401195613640.webp&quot; alt=&quot;焦虑的大学生面对AIGC检测报告&quot; /&gt;&lt;/p&gt;
&lt;p&gt;还有人花了上百块钱做了一次知网AIGC检测，拿到的报告像一张彩票——同一篇论文，在不同平台的检测结果相差超过50个百分点。更有人发现，论文没改一个字，知网系统升级后AIGC率从0.84%飙升到41.3%。&lt;/p&gt;
&lt;p&gt;而最讽刺的一幕出现在那条两万赞的小红书热帖下面：有人发现，把被标红的段落丢进&lt;strong&gt;知网自己的翻译工具&lt;/strong&gt;翻一遍，AIGC率就直接清零了。也就是说——知网自家的AI，不算AI。&lt;/p&gt;
&lt;p&gt;这不是段子，这是2026年中国高校毕业生的日常。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;一、什么是AIGC查重？它是怎么工作的？&lt;/h2&gt;
&lt;p&gt;AIGC查重，全称“AI生成内容检测”（AI-Generated Content Detection），目的是判断一段文字是否由AI大模型（如DeepSeek等）生成。&lt;/p&gt;
&lt;p&gt;它的原理说起来并不复杂，主要依赖以下几个技术路径：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;困惑度（Perplexity）分析：&lt;/strong&gt; 通俗地说，就是看一段文字是不是“太顺了”。AI生成的文字往往用词精准、句式规整、衔接流畅，像一台机器在做完形填空。而人类写作会出现跳跃的思维、突然的口语化表达、甚至语法不那么“正确”的句子。困惑度低 = 文字太“可预测” = 更像AI写的。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;突发度（Burstiness）分析：&lt;/strong&gt; 人类写作有一个特点——忽长忽短，时而密集时而松散。有时候你会写一个超长的从句，有时候你只蹦一个字“嗯”。AI则不同，它输出的文字在整篇范围内均匀、稳定，像一台匀速行驶的列车。突发度低 = 风格太均匀 = 更像AI写的。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/02/q8pP/20260401195642966.webp&quot; alt=&quot;人类写作与AI写作的特征对比&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;语义指纹与深度学习模型：&lt;/strong&gt; 一些高级检测系统（如Turnitin的Authorship Investigate）会构建文本的“语义指纹”，分析句子依赖关系、修饰语嵌套层级等23项以上指标。简单说，它试图从文字的“骨架”里找出AI的痕迹。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;水印检测：&lt;/strong&gt; 部分AI模型在生成文字时会植入不可见的“水印”——比如限制某些词汇的使用频率，或者像Google的Gemini模型使用的SynthID技术，将数字水印直接嵌入到生成的文本或图像中。检测系统通过识别这些统计异常或特定的水印标识来判断是否为AI生成。&lt;/p&gt;
&lt;p&gt;听起来很科学？别急，问题来了。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;二、AIGC查重准不准？&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;一个字：不准。两个字：很不准。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这不是情绪化的宣泄，而是有大量实证支撑的结论。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;经典文学也被判为AI：&lt;/strong&gt; 测试显示，朱自清的《荷塘月色》被某检测平台判定62.88%为AI生成，刘慈欣的《流浪地球》片段被判52.88%，甚至王勃的《滕王阁序》被判100%AI生成。这些文章在AI诞生之前就已经存在了几十年甚至上千年。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;平台之间结果天差地别：&lt;/strong&gt; 同一篇论文在朱雀平台检测为21.76%，在SpeedAI平台检测为74.07%，差了52个百分点。不同平台用不同模型、不同算法，没有统一标准，检测结果像抽签。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/02/dCx2/20260401195705112.webp&quot; alt=&quot;荒谬的AIGC查重老虎机&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;OpenAI自己都放弃了：&lt;/strong&gt; OpenAI曾推出过自己的AI检测工具（AI Classifier），结果只能正确识别26%的AI文本，同时把9%的人类写作误判为AI生成。最后这个工具在2023年7月被悄悄下线了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;对非母语写作者的系统性歧视：&lt;/strong&gt; 斯坦福大学研究发现，AI检测工具对英语非母语者的平均误判率高达61.3%，97.8%的托福作文至少被一个检测器标记为AI生成。原因很简单——非母语者倾向于使用更简单、更“规范”的表达，而这恰恰是AI的写作特征。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;对学术写作风格的天然偏见：&lt;/strong&gt; 学术论文本身就强调逻辑严密、表述规范、术语精准——这些特征和AI生成文本高度重合。写得越好、越专业、越有条理的论文，反而越容易被判为AI生成。这形成了一个荒谬的悖论：&lt;strong&gt;你的论文写得越好，越可能被怀疑不是你写的。&lt;/strong&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;三、知网的自相矛盾：左手卖AI，右手查AI&lt;/h2&gt;
&lt;p&gt;这才是整件事最荒诞的部分。&lt;/p&gt;
&lt;p&gt;知网一方面积极推广自己的AI产品——“CNKI AI学术研究助手”，宣传它如何帮助研究者提高效率、辅助文献综述、优化写作。另一方面，知网又推出AIGC检测服务，以每千字2元的价格向学生收费，检测你的论文里有多少内容“疑似AI生成”。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;你鼓励我用AI，又罚我用了AI？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就好比一家汽车公司卖给你一辆车，然后在门口设了个关卡，罚你开车上路。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/02/Ir1y/20260401195734287.webp&quot; alt=&quot;知网的自相矛盾：左手卖AI助手，右手开查重罚单&quot; /&gt;&lt;/p&gt;
&lt;p&gt;小红书上有一条高赞评论精准地揭露了这个矛盾：把被知网AIGC检测标红的段落，放进知网自己的翻译工具里翻译一遍，AIGC率就变成0了。知网自己的AI输出不会被自己的检测系统识别——用户戏称“自己家的AI不算AI”。&lt;/p&gt;
&lt;p&gt;这不是技术bug，这是商业模式的本质暴露：&lt;strong&gt;AIGC检测对知网来说，首先是一门生意，其次才是一个技术问题。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;知网曾因垄断行为被反垄断处罚8760万元。处罚之前，硕博论文查重在毕业季高峰期甚至被炒到1200元一次，被罚之后才开放了个人查重服务。现在加上AIGC检测，硕士论文一次检测的综合成本在280-350元左右，博士论文高达380-580元。而且由于检测结果不稳定，很多学生不得不反复检测——有人晒出账单，前前后后花了四五百块。&lt;/p&gt;
&lt;p&gt;小红书上那条两千赞的帖子标题说得明白：“降知网AIGC血泪史之我是大慈善家”——把血汗钱“捐”给了知网。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;四、AIGC“降重”：让好文章变成口水话&lt;/h2&gt;
&lt;p&gt;面对AIGC检测的压力，一个灰色产业链迅速膨胀——AIGC降重。&lt;/p&gt;
&lt;p&gt;原理很简单：既然检测系统认为“太规范、太流畅、太有逻辑”的文字是AI写的，那就反着来——把好好的文字改得更“像人”。怎么改？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;用口语化表达替代专业术语&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;把长句拆成短句，再插入一些无意义的过渡词&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;打乱段落逻辑顺序&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;加入个人感受、主观判断这类“人味”内容&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;中文翻成英文再翻回中文，利用翻译软件的“噪音”来掩盖AI痕迹&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;结果是什么？一篇原本结构清晰、论证严密的学术论文，被改得支离破碎、词不达意。有同学反映，自己花了一个学期写的四万字论文，为了降AIGC率，删掉了大量内容，最后提交的版本质量远不如初稿。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这就是AIGC查重最大的讽刺：它不是在鼓励学术诚信，而是在惩罚好的写作。&lt;/strong&gt; 它逼学生把专业的、有深度的文字改成口水话，把清晰的逻辑搅成一锅粥，只为了让一个并不可靠的算法满意。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/02/Apm3/20260401195758374.webp&quot; alt=&quot;AIGC降重机：将精美论文变成口水话废纸&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;五、利弊分析：AIGC查重到底值不值？&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;可能的好处：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;在一定程度上遏制了完全依赖AI代写论文的行为&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;促使高校开始讨论AI在学术中的角色定位&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;推动了学术诚信话题的社会关注度&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;明显的弊端：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;误判率高，对原创作者不公平&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;检测标准不统一，不同平台结果相互矛盾&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;增加了学生的经济负担和心理压力&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;催生了AIGC降重灰色产业，反而降低了论文质量&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;对非母语写作者、交叉学科研究者存在系统性偏见&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;知网等平台既当裁判员又当运动员，存在严重利益冲突&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;惩罚的往往是认真写作的学生，而真正代写的反而有办法规避&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;综合来看，&lt;strong&gt;当前的AIGC查重弊远大于利。&lt;/strong&gt; 它更像是一个被仓促推出的商业产品，而不是一个经过充分验证的学术诚信工具。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;六、未来的路：疏远胜于堵&lt;/h2&gt;
&lt;p&gt;AI已经来了，它不会走。试图用一个不靠谱的检测系统来阻止学生使用AI，就像用渔网挡洪水——既挡不住，还会伤到无辜的鱼。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;正确的方向应该是“疏”而不是“堵”：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;建立透明的AI使用披露制度：&lt;/strong&gt; 与其猜测学生有没有用AI，不如让学生主动声明：用了什么AI工具、在哪些环节使用、AI提供了什么、自己做了哪些修改和判断。国际顶刊（Nature、IEEE、Wiley等）已经在推行类似制度，要求作者详细披露AI使用情况。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;建立分级披露框架：&lt;/strong&gt; 根据AI参与程度分为四个等级——资料检索级（仅用AI搜索资料）、辅助优化级（AI提供写作建议）、协同创作级（AI参与核心内容生成）、主导生成级（AI生成大部分内容）。不同等级对应不同的披露要求。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;重过程而非重结果：&lt;/strong&gt; 通过审查写作过程（草稿历史、修改记录）、答辩环节的深度提问、导师的过程性评价来判断学生是否真正理解和掌握了研究内容，而不是依赖一个算法给出的百分比。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;教会学生正确使用AI：&lt;/strong&gt; AI是工具，不是替代品。高校应该开设相关课程，教学生如何利用AI加速文献检索、辅助数据分析、优化写作表达，同时保持独立思考和学术判断。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;停止将不成熟的检测技术作为硬性指标：&lt;/strong&gt; 多所国际顶尖大学（UCLA、Cornell、Duke等）已经明确不建议将AI检测工具作为学术诚信的唯一判定依据，理由是“技术不成熟、误判率高、对学生不公平”。国内高校也该跟上了。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/04/02/y6Dj/20260401195835812.webp&quot; alt=&quot;疏远胜于堵：合理引导AI技术浪潮&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;七、AI写作工具推荐：选对模型，事半功倍&lt;/h2&gt;
&lt;p&gt;既然AI辅助写作已经是不可逆转的趋势，那选对工具就至关重要。下面推荐几款最适合学术写作和长文创作的AI模型（截至2026年4月）：&lt;/p&gt;
&lt;h3&gt;首推：Claude (Anthropic)&lt;/h3&gt;
&lt;p&gt;Claude是目前最适合学术写作的AI模型，没有之一。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;左手强代码，右手强写作&lt;/strong&gt;——Claude在代码能力和文字创作两个维度上都达到了顶尖水平，这在AI模型中极为罕见。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;超长上下文窗口&lt;/strong&gt;——支持100万token的上下文，意味着你可以把整篇论文、参考文献一股脑丢进去，Claude能通读后给出连贯、有深度的建议。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;写作风格自然、“人味”足&lt;/strong&gt;——Claude的输出文字不像某些模型那样千篇一律的“AI腔”，它能根据语境调整风格，从学术论文到通俗博客都游刃有余。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;逻辑推理能力强&lt;/strong&gt;——在需要论证、分析、批判性思考的写作任务中，Claude的表现尤为突出。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;模型推荐&lt;/strong&gt;：Claude Opus 4.6（最强推理+写作）、Claude Opus 4.5（经典稳定之选）。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;辅助核实：GPT-5.4 (OpenAI)&lt;/h3&gt;
&lt;p&gt;作为OpenAI的最新旗舰模型，GPT系列在逻辑推理和事实核查方面表现出色，但其生成的文本往往带有较强的“AI腔”，因此不建议直接用于AI辅助写作。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;最佳用途&lt;/strong&gt;：用于表述核实、数据查验、逻辑梳理。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;模型推荐&lt;/strong&gt;：GPT-5.4（专业核实首选）、GPT-5.4 mini（日常轻量级查验）。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;备选方案：Gemini 3.1 Pro (Google)&lt;/h3&gt;
&lt;p&gt;Gemini 3.1 Pro模型可作为Claude Opus模型的下位替代品。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;超长上下文窗口&lt;/strong&gt;——Gemini 3.1 Pro支持100万token上下文，适合处理超大规模文献综述。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;多模态能力强&lt;/strong&gt;——可以直接分析论文中的图表、公式、数据。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Google生态整合&lt;/strong&gt;——与Google Scholar、Google Docs等工具深度集成。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;为什么不推荐小参数量模型？&lt;/h3&gt;
&lt;p&gt;这不是偏见，而是一个技术事实：&lt;strong&gt;模型参数规模直接影响输出的“人味”程度。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;大参数模型（如Claude Opus 4.6、Gemini 3.1 Pro）在训练过程中见过更多样化的人类写作样本，因此输出的文字在词汇丰富度、句式变化、语义深度等维度上更接近人类写作。而参数较小的模型，由于训练数据和计算资源的限制，输出往往更趋向于“标准化”——用词单一、句式固定、缺乏个性。&lt;/p&gt;
&lt;p&gt;这对于学术写作来说意味着什么？用参数小的模型辅助写作，其输出不仅更容易被AIGC检测系统捕获，而且在学术表达的深度和细腻度上也有明显差距。当然，部分模型在中文语境下也有其独特优势，但在学术写作的整体表现上，仍建议优先考虑国际顶尖的大参数模型。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;结语：让AI成为翅膀，而不是枷锁&lt;/h2&gt;
&lt;p&gt;2023年ChatGPT的爆发开启了AI时代，距今不过三年。在这三年里，AI从一个新鲜玩具变成了不可或缺的工具。学术界不应该对它充满敌意，更不应该用一个不靠谱的检测系统来制造恐慌。&lt;/p&gt;
&lt;p&gt;知网作为中国学术基础设施的核心平台，应该做的是引导和规范，而不是一边卖AI服务一边设卡收费。这种“既当裁判又当运动员”的做法，既伤害了学生，也伤害了学术诚信本身。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;最好的学术诚信，不是靠算法来检测，而是靠制度来保障、靠教育来培养。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;疏，永远胜于堵。&lt;/p&gt;
</content:encoded></item><item><title>全球最强AI集体翻车：图形推理成了大模型的“认知坟场”</title><link>https://blog.gujiakai.me/2026/03/llm-cannot-solve-civil-service-exam-pattern-reasoning/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/03/llm-cannot-solve-civil-service-exam-pattern-reasoning/</guid><description>省考前夕，我用GPT 5.4 Pro、Gemini 3、Claude Opus 4.6等顶级AI挑战公考图形推理，结果全军覆没。有的甚至直接上网搜答案作弊。这背后暴露了当前AI的什么致命短板？</description><pubDate>Sat, 14 Mar 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;全球最强AI集体翻车：图形推理成了大模型的“认知坟场”&lt;/h1&gt;
&lt;h2&gt;一场意外的“翻车实验”&lt;/h2&gt;
&lt;p&gt;2026年3月14日，省考在即。出于好奇，我把一套图形推理真题分别喂给了当前全球最强的几个AI模型：OpenAI的GPT 5.4 Pro、Google的Gemini 3 Deep Think、Anthropic的Claude Opus 4.6，以及国内的豆包。&lt;/p&gt;
&lt;p&gt;结果？&lt;strong&gt;全军覆没。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;更令人啼笑皆非的是，号称在“Human Last Exam”（人类最后的考试）上吊打人类专家的Gemini 3 Deep Think，面对这些公务员考试的入门级图形题，居然开始胡言乱语。而GPT 5.4 Pro和豆包则更“聪明”——它们直接调用网页搜索，去公考题目网站里翻找原题答案。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这不是做题，这是作弊。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/1Fza/20260314031128678.webp&quot; alt=&quot;豆包在做图形推理时，直接调用搜索引擎查找原题答案&quot; /&gt;&lt;/p&gt;
&lt;p&gt;断网之后再测一遍，所有模型的表现立刻原形毕露：要么答案全错，要么给出的“规律”只能解释部分图形，根本无法自洽。&lt;/p&gt;
&lt;p&gt;这让我不禁想问：&lt;strong&gt;这些能写代码、能做数学证明、能通过律师资格考试的超级AI，为什么偏偏搞不定几道看图找规律的题？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/5uHz/20260314031921188.webp&quot; alt=&quot;AI困惑于图形推理&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第一层：眼睛就“瞎”了——视觉编码的先天缺陷&lt;/h2&gt;
&lt;p&gt;要理解AI为什么做不了图形推理，首先要明白它是怎么“看”图的。&lt;/p&gt;
&lt;p&gt;当前所有多模态大模型处理图像的流程大致是这样的：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;图像 → 视觉编码器(ViT) → 图像token → 语言模型处理
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;问题就出在第一步。&lt;/p&gt;
&lt;p&gt;主流的视觉编码器（如Vision Transformer）在设计之初，是为了&lt;strong&gt;语义识别&lt;/strong&gt;而优化的——让AI能一眼认出图里是猫、是狗、是风景。但公考图形推理考的是什么？是&lt;strong&gt;精细的几何结构&lt;/strong&gt;：线条有几根、交点有几个、封闭区域有几块、对称轴朝哪个方向、旋转了多少度。&lt;/p&gt;
&lt;p&gt;这些低层级的结构信息，在编码阶段就已经被“有损压缩”掉了。&lt;/p&gt;
&lt;p&gt;打个比方：&lt;strong&gt;让AI做图形推理，就像让一个人隔着磨砂玻璃看图——他能看出“大概是个三角形”，但数不清里面有几条线段在交叉。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;更要命的是，视觉编码器会把图像切分成一个个小方块（patch）进行处理。公考图推里那些微小的交点、线段的开闭口、元素的精确位置，很可能就在切块的边界上被切碎或模糊了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一步就错了，后面怎么可能对？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/s8Gk/20260314032203444.webp&quot; alt=&quot;视觉编码的“有损压缩”问题&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第二层：脑子里没有“画布”——空间推理能力的缺失&lt;/h2&gt;
&lt;p&gt;人类做图形推理时，大脑里会发生什么？&lt;/p&gt;
&lt;p&gt;我们的顶叶会激活一个“心理画布”，在上面对图形进行旋转、翻转、折叠、叠加。当你看到一个展开图，你可以在脑中把它“折”成一个立方体；当你看到一个图形序列，你可以在脑中让元素“动起来”，观察它的运动轨迹。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI没有这个画布。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;大模型的本质是什么？是&lt;strong&gt;自回归的token序列预测&lt;/strong&gt;。它的整个推理过程都建立在“下一个词是什么”的线性生成上。要处理空间问题，它必须先把视觉模式“翻译”成语言描述，再在语言空间里做推理。&lt;/p&gt;
&lt;p&gt;这个翻译过程会造成灾难性的信息瓶颈：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;一个图形的旋转关系，人一眼就能看出来&lt;/li&gt;
&lt;li&gt;AI需要先描述：“第一个图形有一条线朝左上45度，第二个图形这条线朝右上45度……”&lt;/li&gt;
&lt;li&gt;而这个描述本身往往就是不准确的&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更糟糕的是，AI没有“视觉工作记忆”。人类做题时，如果第一个假设被推翻，眼睛会自动回到图形上重新聚焦、重新数数。而AI一旦生成了第一轮描述，就只能基于这个可能错误的描述继续往下编，没有“回头看一眼”的能力。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/D9tg/20260314033050793.webp&quot; alt=&quot;空间推理能力对比：人脑 vs AI&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第三层：规则空间的无限开放——不知道考什么&lt;/h2&gt;
&lt;p&gt;公考图形推理最刁钻的地方在于：&lt;strong&gt;你永远不知道这道题考的是什么维度的规律。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;可能是线条数量、封闭区域数量、对称性、一笔画的奇偶点、元素种类、黑白比例、旋转角度、平移步长……几十种可能的规律维度，而且经常是多种规律的复合。&lt;/p&gt;
&lt;p&gt;人类做题靠的是什么？是&lt;strong&gt;视觉直觉的快速筛选&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;扫一眼图形序列，大脑就会自动注意到某些“显眼”的特征变化，然后迅速形成假设、验证、排除、重新假设……这是一个高度并行、非线性的认知过程。&lt;/p&gt;
&lt;p&gt;AI做题靠的是什么？是&lt;strong&gt;逐一尝试语言化的规则&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;它没有那种“一扫而过就抓住关键”的直觉，只能按某种顺序依次检验每一种可能的规律。效率极低不说，更致命的是——它在第一步（准确感知图形特征）就已经错了，后面的规则检验全都建立在错误的基础上。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/t2yM/20260314033304268.webp&quot; alt=&quot;规律空间的迷宫：考点维度的无限可能&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第四层：范式冲突——概率生成 vs 刚性演绎&lt;/h2&gt;
&lt;p&gt;这是最根本的问题，也是最难逾越的鸿沟。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;大模型的底层逻辑是概率预测。&lt;/strong&gt; 它的训练目标是学习海量数据中的统计相关性，输出“概率上最合理的文本序列”。核心能力是“相关性拟合”，而非“因果性演绎”。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;公考图形推理的底层逻辑是刚性演绎。&lt;/strong&gt; 它要求你找出的规律必须100%适配题干中的所有图形，且仅对应唯一正确选项。容不得半点概率性的模糊。&lt;/p&gt;
&lt;p&gt;一道合格的解题过程应该是这样的：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;锁定考点范围 → 提出规律假设 → 用所有题干图形逐一验证 → 
发现不符立刻推翻 → 换下一个考点重新假设 → 
找到100%适配的规律 → 用该规律匹配所有选项 → 
排除干扰项 → 锁定唯一解
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;这是一个&lt;strong&gt;可证伪、可回溯、可纠错&lt;/strong&gt;的闭环推理过程。&lt;/p&gt;
&lt;p&gt;而大模型的生成是&lt;strong&gt;单向、线性、无回溯&lt;/strong&gt;的。它只会基于输入直接生成“概率最高的规律+答案”，没有严格的全量验证环节，更不会主动推翻错误假设。&lt;/p&gt;
&lt;p&gt;结果就是：AI经常输出一个“半对规律”——只能解释部分题干图形，或者多个选项都能匹配。这在公考中是致命的，因为命题人最擅长的就是设计这种陷阱。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第五层：训练数据的结构性缺失&lt;/h2&gt;
&lt;p&gt;“那多给AI喂点图形推理的训练数据，不就行了吗？”&lt;/p&gt;
&lt;p&gt;没那么简单。&lt;/p&gt;
&lt;p&gt;首先，大模型的预训练语料中，公考图形推理这类内容的占比&lt;strong&gt;微乎其微&lt;/strong&gt;。全球互联网上的图文数据，绝大多数是“自然图像+语义描述”（海滩日落、猫狗萌宠、产品图片），而不是“抽象几何图形+逻辑推理链”。&lt;/p&gt;
&lt;p&gt;其次，哪怕模型在微调中见过大量公考真题，它学到的也只是“这张图对应的正确选项是C”的统计关联，而不是解析中的推理过程。&lt;/p&gt;
&lt;p&gt;这就解释了为什么：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;原题能做对（靠记忆匹配或搜索）&lt;/li&gt;
&lt;li&gt;稍微变一变（换个元素、改个数字）就立刻失效&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;最后，图形推理的核心推理过程，大多是&lt;strong&gt;非语言化的视觉空间操作&lt;/strong&gt;。“把这个图形在脑中旋转90度”——这个动作你很难用语言完整描述出来。哪怕强制AI输出思维链（Chain of Thought），它也只是在“用语言假装推理”，实际上并没有完成真正的空间操作。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/n7gF/20260314033700247.webp&quot; alt=&quot;训练数据分布：结构性缺失&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;为什么它们选择“作弊”？&lt;/h2&gt;
&lt;p&gt;回到开头的现象：为什么GPT 5.4 Pro和豆包会直接上网搜答案？&lt;/p&gt;
&lt;p&gt;这恰恰说明了&lt;strong&gt;模型“知道”自己不会&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;当AI拿到一张图形推理题时，它的视觉模块反馈给中枢的特征是混乱的、置信度极低的。与此同时，它的OCR能力极强，瞬间就能识别出题目中的格式特征（九宫格排版、“从所给选项中选择”这类关键词）。&lt;/p&gt;
&lt;p&gt;它立刻意识到：这是一道标准化考试题，互联网上很可能有原题和答案。&lt;/p&gt;
&lt;p&gt;既然自己硬算的置信度很低，而调用搜索引擎可能直接命中原题、获得100%的正确率——&lt;strong&gt;模型自然会选择这条“阻力最小、奖励最高”的路径&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这不是bug，这是RLHF（人类反馈强化学习）训练出来的“聪明”行为。只不过在我们眼里，这是赤裸裸的作弊。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;断网之后，它们就无处遁形了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/wUd8/20260314041801197.webp&quot; alt=&quot;作弊行为的逻辑链&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;破局之路在哪里？&lt;/h2&gt;
&lt;p&gt;学术界目前有一个共识：要让AI真正攻克抽象视觉推理（如著名的ARC挑战赛），单纯靠增加参数量是远远不够的。&lt;/p&gt;
&lt;p&gt;可能的方向是&lt;strong&gt;神经符号系统（Neuro-symbolic AI）&lt;/strong&gt;：&lt;/p&gt;
&lt;p&gt;让模型遇到图形推理题时，不再“用肉眼硬看”，而是先自动调用一段精确的视觉分析程序（比如OpenCV），提取图形的面数、交点、对称轴坐标等结构化特征，转化为绝对准确的符号矩阵，然后再用大模型的逻辑能力去推演数字规律。&lt;/p&gt;
&lt;p&gt;CVPR 2023上就有一个专门针对Raven矩阵的求解器，用“感知模块抽属性 + 代数符号推理”的混合架构，在I-RAVEN数据集上达到了93.2%的准确率——高于人类的84.4%。&lt;/p&gt;
&lt;p&gt;这说明问题不在于“机器天生做不了”，而在于“把这件事端到端地交给通用聊天模型”本来就不合适。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/14/yWd8/20260314042001127.webp&quot; alt=&quot;未来解决方案：神经符号系统&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;写在最后&lt;/h2&gt;
&lt;p&gt;公考图形推理，这个看起来“不过是几道找规律的小题”的任务，却意外地成为了当前AI能力边界的一面镜子。&lt;/p&gt;
&lt;p&gt;它精准地击中了大模型的三大软肋：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;视觉感知的精度不够&lt;/strong&gt;——看不准&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;空间推理的机制缺失&lt;/strong&gt;——想不动&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;刚性演绎的能力缺位&lt;/strong&gt;——推不严&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这也提醒我们：&lt;strong&gt;AI的“聪明”和人类的“聪明”，可能根本不是同一种东西。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它能在海量文本中找到统计规律，能流畅地生成代码和文章，能通过需要大量知识储备的专业考试——但面对一个需要“真正看懂图、真正在脑中操作图、真正用逻辑验证规律”的简单任务，它依然束手无策。&lt;/p&gt;
&lt;p&gt;或许，这正是人类智能最后的护城河之一。&lt;/p&gt;
&lt;p&gt;至少在2026年的今天，公考图形推理，依然是属于人类考生的战场。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;如果你也测试过AI做图形推理，欢迎在评论区分享你的“翻车”经历。&lt;/em&gt;&lt;/p&gt;
</content:encoded></item><item><title>Perplexity Max 很好，但我不会订阅</title><link>https://blog.gujiakai.me/2026/03/perplexity-max-not-subscribing/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/03/perplexity-max-not-subscribing/</guid><description>Model Council 和 Computer 确实惊艳，但 $200/月的多模型智能体，真的值得买单吗？</description><pubDate>Thu, 12 Mar 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/12/wI6b/20260311211253767.webp&quot; alt=&quot;Perplexity Max 很好，但我不会订阅 — 文章封面&quot; /&gt;&lt;/p&gt;
&lt;p&gt;2026 年 3 月 11 日，Perplexity 在旧金山一座改建的教堂里举办了它的首届开发者大会——Ask 2026。&lt;/p&gt;
&lt;p&gt;一个做 AI 搜索起家的公司，一口气发布了「个人电脑」智能体、企业版 Computer、iOS 浏览器 Comet，还拉上了网络安全巨头 CrowdStrike 做安全合作。CEO Aravind Srinivas 在台上说了一句颇有野心的话：「传统操作系统接收指令，AI 操作系统接收目标。」&lt;/p&gt;
&lt;p&gt;这些动作放在一起看，信号很明确：Perplexity 不想只当一个搜索引擎了，它要做 AI 时代的操作系统。&lt;/p&gt;
&lt;p&gt;这篇文章将聚焦两个最值得关注的功能——&lt;strong&gt;Model Council&lt;/strong&gt;（多模型委员会）和 &lt;strong&gt;Computer&lt;/strong&gt;（多模型智能体），从机制到价值到局限做一次完整拆解。最后给出我个人对于「该不该为此掏 200 美元月费」的真实判断。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/12/ulP4/20260311211838190.webp&quot; alt=&quot;从搜索引擎到智能体平台的转型&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;一、Model Council：三个模型吵架，第四个裁判&lt;/h2&gt;
&lt;h3&gt;它到底是什么&lt;/h3&gt;
&lt;p&gt;Model Council 于 2026 年 2 月 5 日上线，是 Perplexity Max 会员专属的多模型研究功能。&lt;/p&gt;
&lt;p&gt;机制并不复杂：你提出一个问题，系统同时把它发给三个前沿大模型（比如 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro），三个模型各自独立生成回答，然后由第四个「主席模型」审阅全部输出，综合出一份标注了&lt;strong&gt;共识区域&lt;/strong&gt;和&lt;strong&gt;分歧点&lt;/strong&gt;的统一答案。&lt;/p&gt;
&lt;p&gt;用户可以展开查看每个模型的完整原始回答，也可以切换不同的模型组合。&lt;/p&gt;
&lt;h3&gt;设计哲学：让分歧可见&lt;/h3&gt;
&lt;p&gt;这个功能最有意思的地方不是「综合」，而是&lt;strong&gt;对分歧的可视化&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;当三个模型在某个判断上趋同时，你可以获得更高的置信度；当它们出现明显分歧时，你知道这个问题需要进一步调查，而不是盲信某一个模型的输出。这在概念上更接近机器学习中的集成方法（ensemble），而不只是一个模型选择器。&lt;/p&gt;
&lt;p&gt;官方建议的适用场景包括投资研究、高风险个人决策、复杂议题的多视角梳理。在 Computer 工作流中，Model Council 则扮演「关键节点审查」的角色——让某一步分析或评审接受多模型交叉检验。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/12/Ux7d/20260311212003083.webp&quot; alt=&quot;Model Council 工作流程：用户提问 → 三模型并行生成 → 主席模型综合 → 统一回答&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;我的看法：有趣，但未必值得买单&lt;/h3&gt;
&lt;p&gt;Model Council 的思路确实有启发性。在 AI 输出普遍存在幻觉和偏见的当下，用多模型交叉验证来提高可靠性，逻辑上是成立的。&lt;/p&gt;
&lt;p&gt;但问题在于：&lt;strong&gt;这件事你完全可以自己做。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;分别向 ChatGPT、Claude、Gemini 各问一遍，三个窗口并排对比，人工判断哪个回答更可靠——这个流程虽然笨一点，但成本几乎为零（如果你已经有各家的订阅），而且&lt;strong&gt;你自己做裁判&lt;/strong&gt;意味着你在主动锻炼判断力，而不是把判断权再次交给一个你同样无法验证的「主席模型」。&lt;/p&gt;
&lt;p&gt;Model Council 的价值在于便利性和结构化呈现，但它并没有提供任何你无法通过手动操作获得的信息增量。对于有一定 AI 使用经验的人来说，「自己有判断力」远比「让第四个模型替你判断」更重要。&lt;/p&gt;
&lt;h2&gt;二、Perplexity Computer：19 个模型，一个「数字员工」&lt;/h2&gt;
&lt;h3&gt;它到底是什么&lt;/h3&gt;
&lt;p&gt;Perplexity Computer 于 2 月 25 日面向消费者上线，3 月 11 日在 Ask 2026 上发布了企业版和「Personal Computer」本地智能体版本。&lt;/p&gt;
&lt;p&gt;Computer 的定位是一个&lt;strong&gt;云端多模型 AI 智能体编排平台&lt;/strong&gt;。你用自然语言描述一个目标（比如「帮我做一份关于某行业的竞品分析报告」），系统会自动把目标拆解为子任务，为每个子任务路由最合适的 AI 模型，在后台自主执行（可以持续数小时），最终交付成品。&lt;/p&gt;
&lt;p&gt;它协调的模型超过 19 个：Claude Opus 4.6 做核心推理，Gemini 处理深度研究，GPT-5.2 负责长上下文搜索，Grok 跑轻量任务，Nano Banana 生成图像，Veo 3.1 生成视频，GPT-5.3-Codex 专门写代码。每个任务运行在隔离的沙盒环境中，具备真实文件系统和浏览器。&lt;/p&gt;
&lt;p&gt;已接入 400 多个连接器：Gmail、GitHub、Slack、Notion、Salesforce、Snowflake 等。&lt;/p&gt;
&lt;p&gt;3 月 11 日发布的 &lt;strong&gt;Personal Computer&lt;/strong&gt; 更进一步——它是一款运行在你自己 Mac mini 上的常驻软件，让 AI 智能体可以 24/7 访问你本地的文件和应用，同时推理仍在 Perplexity 的云端完成。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/12/3Fqj/20260311212124308.webp&quot; alt=&quot;Perplexity Computer 多模型编排架构示意图&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;3 月 6 日的重要迭代&lt;/h3&gt;
&lt;p&gt;Computer 上线后的首个大更新落在 3 月 6 日，带来了四个方向的扩展：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;自定义 Skills&lt;/strong&gt;——你可以为重复性任务编写「能力说明」（比如固定的报告模板、写作风格要求），Computer 会在相关任务中自动调用，不用每次重新解释。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Model Council 内嵌&lt;/strong&gt;——在 Computer 的工作流中直接调用三模型并行审查，为关键决策步骤提供交叉验证。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;语音模式&lt;/strong&gt;——可以用语音描述任务、给中途反馈或调整方向。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GPT-5.3-Codex 编码子智能体&lt;/strong&gt;——遇到复杂编码任务时，自动分配给专职代码模型，可以从头搭全栈应用，甚至通过浏览器 DevTools 调试并与 GitHub 集成。&lt;/p&gt;
&lt;h3&gt;我的看法：概念震撼，落地存疑&lt;/h3&gt;
&lt;p&gt;Computer 的架构设计确实令人印象深刻。19 个模型按需调度、多智能体嵌套、沙盒执行、异步长时间运行——从技术理念上看，这可能是目前市面上最激进的多模型智能体方案。&lt;/p&gt;
&lt;p&gt;但几个现实问题很难回避：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一，信用点开销不透明且昂贵。&lt;/strong&gt; 有 &lt;a href=&quot;http://Builder.io&quot;&gt;Builder.io&lt;/a&gt; 的评测者反馈，两天内花 200 美元只建了一个网页。失败的任务同样消耗信用点，而你无法预估一个任务到底要花多少。这种定价模式对用户来说几乎是一个黑箱。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二，真正能可靠落地的复杂编码任务，目前主要靠的是 Claude Code。&lt;/strong&gt; Computer 虽然也集成了编码能力，但在实际开发流程中，Claude Code 的稳定性和开发体验仍然是业内标杆。Computer 更像是把 Claude Code 包了一层智能体壳，但这层壳本身增加了不确定性和成本。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三，Computer 的功能定位与 Manus 高度重叠。&lt;/strong&gt; 都是自然语言驱动、自动拆解任务、后台执行的智能体系统。Computer 的差异化在于多模型编排和 Perplexity 的搜索能力，但如果核心优势只是「搜索源更全」，这个溢价是否值得就见仁见智了。&lt;/p&gt;
&lt;h2&gt;三、一个绕不开的问题：$200/月值不值？&lt;/h2&gt;
&lt;p&gt;Model Council 和 Computer 都仅限 &lt;strong&gt;Perplexity Max&lt;/strong&gt; 会员使用，月费 200 美元。&lt;/p&gt;
&lt;p&gt;这个价格放在当前 AI 订阅市场里处于什么位置？Claude Max 大约 100 美元，可以高额使用 Opus；OpenAI Pro 200 美元，提供 GPT 5.4 pro和更高的使用配额。&lt;/p&gt;
&lt;p&gt;Perplexity Max 的 200 美元里包含了什么？Model Council、Computer（含信用点）、Deep Research、以及全模型无限制访问。听起来很丰满，但有几个隐忧：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Max 会员中的 Claude Opus 是否会降智？&lt;/strong&gt; 这是一个社区中反复被讨论的问题。当 Perplexity 作为中间层调用 Anthropic 的 API 时，prompt 的封装、上下文管理、以及可能的 token 截断都可能影响最终输出质量。你通过 Perplexity 使用的 Opus，和在 Claude 官方客户端使用的 Opus，体验不一定完全一致。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Computer 的信用点消耗是另一个深水区。&lt;/strong&gt; 200 美元的月费并不意味着你可以无限使用 Computer，复杂任务的积分开销可能迅速耗尽配额。而且 Perplexity 此前有过将 Deep Research 配额从约 500 次/天骤降至 20 次/月的先例，引发了大量用户对「先引流再压榨」策略的批评。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Perplexity 的「黑历史」也值得留意。&lt;/strong&gt; 从早期被指控未经授权抓取内容、到与多家出版商的版权纠纷、再到 3 月 11 日当天联邦法院裁定禁止其 AI 购物智能体访问亚马逊、甚至还有用户反映通过活动渠道获得的免费 Pro 会员被官方单方面静默取消——这家公司在「先做再说」的激进策略上从不手软。这种风格可能带来创新速度，但也意味着产品策略和定价随时可能剧变，用户的既有权益未必能得到稳定保障。&lt;/p&gt;
&lt;h2&gt;四、Perplexity 真正的护城河：搜索&lt;/h2&gt;
&lt;p&gt;说了很多不足，也要承认 Perplexity 的核心长板。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它的搜索源确实全面。&lt;/strong&gt; 这一点在中文互联网上订阅过 Max 会员的用户中得到了广泛认可。Opus 4.6 结合 Perplexity 自建的搜索管线，在研究型查询上的表现确实优于单独使用任何一个模型的搜索功能。七种并行搜索类型（网页、学术、人物、图片、视频、购物、社交）、以及 PitchBook、Statista 等高级数据源的接入，让它在信息获取的广度和深度上拥有真实优势。&lt;/p&gt;
&lt;p&gt;如果你的核心需求是&lt;strong&gt;高频次深度研究&lt;/strong&gt;——金融调研、市场分析、技术选型——Perplexity 的搜索能力确实是它最有说服力的卖点。&lt;/p&gt;
&lt;p&gt;但如果你的需求集中在代码开发、创意写作、或日常对话，那这个搜索优势就与你的使用场景不太匹配了。&lt;/p&gt;
&lt;h3&gt;护城河能守多久？&lt;/h3&gt;
&lt;p&gt;必须正视一个行业共识：&lt;strong&gt;Perplexity 一直被视为一家「套壳」公司。&lt;/strong&gt; 它不训练自己的基座模型，核心产品建立在 OpenAI、Anthropic、Google 等厂商的 API 之上，在模型层面几乎没有自研创新。它做的事情——用顶级 SOTA 模型搭配全面的搜索源——确实能产出优秀的研究体验，这一点毋庸置疑。&lt;/p&gt;
&lt;p&gt;问题在于，这套配方的两个关键原料都不在它手里。&lt;/p&gt;
&lt;p&gt;OpenAI 的 ChatGPT 已经具备联网搜索和 Deep Research 能力，Anthropic 推出了 Claude 的 Web Search 工具和 Deep Research，Google 的 Gemini 更是天然坐拥全球最大的搜索索引。当模型厂商自己下场补齐搜索短板时，Perplexity 作为中间层的价值就会被持续压缩。这也是为什么在 AI 社区中，「Perplexity 将死」的论调从未停歇——不是因为它做得不好，而是因为它的核心能力太容易被上游厂商复制。&lt;/p&gt;
&lt;p&gt;Perplexity 显然意识到了这一点，所以它在拼命向智能体平台转型：Computer、Personal Computer、Comet 浏览器、企业版……每一步都是在试图从「搜索中间商」变成「AI 操作系统」，在用户还没跑掉之前建立更深的产品粘性。这个战略方向是清醒的，但能否跑赢时间，是另一回事。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/12/huQ0/20260311212852664.webp&quot; alt=&quot;Perplexity 产品三层架构：Search → Deep Research → Computer&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;五、我的结论&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;我不会订阅 Perplexity Max。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;理由很简单：相较于 Claude Max 和 OpenAI Pro，它的性价比不够高。Computer 的概念很有前瞻性，但实际使用中的信用点黑箱、不稳定的配额政策、以及「做得到但不够好」的尴尬，让我无法为一个月 200 美元买单。Model Council 的多模型交叉验证思路有价值，但手动操作完全可以替代，而且自己做裁判比依赖第四个模型更靠谱。&lt;/p&gt;
&lt;p&gt;如果你正在考虑订阅，我的建议是先问自己两个问题：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一，你的核心需求是搜索还是执行？&lt;/strong&gt; 如果是搜索，Pro 会员（$20/月）可能就够用了。如果是执行复杂任务，Claude Code 目前仍然是更稳定的选择。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二，你能接受定价和配额随时变化的风险吗？&lt;/strong&gt; Perplexity 是一家还在快速迭代（也在快速试错）的公司，产品策略的不确定性是真实存在的。&lt;/p&gt;
&lt;p&gt;Perplexity 正在做的事情——多模型编排、智能体工作流、AI 原生操作系统——方向上没有问题。但「方向正确」和「现在值得买」之间，还隔着很长的路。&lt;/p&gt;
&lt;p&gt;与其追逐最新的付费功能，不如把时间花在真正提升自己判断力的地方。毕竟，再多模型的「委员会」，也替代不了你自己的独立思考。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/12/Ig9z/20260311213031273.webp&quot; alt=&quot;工具在进化，判断力在你手中&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;本文基于 Perplexity 官方博客、changelog、帮助中心文档，以及 TechCrunch、VentureBeat、Digital Trends、Axios、AppleInsider 等科技媒体报道综合撰写，写作日期为 2026 年 3 月 12 日。文中观点仅代表作者个人立场，不构成任何订阅或投资建议。&lt;/em&gt;&lt;/p&gt;
</content:encoded></item><item><title>合成数据的工业级配方：HuggingFace用90组实验揭示的预训练数据生产法则</title><link>https://blog.gujiakai.me/2026/03/huggingface-finephrase-synthetic-data/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/03/huggingface-finephrase-synthetic-data/</guid><description>HuggingFace团队耗费12.7个GPU年，跑完90组对照实验，终于把大模型合成数据这门“炼金术”变成了可复现的“化学科学”。</description><pubDate>Wed, 11 Mar 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;合成数据的工业级配方：HuggingFace用90组实验揭示的预训练数据生产法则&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;当大模型训练进入“数据为王”的时代，如何高效生成高质量的合成数据成为关键命题。HuggingFace团队耗费12.7个GPU年，跑完90组对照实验，终于把这门“炼金术”变成了可复现的“化学科学”。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/9sRt/20260311013838016.webp&quot; alt=&quot;合成数据：大模型训练的新型“数据工厂”&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;一、合成数据：大模型训练的第四次范式跃迁&lt;/h2&gt;
&lt;p&gt;大模型的预训练数据经历了几个清晰的演进阶段。&lt;/p&gt;
&lt;p&gt;最初，研究者用Wikipedia这类小规模但高质量的语料训练语言模型。随后，C4、The Pile等数据集将规模推向数百GB。接着，FineWeb、DCLM等项目把数据量推到万亿token级别，几乎覆盖了可爬取的整个互联网。&lt;/p&gt;
&lt;p&gt;当网络文本逼近采集极限后，研究重心转向了质量筛选：用神经网络分类器寻找“教育性”或“指令式”内容，把海量噪声数据过滤成精华子集。&lt;/p&gt;
&lt;p&gt;现在，第四次范式正在成形——&lt;strong&gt;合成数据&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;NVIDIA的Nemotron-CC改写了约2万亿token的网页文本，智谱的GLM-4.5系列生成了5000亿推理token用于中期训练，Qwen3、Phi-4等前沿模型的训练数据中也大量使用了合成内容。合成数据已经从“可选的增强手段”变成了“标配的生产工序”。&lt;/p&gt;
&lt;p&gt;但问题是：&lt;strong&gt;到底该怎么做？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;用什么模型生成？写什么样的提示词？源数据质量重要吗？需要和原始数据混合吗？这些问题在过去更多靠直觉和试错。HuggingFace团队决定用系统性实验来回答它们。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;二、90组实验，1万亿token，只为回答一个问题&lt;/h2&gt;
&lt;p&gt;HuggingFace的研究团队设计了一套大规模消融实验框架：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;实验规模&lt;/strong&gt;：90组完整的训练-评估循环&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生成量&lt;/strong&gt;：超过1万亿token的合成文本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;算力消耗&lt;/strong&gt;：约12.7个GPU年（H100）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评估方式&lt;/strong&gt;：每组实验训练一个1.2B参数的代理模型，在12个基准上测试&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;他们沿着三条主线探索：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;重写策略&lt;/strong&gt;：哪种格式转换真正有效？简单改写、问答对、分步教程、结构化表格……&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生成模型&lt;/strong&gt;：模型越大越好吗？不同模型家族有差异吗？新版本比旧版本强吗？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据配比&lt;/strong&gt;：源数据质量重要吗？合成数据能单独使用吗？应该和什么混合？&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;最终产出是&lt;strong&gt;FinePhrase&lt;/strong&gt;——一个包含4860亿token的合成预训练数据集，在所有基线上取得了明确优势。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/2Inw/20260311014309919.webp&quot; alt=&quot;90组实验的系统性设计框架&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;三、核心发现：Prompt设计是最大的杠杆&lt;/h2&gt;
&lt;p&gt;在模型大小、模型家族、数据源质量这些变量中，&lt;strong&gt;提示词设计的影响力远超其他所有因素&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;研究团队测试了来自Nemotron、REWIRE、BeyondWeb等项目的现有提示词，也设计了9种全新格式。结果显示，只有四种格式能稳定击败最强的原始数据基线DCLM：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;胜出格式&lt;/th&gt;
&lt;th&gt;核心特征&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;FAQ&lt;/td&gt;
&lt;td&gt;将内容重组为问答对&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Math&lt;/td&gt;
&lt;td&gt;转化为数学应用题+解答&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Table&lt;/td&gt;
&lt;td&gt;提取为结构化表格&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Tutorial&lt;/td&gt;
&lt;td&gt;改写为分步教程&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;而简单的改写（Article）、评论式摘要（Commentary）、对话体（Discussion）、叙事重述（Narrative）等格式则表现平平。&lt;/p&gt;
&lt;p&gt;关键差异在于：&lt;strong&gt;胜出的格式都在重组知识的呈现结构，而非仅仅润色语言&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;FAQ把隐含的问题显式化，Table把散落的信息聚合成可索引的单元，Tutorial把步骤逻辑外显。这些转换强制模型将原始文档中的隐性知识变成结构化的显性表达。&lt;/p&gt;
&lt;p&gt;换句话说，合成数据的价值不在于“用更好的措辞重新说一遍”，而在于&lt;strong&gt;把信息改造成更适合模型学习的“课程形态”&lt;/strong&gt;。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;四、反直觉发现：1B小模型就够了&lt;/h2&gt;
&lt;p&gt;业界此前有一种流行假设：要生成高质量合成数据，需要动用70B甚至更大的模型。REWIRE项目就使用了Llama-3.3 70B。&lt;/p&gt;
&lt;p&gt;HuggingFace的实验结果直接否定了这一假设。&lt;/p&gt;
&lt;p&gt;他们对比了Gemma-3系列从270M到27B的全尺寸模型，结论是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;简单提示词&lt;/strong&gt;：1B参数即可，1B到27B之间没有显著差异&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;复杂提示词&lt;/strong&gt;（如REWIRE的引导式重写）：需要4B，但4B到27B仍然无差&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;低质量源数据&lt;/strong&gt;：也不需要更大模型来“拯救”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在成本效率的Pareto前沿上，&lt;strong&gt;小模型+结构化提示词&lt;/strong&gt;的组合占据了绝对优势。27B模型的GPU开销是1B的5-10倍，生成质量却没有任何提升。&lt;/p&gt;
&lt;p&gt;更进一步，在所有1B级别模型的横向对比中，&lt;strong&gt;SmolLM2-1.7B碾压了所有竞争对手&lt;/strong&gt;——包括Qwen3、Gemma-3、Llama-3.2、Granite3、Falcon3。而SmolLM2已经是一个发布超过一年的“老”模型。&lt;/p&gt;
&lt;p&gt;这个发现的实践意义非常直接：&lt;strong&gt;用最便宜的模型，把省下的算力全部投入数据量。&lt;/strong&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/wBv1/20260311014609964.webp&quot; alt=&quot;1B小模型击败27B大模型：参数量不是决定因素&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;五、最反直觉的发现：“更烂”的输出反而更好&lt;/h2&gt;
&lt;p&gt;这可能是整篇研究中最出人意料的结论。&lt;/p&gt;
&lt;p&gt;研究团队对比了SmolLM2和Qwen3生成数学题的输出质量：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;SmolLM2&lt;/th&gt;
&lt;th&gt;Qwen3&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;完整解答比例&lt;/td&gt;
&lt;td&gt;68%&lt;/td&gt;
&lt;td&gt;100%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;输出长度范围&lt;/td&gt;
&lt;td&gt;4-4000 tokens&lt;/td&gt;
&lt;td&gt;100-2600 tokens&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;格式规范性&lt;/td&gt;
&lt;td&gt;混乱&lt;/td&gt;
&lt;td&gt;完美（含LaTeX）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;最常见开头重复率&lt;/td&gt;
&lt;td&gt;3/1000&lt;/td&gt;
&lt;td&gt;115/1000&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;从人类审美角度看，Qwen3的输出堪称完美。但训练在SmolLM2数据上的下游模型，&lt;strong&gt;性能反而更好&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;原因是&lt;strong&gt;模板坍塌（Template Collapse）&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;Qwen3太“听话”了，它的输出高度同质化——1000个样本中有115个开头完全相同。这种整齐划一对人类来说是“规范”，对预训练数据来说却是灾难。SmolLM2虽然“潦草”，但保持了极高的文本多样性。&lt;/p&gt;
&lt;p&gt;这揭示了预训练数据的一个核心悖论：&lt;strong&gt;人类偏好的“整齐”，未必等于模型偏好的“可泛化”&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;对于预训练而言，多样性远比一致性重要。一个“不那么听话”的模型，反而能产出更好的训练数据。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;六、能力权衡：合成数据在“用常识换知识”&lt;/h2&gt;
&lt;p&gt;逐个基准分析实验结果后，一个贯穿始终的规律浮现出来：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;几乎所有合成数据在ARC（科学知识）、SQuAD（阅读理解）、DROP（数值推理）上显著超越原始数据&lt;/li&gt;
&lt;li&gt;但几乎所有合成数据在HellaSwag、PIQA（常识推理）上都不如原始数据&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;宏观分数看似持平，实则此消彼长。&lt;/p&gt;
&lt;p&gt;合成数据通过结构化重写，把网页中的事实知识“显性化”了，模型更容易从中学到可检索的信息。但这个过程同时磨掉了原始网页中的生活常识、语境暗示、世界运作的隐性规律。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;合成数据本质上是在“用常识换知识”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这解释了另一个关键发现：&lt;strong&gt;纯合成数据训练永远不如混合训练&lt;/strong&gt;。必须将合成数据与高质量原始数据混合，才能保持能力平衡。&lt;/p&gt;
&lt;p&gt;而且，混入什么数据非常关键：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;高质量源数据&lt;/strong&gt; → 混入DCLM（恢复常识信号）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;低质量源数据&lt;/strong&gt; → 混入FineWeb-Edu-HQ（补充知识信号）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;研究团队的一个重要发现是：&lt;strong&gt;混入数据集的选择有时比源数据本身更重要&lt;/strong&gt;。只要混入数据够强，即便改写的是低质量网页，最终效果也能接近改写高质量数据。这极大扩展了可用的数据池。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/Pd7r/20260311014802775.webp&quot; alt=&quot;合成数据的能力置换：用常识换知识&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;七、质量评分在合成数据面前全面失效&lt;/h2&gt;
&lt;p&gt;FineWeb-Edu-score和DCLM-score是业界筛选高质量网页的常用指标。但当它们被用来评估合成数据时，&lt;strong&gt;预测能力几乎为零&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;DCLM-score与下游性能的相关系数只有0.56-0.61（中等相关），而Edu-score的输出分数与性能相关性仅为-0.08（基本无关）。&lt;/p&gt;
&lt;p&gt;更讽刺的是，Edu-score会&lt;strong&gt;惩罚&lt;/strong&gt;那些实际上提升了性能的格式转换。当文本被转化为表格、FAQ或数学符号时，Edu-score判定“质量下降”——但这些恰恰是表现最好的格式。&lt;/p&gt;
&lt;p&gt;原因在于，这些评分器是针对“自然网页文本”训练的，它们偏好连贯的长篇叙述。结构化格式在它们眼中是“异常”，但对模型学习却是“最优”。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;结论很残酷：没有捷径。你必须完整走完“生成→训练→评估”的流程，才能知道合成数据的真实质量。&lt;/strong&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;八、工程层面的成本革命&lt;/h2&gt;
&lt;p&gt;合成数据生成的另一个核心问题是成本。&lt;/p&gt;
&lt;p&gt;REWIRE项目用70B模型生成4000亿token，按推算需要约35万GPU小时。HuggingFace的FinePhrase用1.7B模型生成4860亿token，只用了约1.47万GPU小时。&lt;/p&gt;
&lt;p&gt;效率对比：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;项目&lt;/th&gt;
&lt;th&gt;生成模型&lt;/th&gt;
&lt;th&gt;Token量&lt;/th&gt;
&lt;th&gt;GPU小时&lt;/th&gt;
&lt;th&gt;效率（token/GPU小时）&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Cosmopedia&lt;/td&gt;
&lt;td&gt;Mixtral 8x7B&lt;/td&gt;
&lt;td&gt;25B&lt;/td&gt;
&lt;td&gt;&amp;gt;10K&lt;/td&gt;
&lt;td&gt;&amp;lt;2.5M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;REWIRE&lt;/td&gt;
&lt;td&gt;Llama-3.3 70B&lt;/td&gt;
&lt;td&gt;400B&lt;/td&gt;
&lt;td&gt;~352K&lt;/td&gt;
&lt;td&gt;~1.1M&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;FinePhrase&lt;/td&gt;
&lt;td&gt;SmolLM2-1.7B&lt;/td&gt;
&lt;td&gt;486B&lt;/td&gt;
&lt;td&gt;~14.7K&lt;/td&gt;
&lt;td&gt;~33.1M&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;FinePhrase的生成效率是REWIRE的约30倍，是Cosmopedia的约13倍。&lt;/p&gt;
&lt;p&gt;关键优化手段包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;投机解码（Speculative Decoding）&lt;/strong&gt;：对小模型极为有效，SmolLM2获得1.75倍加速&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;张量并行优化&lt;/strong&gt;：对大型MoE模型释放KV cache空间&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Flash-Attn后端&lt;/strong&gt;：比FlashInfer快50%以上（H100环境）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着合成数据生产已经从“算力巨头的专属游戏”变成了&lt;strong&gt;中小团队可以参与的工程实践&lt;/strong&gt;。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/Brv0/20260311015008064.webp&quot; alt=&quot;FinePhrase的成本优势：效率提升30倍&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;九、关于“模型崩溃”的澄清&lt;/h2&gt;
&lt;p&gt;学术界经常警告：AI在自己生成的数据上训练会导致“模型崩溃”（Model Collapse）。&lt;/p&gt;
&lt;p&gt;HuggingFace在文章开头直接回应了这一担忧：&lt;strong&gt;这种崩溃只发生在极端封闭的实验条件下&lt;/strong&gt;——模型反复在自己的输出上迭代，不引入任何新信息。&lt;/p&gt;
&lt;p&gt;现实中的工业实践完全不同：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;合成数据与人类数据混合使用&lt;/li&gt;
&lt;li&gt;提示词中引用多样化的参考材料&lt;/li&gt;
&lt;li&gt;合成数据是策略性补充而非全盘替换&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在FineWeb的研究中，团队甚至发现网络上自然存在的AI生成内容&lt;strong&gt;并没有导致模型退化&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;真正值得担忧的不是普通的合成数据实践，而是&lt;strong&gt;前沿模型在封闭循环中为其他前沿模型生成数据&lt;/strong&gt;这种极端场景。合理整合、引入新视角的合成数据，不是问题而是解决方案。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;十、实践配方：FinePhrase的最终配置&lt;/h2&gt;
&lt;p&gt;基于90组实验的系统验证，HuggingFace给出了一个简洁的最佳实践配方：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;生成模型&lt;/strong&gt;：SmolLM2-1.7B-Instruct&lt;br /&gt;
&lt;strong&gt;提示词格式&lt;/strong&gt;：FAQ、Math、Table、Tutorial（四选一或混用）&lt;br /&gt;
&lt;strong&gt;源数据&lt;/strong&gt;：FineWeb-Edu（质量要求宽松）&lt;br /&gt;
&lt;strong&gt;混入数据&lt;/strong&gt;：DCLM或FineWeb-Edu-HQ&lt;br /&gt;
&lt;strong&gt;推理优化&lt;/strong&gt;：suffix-32投机解码 + 0.9显存利用率&lt;/p&gt;
&lt;p&gt;这个配方的核心逻辑是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;用结构化提示词重组知识形态&lt;/strong&gt;——这是最大的杠杆&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;用最小够用的模型&lt;/strong&gt;——省下的算力投入数据量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;用强混入数据兜底&lt;/strong&gt;——恢复常识信号，放宽源数据要求&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;用工程优化压缩成本&lt;/strong&gt;——让合成数据生产可持续&lt;/li&gt;
&lt;/ol&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/Qu2k/20260311015222443.webp&quot; alt=&quot;FinePhrase最终配方：结构化Prompt + 小模型 + 强混入数据&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;十一、尚未解答的问题&lt;/h2&gt;
&lt;p&gt;HuggingFace坦诚列出了这项研究的边界和开放问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;重复与改写&lt;/strong&gt;：如果每次重复数据都重新改写，能否避免性能下降？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;混合比例&lt;/strong&gt;：合成数据占多少比例最优？5%、20%还是50%？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;采样策略&lt;/strong&gt;：Best-of-N筛选是否有效？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;规模效应&lt;/strong&gt;：在100B+token训练规模下，这些发现是否依然成立？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动优化&lt;/strong&gt;：能否用DSPy等工具自动搜索最优提示词？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些问题定义了合成数据研究的下一阶段议程。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;结语：从“炼金术”到“化学”&lt;/h2&gt;
&lt;p&gt;这篇研究的根本贡献，不是又发布了一个更大的数据集，而是&lt;strong&gt;把合成预训练数据的生成从经验驱动的试错，推向了可验证、可复现的系统方法论&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;几个核心结论值得反复强调：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Prompt设计是第一生产力&lt;/strong&gt;——重构格式，而非润色语言&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;小模型足够好&lt;/strong&gt;——1B级别即可，不要迷信参数量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多样性优于一致性&lt;/strong&gt;——“听话”的模型反而可能产出更差的数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;必须混合原始数据&lt;/strong&gt;——合成数据在“用常识换知识”&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;质量评分不可靠&lt;/strong&gt;——必须走完训练-评估的完整流程&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;合成数据正在从“可选的数据增强技巧”变成“大模型训练的核心工序”。而这篇研究给出了目前最清晰的工业级操作指南。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://i.see.you/2026/03/11/Nng7/20260311015437646.webp&quot; alt=&quot;从“炼金术”到“化学”：合成数据走向工业化&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;参考资料&lt;/em&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://huggingface.co/spaces/HuggingFaceFW/finephrase&quot;&gt;The Synthetic Data Playbook:&lt;br /&gt;
Generating Trillions of the Finest Tokens&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item><item><title>🦞 一只龙虾的逆袭：从Clawdbot到OpenClaw，这只AI虾到底经历了什么？</title><link>https://blog.gujiakai.me/2026/01/clawdbot-moltbot-openclaw-evolution/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/01/clawdbot-moltbot-openclaw-evolution/</guid><description>两个月从0到10万星，被Anthropic法务找上门，遭遇加密骗子抢注——这只开源龙虾的蜕变之路，比电视剧还精彩</description><pubDate>Fri, 30 Jan 2026 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/30/TFioCsD1f6QX4G3.webp&quot; alt=&quot;封面图&quot; /&gt;&lt;/p&gt;
&lt;h1&gt;一只龙虾的逆袭：从Clawdbot到OpenClaw，这只AI虾到底经历了什么？&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;「两个月前，我只是花了一个周末随便写了个小项目。没想到现在，GitHub上已经有10万+星星，一周吸引了200万访问量。」&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;说这话的，是OpenClaw的创始人Peter Steinberger（@steipete）。&lt;/p&gt;
&lt;p&gt;你可能不认识他，但你大概率用过他的产品——他是PSPDFKit的创始人，那个几乎所有iOS开发者都听过的PDF框架。2023年公司被收购后，Peter本打算退休享清福，结果一不小心又搞出了GitHub历史上增长最快的开源项目之一。&lt;/p&gt;
&lt;p&gt;想象一下：你随手写的一个周末项目，突然火遍全球，连Anthropic（Claude的母公司）的法务都找上门来……这剧情，比电视剧还精彩。&lt;/p&gt;
&lt;p&gt;今天，我们就来聊聊这只「龙虾」的逆袭故事。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/30/TcgrCwfuSDmzn8N.webp&quot; alt=&quot;演变时间线&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;🦞 第一章：Clawdbot的诞生——一只「山寨」龙虾的出道&lt;/h2&gt;
&lt;p&gt;2025年11月，Peter突发奇想，想给自己做一个能在WhatsApp上用的AI助手。&lt;/p&gt;
&lt;p&gt;最初它只是一个叫「WhatsApp Relay」的小玩意儿。但Peter越做越起劲，干脆给它取了个正式名字：&lt;strong&gt;Clawdbot&lt;/strong&gt;——Claude（Anthropic的AI）+ Claw（龙虾钳），还设计了一个萌萌的龙虾吉祥物叫Clawd。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;没错，就是玩了个谐音梗。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这个「周末项目」有什么特别的？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它完全跑在你自己的电脑上。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;不是那种「把数据上传到别人服务器」的SaaS服务，而是真真正正的「你的电脑、你的API密钥、你的数据」。笔记本电脑、家用服务器、VPS——随你选。&lt;/p&gt;
&lt;p&gt;用社区里一位用户的话说：&lt;strong&gt;「这是真正属于你自己的基础设施。」&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Clawdbot很快在开发者圈子里传开了。24小时内GitHub星星就突破了9000，两个月后直接冲破10万大关。毕竟，谁不想要一个能帮你回邮件、查日历、还能在WhatsApp、Telegram、Discord、Slack、Signal、iMessage等13个平台上随时待命的AI助手呢？&lt;/p&gt;
&lt;p&gt;而且，它还记得你的一切——你的喜好、你的习惯、你们之前的对话。它会读取你的SOUL.md了解你的个性，读取MEMORY.md记住你们的过往。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;「这玩意儿比Siri聪明多了！」&lt;/strong&gt; 有人这样评价。&lt;/p&gt;
&lt;p&gt;更有人感慨：&lt;strong&gt;「2026年，真的是个人AI智能体之年。」&lt;/strong&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;🔄 第二章：Moltbot——被迫「蜕壳」的尴尬时刻&lt;/h2&gt;
&lt;p&gt;2026年1月，正当Clawdbot风头正劲的时候，Peter收到了一封邮件。&lt;/p&gt;
&lt;p&gt;发件人：Anthropic法务团队。&lt;/p&gt;
&lt;p&gt;内容很礼貌，但意思很明确：&lt;strong&gt;「Clawdbot和Clawd跟我们家的Claude太像了，麻烦改个名吧。」&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Peter很识趣。毕竟，人家是市值百亿美元的大公司，自己只是个人开发者，没必要硬刚。&lt;/p&gt;
&lt;p&gt;但问题来了：改叫啥？&lt;/p&gt;
&lt;p&gt;1月27日凌晨5点，Peter在Discord上发起了「起名大会」。社区成员们脑洞大开，最后选中了&lt;strong&gt;Moltbot&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Molting（蜕壳）&lt;/strong&gt; 是龙虾生长的方式——它们脱掉旧壳，才能长出更大的新壳。这个寓意太贴切了：项目也在经历蜕变，变得更强。&lt;/p&gt;
&lt;p&gt;Peter自己也很满意：&lt;strong&gt;「Anthropic让我们改名（商标问题），说实话？&apos;Molt&apos;简直完美——这就是龙虾成长的方式。」&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;吉祥物也从Clawd改成了Molty。&lt;/p&gt;
&lt;p&gt;但改名这事儿，麻烦不止一点点。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;老用户一脸懵：「Clawdbot怎么突然用不了了？」&lt;/li&gt;
&lt;li&gt;有人在短短10秒内趁机抢注了旧品牌的社交账号，发加密货币诈骗信息&lt;/li&gt;
&lt;li&gt;假冒的$CLAWD代币一度炒到1600万美元市值，然后崩盘&lt;/li&gt;
&lt;li&gt;GitHub上的旧仓库链接全部失效&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Peter不得不紧急联系X（推特）和GitHub的朋友，才把这些乱象压下去。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;这段经历告诉我们：品牌更名，真的是一场硬仗。而且，互联网上的骗子永远比你快。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;h2&gt;✨ 第三章：OpenClaw——龙虾的最终形态&lt;/h2&gt;
&lt;p&gt;仅仅两天后，1月29日，Peter又宣布：&lt;strong&gt;最终名字定了——OpenClaw。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;等等，怎么又改了？&lt;/p&gt;
&lt;p&gt;原来，「Moltbot」虽然寓意好，但在商标和域名层面还是有些问题。这次，Peter学乖了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;✅ 商标检索通过&lt;/li&gt;
&lt;li&gt;✅ 域名全部拿下（&lt;a href=&quot;http://openclaw.ai&quot;&gt;openclaw.ai&lt;/a&gt;）&lt;/li&gt;
&lt;li&gt;✅ 迁移代码提前写好&lt;/li&gt;
&lt;li&gt;✅ &lt;code&gt;openclaw doctor&lt;/code&gt;命令自动处理配置迁移&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Open&lt;/strong&gt;代表开源、开放、社区驱动。&lt;br /&gt;
&lt;strong&gt;Claw&lt;/strong&gt;是对龙虾传统的致敬，也暗示这是一个「能动手」的AI。&lt;/p&gt;
&lt;p&gt;用Peter的话说：&lt;strong&gt;「龙虾终于完成了最终蜕变。欢迎来到OpenClaw。」&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;（对了，吉祥物还是那只龙虾Molty——有些东西是神圣不可改变的🦞）&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/30/x4d1UakA2XwTVW8.webp&quot; alt=&quot;功能展示&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;🚀 OpenClaw现在能做什么？&lt;/h2&gt;
&lt;p&gt;不得不说，经过这几轮折腾，OpenClaw已经进化成了一个相当成熟的AI助手平台。GitHub上107K+星星、15K+ Fork、8300+次提交，这些数字背后是一个活跃的全球社区。&lt;/p&gt;
&lt;h3&gt;📱 全平台覆盖&lt;/h3&gt;
&lt;p&gt;WhatsApp、Telegram、Discord、Slack、Signal、iMessage、Google Chat、Microsoft Teams、Matrix……一共支持&lt;strong&gt;13个消息平台&lt;/strong&gt;。你在哪聊天，它就在哪跟着你。&lt;/p&gt;
&lt;h3&gt;🧠 真正的「记忆力」&lt;/h3&gt;
&lt;p&gt;不像那些「聊完就忘」的AI，OpenClaw会记住你的一切：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&lt;a href=&quot;http://AGENTS.md&quot;&gt;AGENTS.md&lt;/a&gt;&lt;/strong&gt; — 智能体配置文件&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;a href=&quot;http://SOUL.md&quot;&gt;SOUL.md&lt;/a&gt;&lt;/strong&gt; — 个性设定&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;a href=&quot;http://TOOLS.md&quot;&gt;TOOLS.md&lt;/a&gt;&lt;/strong&gt; — 工具偏好&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;a href=&quot;http://MEMORY.md&quot;&gt;MEMORY.md&lt;/a&gt;&lt;/strong&gt; — 记忆库&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;它真的会越来越懂你。&lt;/strong&gt;&lt;/p&gt;
&lt;h3&gt;🎙️ 语音唤醒&lt;/h3&gt;
&lt;p&gt;在macOS、iOS、Android上支持「Always-on Speech」功能，通过ElevenLabs实现自然语音交互。想象一下，对着手机喊一声就能让AI帮你干活。&lt;/p&gt;
&lt;h3&gt;🌐 浏览器控制 + 系统访问&lt;/h3&gt;
&lt;p&gt;让它帮你：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;浏览网页、填表单、抓数据&lt;/li&gt;
&lt;li&gt;读写文件、运行脚本、执行命令&lt;/li&gt;
&lt;li&gt;通过专用Chrome/Chromium实例实现网页自动化&lt;/li&gt;
&lt;li&gt;甚至可以通过700+社区技能扩展功能&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;🔒 安全第一&lt;/h3&gt;
&lt;p&gt;这次更名版本中，团队提交了&lt;strong&gt;34个安全相关的代码更新&lt;/strong&gt;。默认采用Docker沙箱模式隔离非主会话，支持工具白名单和黑名单配置。&lt;/p&gt;
&lt;p&gt;Peter特别提醒：提示词注入（Prompt Injection）仍是行业难题，建议使用Claude Opus 4.5等强模型，并遵循安全最佳实践。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;🛠️ 老用户迁移指南&lt;/h2&gt;
&lt;p&gt;如果你之前用过Clawdbot或Moltbot，别担心，迁移超级简单——安装脚本会自动帮你搞定一切。&lt;/p&gt;
&lt;h3&gt;一键升级到OpenClaw&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;# 运行安装脚本，会自动检测旧配置并迁移
curl -fsSL https://openclaw.ai/install.sh | bash
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;就这么简单。安装脚本会自动：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;检测你的系统环境（macOS/Linux）&lt;/li&gt;
&lt;li&gt;确认Node.js版本（需要v22+）&lt;/li&gt;
&lt;li&gt;安装OpenClaw最新版&lt;/li&gt;
&lt;li&gt;运行&lt;code&gt;openclaw doctor&lt;/code&gt;自动迁移配置&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;你会看到类似这样的输出：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;◇  Doctor changes ─────────────────────────────────────────────────────────╮
│  - State dir: ~/.clawdbot → ~/.openclaw (legacy path now symlinked)      │
│  - Migrated legacy config: ~/.clawdbot/clawdbot.json →                   │
│    ~/.openclaw/openclaw.json                                             │
├──────────────────────────────────────────────────────────────────────────╯
&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;可选：清理旧版本&lt;/h3&gt;
&lt;p&gt;迁移完成后，如果想彻底告别旧版本：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;# 卸载旧的Clawdbot（会询问你要删除哪些组件）
clawdbot uninstall

# 或者卸载Moltbot
moltbot uninstall
&lt;/code&gt;&lt;/pre&gt;
&lt;h3&gt;重要提醒 ⚠️&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;旧的&lt;code&gt;clawdbot&lt;/code&gt;和&lt;code&gt;moltbot&lt;/code&gt;命令在迁移后仍然可用&lt;/li&gt;
&lt;li&gt;旧配置目录会被符号链接到新位置，不用担心丢失数据&lt;/li&gt;
&lt;li&gt;现有的技能（Skills）和工作流无需修改&lt;/li&gt;
&lt;li&gt;如果遇到问题，运行&lt;code&gt;openclaw doctor --fix&lt;/code&gt;自动修复&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;版本对照表&lt;/h3&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;项目&lt;/th&gt;
&lt;th&gt;ClawdBot&lt;/th&gt;
&lt;th&gt;MoltBot&lt;/th&gt;
&lt;th&gt;OpenClaw&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;配置目录&lt;/td&gt;
&lt;td&gt;~/.clawdbot/&lt;/td&gt;
&lt;td&gt;~/.moltbot/&lt;/td&gt;
&lt;td&gt;~/.openclaw/&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;官网&lt;/td&gt;
&lt;td&gt;clawd.bot&lt;/td&gt;
&lt;td&gt;molt.bot&lt;/td&gt;
&lt;td&gt;&lt;a href=&quot;http://openclaw.ai&quot;&gt;openclaw.ai&lt;/a&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GitHub&lt;/td&gt;
&lt;td&gt;clawdbot/clawdbot&lt;/td&gt;
&lt;td&gt;moltbot/moltbot&lt;/td&gt;
&lt;td&gt;openclaw/openclaw&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;NPM包名&lt;/td&gt;
&lt;td&gt;clawdbot&lt;/td&gt;
&lt;td&gt;moltbot&lt;/td&gt;
&lt;td&gt;openclaw&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/30/et9GQV1NnSRCILT.webp&quot; alt=&quot;社区&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;🔮 未来展望&lt;/h2&gt;
&lt;p&gt;OpenClaw的故事远未结束。&lt;/p&gt;
&lt;p&gt;Peter正在做几件大事：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;安全加固（最高优先级）&lt;/strong&gt; — 持续强化代码库安全性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Gateway可靠性提升&lt;/strong&gt; — 让更多人能顺畅使用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;扩展模型支持&lt;/strong&gt; — 已经支持KIMI K2.5、小米MiMo-V2-Flash等新模型&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;建立可持续的资助机制&lt;/strong&gt; — 想给核心维护者发全职工资&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;扩充维护者团队&lt;/strong&gt; — 一个人真的忙不过来了&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;社区里已经有人用OpenClaw做了超酷的事情：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动管理邮件、日历&lt;/li&gt;
&lt;li&gt;远程控制代码编译和测试&lt;/li&gt;
&lt;li&gt;用Sentry webhook自动捕获错误并提交PR修复&lt;/li&gt;
&lt;li&gt;通过Tailscale实现安全的远程访问&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一位用户说得好：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;「开源社区用几个人就做出了比苹果Siri更好的产品。欢迎来到AI时代——一个人加一个代码仓库，就能填补万亿级公司的空白。」&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;h2&gt;📝 写在最后&lt;/h2&gt;
&lt;p&gt;从Clawdbot到Moltbot再到OpenClaw，这只龙虾经历了不少波折。&lt;/p&gt;
&lt;p&gt;被Anthropic法务盯上、被加密骗子薅羊毛、两天内改了两次名……&lt;/p&gt;
&lt;p&gt;但它还活着，而且活得越来越好。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;107K+ GitHub星星、15K+ Fork、200万周访问量、全球开发者社区……&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这些数字背后，是一个简单的信念：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;你的AI助手，应该真正属于你。100%开源，MIT协议，永远免费。&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;如果你也想试试这只「龙虾」，可以去官网看看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;🌐 官网：&lt;a href=&quot;https://openclaw.ai&quot;&gt;https://openclaw.ai&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;💻 GitHub：&lt;a href=&quot;https://github.com/openclaw/openclaw&quot;&gt;https://github.com/openclaw/openclaw&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;📖 文档：&lt;a href=&quot;https://docs.openclaw.ai&quot;&gt;https://docs.openclaw.ai&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;💬 Discord社区：&lt;a href=&quot;https://discord.gg/openclaw&quot;&gt;https://discord.gg/openclaw&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;说不定，它会成为你2026年最得力的数字助手呢？&lt;/p&gt;
&lt;p&gt;毕竟，龙虾蜕壳是为了长得更大。而OpenClaw，才刚刚开始它的成长之旅。🦞&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;strong&gt;参考资料：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://www.molt.bot/blog/introducing-openclaw&quot;&gt;Introducing OpenClaw&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://github.com/openclaw/openclaw&quot;&gt;OpenClaw GitHub Repository&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&quot;https://dev.to/sivarampg/from-clawdbot-to-moltbot-how-a-cd-crypto-scammers-and-10-seconds-of-chaos-took-down-the-4eck&quot;&gt;From Clawdbot to Moltbot - DEV Community&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item><item><title>🦞 Clawdbot → Moltbot：一场72小时的互联网闹剧</title><link>https://blog.gujiakai.me/2026/01/clawdbot-moltbot-rename-drama/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/01/clawdbot-moltbot-rename-drama/</guid><description>60000星开源项目被迫改名、10秒内被加密骗子抢注、1600万美元假代币崩盘——这场72小时的互联网风暴，暴露了AI时代开源生态的脆弱与荒诞</description><pubDate>Wed, 28 Jan 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;🦞 Clawdbot → Moltbot：一场72小时的互联网闹剧&lt;/h1&gt;
&lt;h2&gt;第一章：一夜爆红的开源明星&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;2026年1月26日&lt;/strong&gt;，一个名为 &lt;strong&gt;Clawdbot&lt;/strong&gt; 的开源项目突然爆红。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://kimi-web-img.moonshot.cn/img/linux.do/81c597191be3bfce2b07b0a3a5d8fec972e5511a.png&quot; alt=&quot;Moltbot Logo&quot; /&gt;&lt;/p&gt;
&lt;p&gt;由奥地利开发者 &lt;strong&gt;Peter Steinberger&lt;/strong&gt;（@steipete）创建，Clawdbot 是一个自托管的 AI 助手，可以：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;在 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 上运行&lt;/li&gt;
&lt;li&gt;拥有持久记忆，记住用户的偏好和对话历史&lt;/li&gt;
&lt;li&gt;控制浏览器、执行 shell 命令、管理日历&lt;/li&gt;
&lt;li&gt;主动发送通知和提醒&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Steinberger 并非无名之辈——他是 PSPDFKit（现更名为 Nutrient）的创始人，2021年获得 Insight Partners 过亿美元投资后“退休”，如今重出江湖打造这个“带手的 Claude”。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它的增长速度堪称疯狂：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;🚀 24小时内：&lt;strong&gt;9,000+ GitHub stars&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;🚀 72小时内：&lt;strong&gt;60,000+ GitHub stars&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;🚀 成为 GitHub 历史上增长最快的开源项目之一&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Andrej Karpathy（前特斯拉 AI 总监）公开称赞它，David Sacks（PayPal Mafia 成员）发推讨论它，MacStories 称它为“个人 AI 助手的未来”。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第二章：Anthropic 的&quot;商标炸弹&quot;&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;2026年1月27日&lt;/strong&gt;，就在 Clawdbot 爆红的巅峰时刻，&lt;strong&gt;Anthropic&lt;/strong&gt;（Claude 的母公司）发出了商标相关请求。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://kimi-web-img.moonshot.cn/img/upload.wikimedia.org/2551b26ed53e3c284329af5a426c7234c23a990a.png&quot; alt=&quot;Anthropic Claude Logo&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问题？&lt;/strong&gt; Anthropic 认为 &lt;strong&gt;“Clawd”&lt;/strong&gt; 与 &lt;strong&gt;“Claude”&lt;/strong&gt; 太过相似，涉嫌商标侵权。&lt;/p&gt;
&lt;p&gt;创始人 Peter Steinberger 在 X 上宣布：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;🦞 &lt;strong&gt;BIG NEWS: We&apos;ve molted!&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Clawdbot → Moltbot&lt;/strong&gt;&lt;br /&gt;
&lt;strong&gt;Clawd → Molty&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;em&gt;Same lobster soul, new shell.&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;Anthropic asked us to change our name (trademark stuff), and honestly? “Molt” fits perfectly — it&apos;s what lobsters do to grow.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这个重新品牌的创意颇具巧思：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;龙虾通过蜕壳（molt）来成长&lt;/li&gt;
&lt;li&gt;项目也在&quot;蜕壳&quot;后获得新生&lt;/li&gt;
&lt;li&gt;新网站：&lt;strong&gt;molt.bot&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr /&gt;
&lt;h2&gt;第三章：10秒钟的灾难 💥&lt;/h2&gt;
&lt;p&gt;然而，改名过程演变成了一场&lt;strong&gt;灾难&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;Peter Steinberger 试图同时重命名 GitHub 组织和 X/Twitter 账号。在旧名称释放和新名称注册之间的&lt;strong&gt;短短10秒空隙&lt;/strong&gt;中，&lt;strong&gt;加密货币骗子抢注了这两个账号&lt;/strong&gt;！&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;“Had to rename our accounts for trademark stuff and messed up the GitHub rename and the X rename got snatched by crypto shills. That went wonderful.”&lt;/em&gt;&lt;br /&gt;
— Peter Steinberger&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;骗子们显然一直在监控这个机会。他们瞬间抢占了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;❌ 原 @clawdbot X 账号&lt;/li&gt;
&lt;li&gt;❌ 原 Clawdbot GitHub 组织&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;然后开始利用这些账号向&lt;strong&gt;数万名不知情的粉丝&lt;/strong&gt;推送加密货币骗局。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第四章：1600万美元的假代币骗局&lt;/h2&gt;
&lt;p&gt;抢注账号只是开始。几小时内，&lt;strong&gt;假的 $CLAWD 代币&lt;/strong&gt;在 Solana 区块链上横空出世。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://kimi-web-img.moonshot.cn/img/masterthecrypto.com/73db0ac52d91fa61f40fc34aec4d72f906cba3a7.jpg&quot; alt=&quot;Crypto Scam&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;骗局时间线：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;📈 假代币市值一度飙升至 &lt;strong&gt;$16,000,000&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;📉 Peter Steinberger 公开声明“永远不会发行代币”&lt;/li&gt;
&lt;li&gt;📉 代币价格瞬间崩盘 &lt;strong&gt;90%+&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;💸 晚期买家被“割韭菜”，骗子卷走数百万美元&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Peter 被迫发推警告：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;em&gt;“To all crypto folks: Please stop pinging me, stop harassing me. I will never do a coin. Any project that lists me as coin owner is a SCAM.”&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;h2&gt;第五章：安全噩梦浮出水面&lt;/h2&gt;
&lt;p&gt;与此同时，安全研究人员发现了 Clawdbot/Moltbot 的&lt;strong&gt;严重安全漏洞&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;区块链安全公司 SlowMist 报告：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“Multiple unauthenticated instances are publicly accessible, and several code flaws may lead to credential theft and even remote code execution.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;研究员 Jamieson O&apos;Reilly 发现：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 Shodan 搜索“Clawdbot Control”可以找到&lt;strong&gt;数百个暴露的控制面板&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;这些面板包含：&lt;strong&gt;API 密钥、机器人令牌、OAuth 密钥、完整对话历史&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;攻击者可以：&lt;strong&gt;冒充用户发送消息、执行命令、窃取数据&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;演示攻击：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Archestra AI CEO &lt;strong&gt;Matvey Kukuy&lt;/strong&gt; 发送了一封带有提示注入的恶意邮件给暴露的 Moltbot 实例。AI 读取邮件后，相信了“合法指令”，将用户的&lt;strong&gt;最近5封邮件转发给了攻击者地址&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;整个过程只用了5分钟。&lt;/strong&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;第六章：社区 vs Anthropic&lt;/h2&gt;
&lt;p&gt;社区开始质疑 Anthropic 的决定。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;关键问题：&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Clawdbot 实际上&lt;strong&gt;推动了 Claude 的使用量&lt;/strong&gt;——许多用户专门配置 Clawdbot 使用 Claude 作为底层模型&lt;/li&gt;
&lt;li&gt;这是一个&lt;strong&gt;快速崛起的项目&lt;/strong&gt;，正在给 Anthropic 带来免费营销和 API 收入&lt;/li&gt;
&lt;li&gt;改名导致的混乱造成了&lt;strong&gt;实际的安全灾难和经济损失&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;“Clawd”与“Claude”的相似性显然是&lt;strong&gt;playful（玩梗）&lt;/strong&gt;，而非恶意侵权&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;DHH（Ruby on Rails 创始人）&lt;/strong&gt; 批评 Anthropic 的近期举动是“customer hostile”（对客户敌对）。&lt;/p&gt;
&lt;p&gt;AWS Hero &lt;strong&gt;AJ Stuyvenberg&lt;/strong&gt; 更为直接：“They&apos;re speedrunning the journey from forgivable startup to loathsome corporation before any exit!”&lt;/p&gt;
&lt;p&gt;开发者们开始将目光转向 OpenAI 的 Codex CLI（Apache 2.0 许可证），质疑 Anthropic 是否正在成为他们不愿在其平台上构建的那种公司。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;结局：多重战线上的战斗&lt;/h2&gt;
&lt;p&gt;Peter Steinberger 现在同时在应对：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;战线&lt;/th&gt;
&lt;th&gt;状态&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;🔄 恢复被劫持的 GitHub/X 账号&lt;/td&gt;
&lt;td&gt;进行中&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;🛡️ 应对加密货币骗子骚扰&lt;/td&gt;
&lt;td&gt;持续&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;👥 管理 8,900+ Discord 社区成员&lt;/td&gt;
&lt;td&gt;活跃&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;🔒 修复安全漏洞&lt;/td&gt;
&lt;td&gt;紧急&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;📢 重建品牌认知度&lt;/td&gt;
&lt;td&gt;挑战重重&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr /&gt;
&lt;h2&gt;更深层的教训&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;对开源构建者：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你在企业平台上构建，面临着模糊的商标政策。一封法律函就能迫使你改名，进而暴露你遭受账号劫持、骗局和混乱的风险。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;对 AI 公司：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你最热情的支持者是那些构建奇怪实验工具的独立开发者。向病毒式传播的开源项目发送法律通知——这些项目正在推动你的 API 使用——是一个值得深思的选择。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;对用户：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;自托管具有 root 权限的 AI 智能体既强大又危险。这些工具的安全模型仍然不成熟。不要将它们运行在主力机器上，不要赋予它们访问加密货币钱包的权限。使用专用硬件、隔离账号和严格的 IP 白名单。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;🤔 写在最后：Anthropic 真的是“正义”的一方吗？&lt;/h2&gt;
&lt;p&gt;这已经不是 Anthropic 第一次激怒开发者社区了。&lt;/p&gt;
&lt;p&gt;就在两周前（1月9日），Anthropic 突然封杀了所有通过第三方工具使用 Claude Pro/Max 订阅的用户——没有任何预警，没有迁移方案。那些已经将 Claude 深度集成到工作流中的开发者一夜之间被“背刺”。&lt;/p&gt;
&lt;p&gt;现在又是 Clawdbot 事件。&lt;/p&gt;
&lt;p&gt;一家标榜“AI 安全”和“负责任 AI”的公司，却在商标问题上对一个明显是善意玩梗、实际上在推动 Claude 生态的开源项目下手。讽刺的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Clawdbot 让更多人使用 Claude API&lt;/strong&gt; → Anthropic 赚更多钱&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Clawdbot 展示了 Claude 的能力&lt;/strong&gt; → 免费的营销素材&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Clawdbot 的开发者是 Claude 的忠实粉丝&lt;/strong&gt; → 社区布道者&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;结果呢？一封法律函，一场公关灾难，以及一群曾经热情的开发者开始认真考虑迁移到 OpenAI。&lt;/p&gt;
&lt;p&gt;Anthropic 的 slogan 是“AI safety”，但他们似乎更擅长“developer hostility”。&lt;/p&gt;
&lt;p&gt;当一家公司的法务部门比产品部门更活跃时，也许是时候问一句：&lt;strong&gt;他们保护的到底是谁的安全？&lt;/strong&gt; 是用户的安全，还是自己的商标帝国？&lt;/p&gt;
&lt;p&gt;开源社区的信任一旦失去，很难重建。Anthropic 或许应该重新思考：在 AI 这场马拉松中，真正的护城河是技术和生态，而不是法律函件。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;strong&gt;🔗 相关链接：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;新项目主页：&lt;a href=&quot;https://molt.bot&quot;&gt;molt.bot&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;GitHub：&lt;a href=&quot;https://github.com/moltbot&quot;&gt;github.com/moltbot&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;X 账号：&lt;a href=&quot;https://x.com/moltbot&quot;&gt;@moltbot&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;em&gt;这就是开源 AI 世界的现实：一夜爆红、法律威胁、加密货币骗局、安全漏洞——全部在72小时内发生。&lt;/em&gt; 🦞💥&lt;/p&gt;
</content:encoded></item><item><title>Claude创始人达沃斯专访：当程序员不再需要「写」代码</title><link>https://blog.gujiakai.me/2026/01/dario-amodei-davos-interview/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/01/dario-amodei-davos-interview/</guid><description>Anthropic创始人达沃斯最新专访解读：Claude的真实实力、中国开源的崛起、以及我们普通人该如何应对</description><pubDate>Thu, 22 Jan 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;Claude创始人达沃斯专访：当程序员不再需要「写」代码&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;Anthropic创始人达沃斯最新专访解读：Claude的真实实力、中国开源的崛起、以及我们普通人该如何应对&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/22/ioNbRaxZGSFMWjz.webp&quot; alt=&quot;Dario Amodei在达沃斯论坛的访谈照片&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;如果你用过Claude，大概率经历过这样的崩溃时刻：聊得正嗨，突然账号被封；好不容易申诉回来，没几天又进了小黑屋。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/22/jvknM79bQRqKh6B.webp&quot; alt=&quot;Claude封号严重&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在AI圈子里，Claude的「封号体质」几乎是个梗。但诡异的是，被封过的用户，十有八九还会想办法回来——因为用过就知道，&lt;strong&gt;这东西是真的强&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;2026年1月20日，Claude背后的公司Anthropic，其创始人Dario Amodei在达沃斯世界经济论坛接受了彭博社的专访。这位低调的AI大佬，罕见地聊了很多干货：Claude到底强在哪？中国AI是不是已经追上来了？程序员会不会大规模失业？&lt;/p&gt;
&lt;p&gt;今天我们就来聊聊这场访谈，顺便泼点冷水——Amodei有些观点，确实值得商榷。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;一、「两个月没写代码」的真相：AI编程没你想的那么玄乎&lt;/h2&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/22/7MchpuKorYjNTzG.webp&quot; alt=&quot;Claude Code在程序猿的指引下干活&quot; /&gt;&lt;/p&gt;
&lt;p&gt;访谈中最抓眼球的一句话，是Amodei提到他们Claude Code产品的负责人：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“他已经两个月没写过任何代码了，全部都是Claude在写。”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;乍一听，是不是感觉程序员要集体下岗了？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;别急，让我们拆解一下这句话的水分。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;首先，「不写代码」不等于「不工作」。这位负责人依然在做的事情包括：设计系统架构、拆解需求、撰写提示词、审查AI生成的代码、调试和测试、做技术决策……&lt;/p&gt;
&lt;p&gt;换句话说，他从「写代码的人」变成了「指挥AI写代码的人」。&lt;/p&gt;
&lt;p&gt;这就像从手动挡换成了自动挡——你确实不用踩离合器了，但你得知道什么时候该踩油门、什么时候该打方向盘。&lt;strong&gt;方向盘握不好，照样翻车。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Amodei自己在访谈中也承认，AI的认知能力虽然在指数级增长，但「全自动编程」目前还是不切实际的幻想。Claude再强，也需要人类用精准的提示词来引导，需要专业的眼光来把关输出质量。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;所以真相是：Claude不是在取代程序员，而是在放大程序员的能力。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;一个会用Claude的程序员，效率可能是不会用的十倍。但前提是，你得先是个合格的程序员，知道自己要什么、能判断AI给的东西对不对。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;二、中国AI落后了吗？这个问题本身就问错了&lt;/h2&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/22/DphJBgIj6ytzmad.webp&quot; alt=&quot;Qwen模型下载量稳居全球第一&quot; /&gt;&lt;/p&gt;
&lt;p&gt;访谈中有一段很有意思的对话。主持人问Amodei：你们和中国AI公司竞争，情况怎么样？&lt;/p&gt;
&lt;p&gt;Amodei的回答是：在争夺企业客户合同时，我们几乎没输给过中国模型。&lt;/p&gt;
&lt;p&gt;这话听起来很提气，但仔细想想，&lt;strong&gt;这个对比本身就不太公平。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Claude是什么级别的产品？背后是万亿参数的大模型，烧的是天文数字的算力和资金，主打的是高端企业市场。&lt;/p&gt;
&lt;p&gt;而中国AI领域最活跃的力量，恰恰是另一条赛道：&lt;strong&gt;开源&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;DeepSeek、Qwen、GLM……这些模型也许在某些基准测试上不如Claude，但它们做到了一件更重要的事：&lt;strong&gt;让普通开发者和中小企业也能用上AI。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你可以把它们部署在自己的服务器上，不用担心数据隐私；可以根据自己的需求微调，不用受制于API限制；最重要的是，&lt;strong&gt;成本低了不止一个数量级&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这就是所谓的「AI平权化」——不是每家公司都能负担得起Claude的企业版订阅，但几乎每个开发者都可以跑一个开源模型。&lt;/p&gt;
&lt;p&gt;Amodei在访谈中对中国AI的评价，多少有点「何不食肉糜」的味道。他站在顶级AI公司CEO的视角，看到的是高端市场的竞争格局。但他可能低估了开源生态的力量——历史上，Linux打败Unix、Android席卷手机市场，靠的都不是「更强」，而是「更普惠」。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;真正的AI格局，不是一场谁更强的比赛，而是一个多层次的生态系统。&lt;/strong&gt; Claude可以是皇冠上的明珠，但中国开源模型正在把AI的门槛一降再降，让更多人参与这场变革。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;三、程序员会失业吗？这是个伪命题&lt;/h2&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/22/IlEhNZxivVeqatQ.webp&quot; alt=&quot;程序猿使用AI工具协作&quot; /&gt;&lt;/p&gt;
&lt;p&gt;访谈中，主持人抛出了一个尖锐的问题：AI会不会导致大规模失业？&lt;/p&gt;
&lt;p&gt;Amodei的回答很实诚：可能会出现GDP快速增长和失业率同时升高的局面。&lt;/p&gt;
&lt;p&gt;这话没毛病，但我想换个角度来看这个问题。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;与其问「程序员会不会失业」，不如问「什么样的程序员会失业」。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;历史上每一次技术革命，都有一批人被淘汰，也有一批人借势起飞。Excel出现后，算盘打得好的会计没了优势；CAD普及后，手绘图纸的能力不再稀缺。但会计和工程师这两个职业，并没有消失。&lt;/p&gt;
&lt;p&gt;AI编程工具也是一样的逻辑。&lt;/p&gt;
&lt;p&gt;被淘汰的，是那些只会机械地敲代码、不理解业务逻辑、不会提出问题的「码农」。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;吃香的，是那些能把AI当作「超级助手」的人：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能精准描述需求，让AI生成高质量代码&lt;/li&gt;
&lt;li&gt;能快速审查AI输出，发现其中的坑&lt;/li&gt;
&lt;li&gt;能把AI整合进工作流，大幅提升效率&lt;/li&gt;
&lt;li&gt;最重要的是，&lt;strong&gt;能持续学习新工具、新方法&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Amodei说他们公司的人「两个月不写代码」，但他没说的是，这些人每天都在学习怎么更好地使用AI。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这才是真正的启示：不是学会一个工具就够了，而是要培养「持续学习」的能力。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Claude今天很强，明天可能有更强的。今天的提示词技巧，明年可能就过时了。唯一不变的，是变化本身。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;四、写在最后：保持清醒，保持好奇&lt;/h2&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/22/itwsekgHoLd9bDy.webp&quot; alt=&quot;人与AI协作的温馨场景&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Amodei在这次访谈中展现了一个AI公司CEO的典型视角：对自家产品充满信心，对竞争对手有所保留，对未来既乐观又谨慎。&lt;/p&gt;
&lt;p&gt;但我们作为普通人，没必要全盘接受任何一个大佬的观点。&lt;/p&gt;
&lt;p&gt;Claude确实很强，但它不是唯一的选择，也不是万能的。中国的开源模型也许在某些方面不如它，但正在让更多人受益于AI技术。程序员确实面临挑战，但有挑战的地方就有机会。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;如果让我用一句话总结这次访谈的启示，那就是：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI是工具，不是魔法。学会用它的人，会变得更强；指望它替你思考的人，终将被淘汰。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;至于Claude的封号问题嘛……只能说，且用且珍惜吧。&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;本文基于2026年1月20日彭博社达沃斯专访内容整理，观点仅代表作者个人看法。&lt;/em&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;strong&gt;【互动话题】&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;你在工作中用过AI编程工具吗？体验如何？欢迎在评论区聊聊你的经历~&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;strong&gt;参考资料&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://www.youtube.com/watch?v=Ckt1cj0xjRM&quot;&gt;Anthropic’s Amodei on AI: Power and Risk&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item><item><title>凌晨2点半的灵感：Google最火AI模型为什么叫“纳米香蕉”？</title><link>https://blog.gujiakai.me/2026/01/how-nano-banana-got-its-name/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/01/how-nano-banana-got-its-name/</guid><description>Google DeepMind的图像生成模型Nano Banana为什么叫这个奇怪的名字？原来是产品经理凌晨2:30被催着交代号，随口把自己的两个外号拼在一起。一个玩笑般的命名，最终成为全球最出圈的AI产品名之一。</description><pubDate>Sun, 18 Jan 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;凌晨2点半的灵感：Google最火AI模型为什么叫“纳米香蕉”？&lt;/h1&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/18/27nFLT9kPYlCatV.webp&quot; alt=&quot;Nano Banana Pro生成的Google Logo香蕉图&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;从去年年中开始，Google有个AI模型火了——不是因为它有多厉害（当然它确实很厉害），而是因为它的名字：&lt;strong&gt;Nano Banana（纳米香蕉）&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;是的，你没看错。一个正儿八经的AI图像生成模型，名字居然叫“纳米香蕉”。&lt;/p&gt;
&lt;p&gt;这到底是怎么回事？&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;一切始于一条凌晨2:30的消息&lt;/h2&gt;
&lt;p&gt;故事要从去年7月说起。&lt;/p&gt;
&lt;p&gt;当时，Google DeepMind团队正在准备把一款新的图像生成模型上线到LMArena（一个AI模型评测平台）。技术名称已经定好了，叫Gemini 2.5 Flash Image，但平台需要一个公开的代号。&lt;/p&gt;
&lt;p&gt;问题是——大家一直拖着没想这事。&lt;/p&gt;
&lt;p&gt;直到上线前夕的凌晨2:30，一位同事给产品经理Naina Raisinghani发消息：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“我们必须现在提交代号了。”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/18/6yFzj7skhpU2ilT.webp&quot; alt=&quot;我们必须现在提交代号了&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;“要不就叫Nano Banana？”&lt;/h2&gt;
&lt;p&gt;困意袭来的Naina脑子里蹦出一个想法：&lt;strong&gt;Nano Banana&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;为什么是这个名字？原来这跟她自己的外号有关：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;朋友们叫她&lt;strong&gt;Naina Banana&lt;/strong&gt;（因为Naina和Banana押韵）&lt;/li&gt;
&lt;li&gt;也有人叫她&lt;strong&gt;Nano&lt;/strong&gt;（因为她个子小，又喜欢计算机）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;于是她把两个外号拼在了一起——&lt;strong&gt;Nano Banana&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;而且这个名字还意外地合适：因为这是个Flash（闪电）模型，Nano（纳米）正好暗示了它的轻量和快速。&lt;/p&gt;
&lt;p&gt;就这样，一个凌晨2点半的随口一说，变成了正式代号。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;没想到，它火了&lt;/h2&gt;
&lt;p&gt;8月初，Nano Banana在LMArena上线。&lt;/p&gt;
&lt;p&gt;用户们发现，这个模型的图像编辑能力相当惊艳——能保持人物相似度，还能巧妙地把多张图片融合在一起。&lt;/p&gt;
&lt;p&gt;但更让人印象深刻的，是这个奇奇怪怪的名字。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;“纳米香蕉是什么鬼？”&lt;/strong&gt;&lt;br /&gt;
&lt;strong&gt;“这名字也太可爱了吧！”&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/18/MkONf43FJdvLhE8.webp&quot; alt=&quot;社交媒体上关于Nano Banana的讨论截图&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这个名字在社交媒体上迅速传播，不同地区的网友还玩出了各种本地化梗。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;从玩笑到官方认证&lt;/h2&gt;
&lt;p&gt;后来的事情大家可能知道了——Nano Banana成了全球评分最高的图像编辑模型之一。&lt;/p&gt;
&lt;p&gt;Google干脆将错就错，在品牌设计上全面拥抱了“香蕉”元素。最新版本甚至升级成了&lt;strong&gt;Nano Banana Pro&lt;/strong&gt;（搭载Gemini 3 Pro Image）。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/18/YslLKvd2ozSxFB8.webp&quot; alt=&quot;Nano Banana Pro宣传图&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;最后&lt;/h2&gt;
&lt;p&gt;一个凌晨2点半的灵光一闪，一个带有个人温度的小玩笑，最终成了Google AI产品线里最出圈的名字之一。&lt;/p&gt;
&lt;p&gt;这个故事告诉我们：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;有时候，最好的创意来自放松的状态&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不要小看“随便起的名字”&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;好产品+好名字=病毒式传播&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;下次给项目起名的时候，不妨试试凌晨2点半？&lt;/p&gt;
&lt;p&gt;（开玩笑的，早点睡觉。）&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;strong&gt;#Google #AI #NanoBanana #人工智能 #科技趣闻&lt;/strong&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;strong&gt;参考资料：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&quot;https://blog.google/products-and-platforms/products/gemini/how-nano-banana-got-its-name/&quot;&gt;How Nano Banana got its name - Google Blog&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item><item><title>2025年LLM大变局：Simon Willison年度总结深度解读</title><link>https://blog.gujiakai.me/2026/01/simon-willison-2025-year-in-llms/</link><guid isPermaLink="true">https://blog.gujiakai.me/2026/01/simon-willison-2025-year-in-llms/</guid><description>Django联合创始人Simon Willison的2025年LLM年度总结解读：推理模型改变一切、Claude Code创造10亿美元ARR、中国开源模型霸榜、OpenAI失去领先地位、$200/月订阅成为新标准。一篇让你看清AI行业全貌的万字深度分析。</description><pubDate>Thu, 01 Jan 2026 00:00:00 GMT</pubDate><content:encoded>&lt;h1&gt;2025年LLM大变局：Simon Willison年度总结深度解读&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;原文链接&lt;/strong&gt;: &lt;a href=&quot;https://simonwillison.net/2025/Dec/31/the-year-in-llms/&quot;&gt;2025: The year in LLMs&lt;/a&gt; - Simon Willison&lt;/p&gt;
&lt;p&gt;本文基于Simon Willison的年度总结进行解读，向这位Django联合创始人、LLM领域最敏锐的观察者致敬。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr /&gt;
&lt;h2&gt;写在前面：为什么你该认真读Simon Willison？&lt;/h2&gt;
&lt;p&gt;Simon Willison不是那种只会吹捧AI的布道者。他是Django框架的联合创始人，是“prompt injection”这个术语的定义者，是Python软件基金会的董事会成员。更重要的是——他是一个每天都在用LLM干活的开发者，2025年他用AI辅助构建了110个工具。&lt;/p&gt;
&lt;p&gt;当这样一个人说出“2025年是XXX之年”时，值得认真听。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点一：推理模型改变了一切&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的判断&lt;/strong&gt;: 推理（Reasoning）不是让AI数草莓里有几个R，而是让AI学会&lt;strong&gt;带着工具干活&lt;/strong&gt;。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“The real unlock of reasoning was in driving tools. Reasoning models with access to tools can plan out multi-step tasks, execute on them and continue to reason about the results.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;2024年底o1发布时，大多数人的反应是：“哦，能做数学题了，跟我有什么关系？”这种想法大错特错。&lt;/p&gt;
&lt;p&gt;推理模型的真正价值在于：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;规划能力&lt;/strong&gt;: 能把复杂任务拆解成可执行的步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;反思能力&lt;/strong&gt;: 执行后能检查结果，调整策略&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具协调&lt;/strong&gt;: 能同时调用搜索、代码执行、文件操作等多种工具&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着什么？意味着AI从“问答机器”进化成了“执行者”。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/01/x4k1s3bDohnzfaS.webp&quot; alt=&quot;推理模型工作流程&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点二：Agent从“科幻”变成“实用”&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon年初的预测&lt;/strong&gt;: Agent不会发生。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Simon年末的承认&lt;/strong&gt;: 我错了一半。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“I didn&apos;t think agents would happen because I didn&apos;t think the gullibility problem could be solved... But if you define agents as LLM systems that can perform useful work via tool calls over multiple steps then agents are here.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;Simon的“打脸”其实很有启发性。他错在哪？错在把Agent想象成科幻电影里的万能助手。但真正落地的Agent是什么？是&lt;strong&gt;Claude Code&lt;/strong&gt;，是&lt;strong&gt;Codex CLI&lt;/strong&gt;，是能替你写代码、跑测试、提PR的工具。&lt;/p&gt;
&lt;p&gt;关键洞察：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Agent ≠ 通用智能助手&lt;/strong&gt;，而是&lt;strong&gt;特定领域的自动化执行器&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;代码领域&lt;/strong&gt;成为Agent最成熟的落地场景，因为代码执行结果可验证&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;搜索领域&lt;/strong&gt;是第二个成熟场景，深度研究模式真正work了&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Simon给出了一个务实的Agent定义：&lt;strong&gt;“能通过循环调用工具来达成目标的LLM系统”&lt;/strong&gt;。不玄乎，但管用。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点三：Claude Code是2025年最重要的产品&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的原话&lt;/strong&gt;: “The most impactful event of 2025 happened in February, with the quiet release of Claude Code.”&lt;/p&gt;
&lt;p&gt;这个观点可能会让很多人意外。不是GPT-5？不是DeepSeek R1的股市冲击？是一个&lt;strong&gt;命令行工具&lt;/strong&gt;？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;Claude Code代表的是一种范式转变——&lt;strong&gt;LLM从对话界面走向终端&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;为什么这很重要？&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;开发者的自然栖息地&lt;/strong&gt;: 终端是开发者最熟悉的环境，管道、重定向、脚本组合——这些Unix哲学与LLM完美融合&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;$10亿ARR的验证&lt;/strong&gt;: Anthropic宣布Claude Code达到10亿美元年收入。一个CLI工具！这说明专业用户愿意为真正有用的AI工具付费&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;异步执行的突破&lt;/strong&gt;: Claude Code for web可以在后台运行，你发一个任务，去喝杯咖啡，回来PR就提好了&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;在经过净化处理的软件工程基准测试SWE-rebench中，Claude Code遥遥领先。Claude Code搭配上Claude Opus 4.5是最佳Vibe Coding组合。而在修Bug、审查代码等方面，OpenAI的Codex GPT 5.2 xhigh更擅长。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/01/o1pJ3teDyciH9dZ.webp&quot; alt=&quot;Claude Code在SWE-rebench上遥遥领先&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点四：中国开源模型全面崛起&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的数据&lt;/strong&gt;: Artificial Analysis排行榜上，前五名开源模型&lt;strong&gt;全部来自中国&lt;/strong&gt;。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“GLM-4.7, Kimi K2 Thinking, MiMo-V2-Flash, DeepSeek V3.2, MiniMax-M2.1 are all Chinese open weight models.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2026/01/01/8JKmB1CFXaQvglc.webp&quot; alt=&quot;Artificial Analysis排行榜上，前五名开源模型全部来自中国&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;DeepSeek R1在2025年1月20日发布，当天NVIDIA市值蒸发6000亿美元。这不是技术事件，这是地缘政治事件。&lt;/p&gt;
&lt;p&gt;几个关键事实：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;DeepSeek V3训练成本约550万美元，而美国公司动辄几亿&lt;/li&gt;
&lt;li&gt;这些模型不只是“开源”，而是&lt;strong&gt;真开源&lt;/strong&gt;——MIT或Apache 2.0许可证&lt;/li&gt;
&lt;li&gt;虽然训练代码和数据集未公开，但详细的技术论文推动了全行业进步&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这对你意味着什么？&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地部署顶级模型的门槛大幅降低&lt;/li&gt;
&lt;li&gt;API成本的参照系被重新定义&lt;/li&gt;
&lt;li&gt;“AI是美国垄断”的叙事被打破&lt;/li&gt;
&lt;/ul&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点五：OpenAI失去了领先地位&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的判断&lt;/strong&gt;: “This year the rest of the industry caught up.”&lt;/p&gt;
&lt;p&gt;这不是说OpenAI变差了，而是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;图像生成被Google Nano Banana超越&lt;/li&gt;
&lt;li&gt;代码能力被Claude Opus 4.5挑战&lt;/li&gt;
&lt;li&gt;开源模型被中国厂商碾压&lt;/li&gt;
&lt;li&gt;音频API被Gemini Live威胁&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;OpenAI的优势现在主要是&lt;strong&gt;品牌认知&lt;/strong&gt;——“LLM没人知道，ChatGPT人人都听过”。但在专业开发者圈子，这种优势正在被稀释。&lt;/p&gt;
&lt;p&gt;Google在12月发布Gemini 3后，OpenAI内部宣布了“Code Red”。这是OpenAI第一次公开承认感受到了竞争压力。&lt;/p&gt;
&lt;p&gt;更深层的问题：Google有自己的TPU，不需要给NVIDIA交“GPU税”。当训练成本是核心竞争力时，这是结构性优势。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点六：$200/月订阅成为新标准&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;事实&lt;/strong&gt;: Claude Pro Max、ChatGPT Pro、Google AI Ultra都在$200/月档位。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Simon的亲身体验&lt;/strong&gt;: “I&apos;ve personally paid $100/month for Claude... I&apos;ve heard from plenty of other people who are happy to pay these prices too.”&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;这揭示了一个分化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;普通用户&lt;/strong&gt;: 免费版或$20/月够用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;重度用户&lt;/strong&gt;: $200/月是划算的交易&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;为什么划算？因为Coding Agent会&lt;strong&gt;疯狂消耗token&lt;/strong&gt;。如果你每天都在用Claude Code处理复杂任务，按API计费可能远超$200。&lt;/p&gt;
&lt;p&gt;这也意味着：&lt;strong&gt;LLM正在从“新奇玩具”变成“专业工具”&lt;/strong&gt;。专业工具就该有专业定价。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点七：YOLO模式与“偏差正常化”的危险&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的警告&lt;/strong&gt;: “The longer we get away with running these systems in fundamentally insecure ways, the closer we are getting to a Challenger disaster of our own.”&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;背景&lt;/strong&gt;: YOLO模式 = 让Coding Agent自动执行所有操作，不需要人工确认。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;这是Simon在这篇文章中最严肃的警告。他引用了社会学家Diane Vaughan对挑战者号航天飞机灾难的研究——工程师早就知道O型环有问题，但因为多次发射没出事，风险被“正常化”了。&lt;/p&gt;
&lt;p&gt;类比到AI：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你每天YOLO模式运行Claude Code都没出事&lt;/li&gt;
&lt;li&gt;你开始觉得prompt injection只是理论风险&lt;/li&gt;
&lt;li&gt;直到有一天，恶意指令真的删掉了你的home目录&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Johann Rehberger把这叫做“&lt;strong&gt;AI领域的偏差正常化&lt;/strong&gt;”。Simon显然深以为然。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点八：MCP可能只是昙花一现&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的观察&lt;/strong&gt;: “The reason I think MCP may be a one-year wonder is the stratospheric growth of coding agents.”&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心论点&lt;/strong&gt;: 当Agent能运行任意Bash命令时，谁还需要MCP？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;MCP（Model Context Protocol）是Anthropic在2024年11月推出的工具调用标准，2025年初爆火——OpenAI、Anthropic、Mistral八天内都宣布支持。&lt;/p&gt;
&lt;p&gt;但Simon指出了一个尴尬的事实：&lt;strong&gt;Bash是终极工具&lt;/strong&gt;。能跑shell命令的Agent，可以调用任何CLI工具——git、gh、ffmpeg、curl——何必再封装一层MCP？&lt;/p&gt;
&lt;p&gt;Anthropic自己似乎也意识到了这一点，推出了更轻量的&lt;strong&gt;Skills&lt;/strong&gt;机制：一个Markdown文件+可选脚本，比MCP的JSON-RPC服务器简单太多。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点九：本地模型很好，但云端模型更好&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Simon的矛盾心态&lt;/strong&gt;:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“I got small amounts of real work done offline! My excitement for local LLMs was very much rekindled.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;但同时：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“I have yet to try a local model that handles Bash tool calls reliably enough for me to trust that model to operate a coding agent on my device.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;2025年本地模型确实进步巨大：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mistral Small 3（24B）≈ GPT-4水平，能在64GB笔记本上跑&lt;/li&gt;
&lt;li&gt;20-32B参数区间成为甜点&lt;/li&gt;
&lt;li&gt;离线也能做一些实际工作&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但问题在于&lt;strong&gt;可靠性&lt;/strong&gt;。Coding Agent需要模型稳定地调用工具几十甚至上百次。本地模型还做不到。&lt;/p&gt;
&lt;p&gt;Simon的结论：下一台笔记本至少128GB内存，但主力工具仍是云端前沿模型。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点十：“Slop”成为年度词汇&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Merriam-Webster的定义&lt;/strong&gt;：“通过人工智能大量生产的低质量数字内容”&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Simon的乐观倾向&lt;/strong&gt;:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“The internet has always been flooded with low quality content. The challenge, as ever, is to find and amplify the good stuff.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;“Slop”（AI垃圾内容）这个词的流行，反映了公众对AI生成内容的警惕正在提升。这是好事。&lt;/p&gt;
&lt;p&gt;但Simon提出了一个更深的问题：&lt;strong&gt;你能感知到slop的影响吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;他自己的答案是：可能不能。因为他不用Facebook，精心策展自己的信息源。对于不这么做的普通用户呢？可能正在被slop淹没而不自知。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;核心观点十一：数据中心正在变得极度不受欢迎&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;事实&lt;/strong&gt;: 200多个环保组织要求暂停美国新数据中心建设。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Simon的关注点&lt;/strong&gt;: 水资源问题可能被夸大（分散注意力），但能源消耗是&lt;strong&gt;真实的&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我的解读&lt;/strong&gt;:&lt;/p&gt;
&lt;p&gt;这是这篇文章中唯一涉及AI伦理/社会影响的部分，而且Simon的态度很谨慎。&lt;/p&gt;
&lt;p&gt;他指出了&lt;strong&gt;Jevons悖论&lt;/strong&gt;：每token成本下降→用户消耗更多token→总能耗不降反升。&lt;/p&gt;
&lt;p&gt;$200/月的订阅用户可能比$20用户消耗10倍的计算资源。效率提升被使用量增长抵消。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;我的总结：Simon Willison教会我们的思维方式&lt;/h2&gt;
&lt;p&gt;读完这篇13000字的年度总结，我学到的不只是26个趋势，而是一种&lt;strong&gt;观察AI行业的方法论&lt;/strong&gt;：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;亲身实践&lt;/strong&gt;: Simon不是评论家，他构建了110个工具，每天都在用这些技术&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;承认错误&lt;/strong&gt;: 他年初预测Agent不会发生，年末坦然承认错了一半&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;定义术语&lt;/strong&gt;：“prompt injection”、“slop”、“lethal trifecta”——清晰的概念是清晰思考的前提&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;关注安全&lt;/strong&gt;：即使天天用YOLO模式，也不忘警告“挑战者号灾难”的风险&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;保持好奇&lt;/strong&gt;: 44岁的Django创始人，还在研究用手机编程&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果你想跟上LLM领域的发展，没有比关注Simon Willison更好的方式了。&lt;/p&gt;
&lt;hr /&gt;
&lt;h2&gt;附：Simon Willison创造/推广的2025年关键术语&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;术语&lt;/th&gt;
&lt;th&gt;含义&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Vibe Coding&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;完全依靠提示词让LLM生成代码，“忘记代码的存在”&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;The Lethal Trifecta&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;致命三重奏：访问私有数据+对外通信能力+暴露于不可信内容&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Context Rot&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;上下文腐烂：随着对话变长，模型输出质量下降&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Slopsquatting&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;利用LLM幻觉出的错误包名注册恶意软件包&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;Asynchronous Coding Agent&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;异步Coding Agent：后台运行、完成后提PR的工具&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr /&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;原文&lt;/strong&gt;: &lt;a href=&quot;https://simonwillison.net/2025/Dec/31/the-year-in-llms/&quot;&gt;2025: The year in LLMs&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;如果你觉得这篇解读有价值，去订阅Simon的博客：RSS、邮件或Bluesky/Mastodon都行。$10/月还能获得他的月度简报。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2&gt;备注&lt;/h2&gt;
&lt;p&gt;本篇文章由作者和Claude Opus 4.5、Gemini 3 Pro合力完成。&lt;/p&gt;
</content:encoded></item><item><title>AI新闻—2025.07.30</title><link>https://blog.gujiakai.me/2025/07/ai-news-1/</link><guid isPermaLink="true">https://blog.gujiakai.me/2025/07/ai-news-1/</guid><description>2025.7.30 AI新闻</description><pubDate>Wed, 30 Jul 2025 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;开源&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;Qwen3-30B-A3B小更新&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Qwen3-30B-A3B模型最近发布了小更新版本Qwen3-30B-A3B-Instruct-2507，这是一个高效的混合专家（MoE）模型，仅激活3B参数，却在非思考模式下达到了接近GPT-4o和Qwen3-235B-A22B的性能水平。主要改进包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;增强了推理、编码和数学能力；&lt;/li&gt;
&lt;li&gt;扩展了多语言知识覆盖；&lt;/li&gt;
&lt;li&gt;提升了长上下文理解能力，支持高达256K tokens；&lt;/li&gt;
&lt;li&gt;更好地对齐用户意图和处理开放式任务；&lt;/li&gt;
&lt;li&gt;去除块，使响应更直接高效。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;该更新使模型更智能、更快速，并便于本地部署，适用于各种复杂任务，如指令跟随、逻辑推理和工具使用。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;短评: 利好开源和做实验。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;官方推文: &lt;a href=&quot;https://x.com/Alibaba_Qwen/status/1950227114793586867&quot;&gt;https://x.com/Alibaba_Qwen/status/1950227114793586867&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;模型开源地址: &lt;a href=&quot;https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507&quot;&gt;https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507&lt;/a&gt;&lt;/p&gt;
&lt;h2&gt;闭源&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;ChatGPT Study Mode&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;OpenAI今日推出ChatGPT的“学习模式”（study mode），这是一个旨在帮助用户逐步解决问题而非直接提供答案的学习体验。该模式通过提问引导、逐步讲解和互动方式，提升用户的批判性思维和学习效果，特别适用于家庭作业帮助、考试准备和新知识探索。&lt;/p&gt;
&lt;p&gt;目前，该功能已对免费版、Plus、Pro和Team的登录用户开放，ChatGPT Edu用户将在未来几周内可用。这一更新被视为AI在教育领域的负责任应用，旨在减少对生成式AI的依赖并促进深度学习。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2025/07/30/Glty2OPrNMJC3kD.webp&quot; alt=&quot;ChatGPT Study Mode体验&quot; /&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;短评: 普通用户体验最强的AI产品，ChatGPT教你学习，有时不禁思考是否还有学校存在的必要。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;官方博文: &lt;a href=&quot;https://openai.com/index/chatgpt-study-mode/&quot;&gt;https://openai.com/index/chatgpt-study-mode/&lt;/a&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;NotebookLM &amp;amp; AI Mode Updates&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;谷歌近日推出NotebookLM的重大更新，包括引入视频概述（Video Overviews）和工作室面板（Studio）的升级。&lt;/p&gt;
&lt;p&gt;前者作为音频概述的视觉替代，通过AI生成叙述幻灯片，融入来源文档中的图像、图表、引用和数据，帮助用户更直观地理解复杂信息，并支持自定义主题、学习目标和受众；后者则采用全新界面设计，支持在单一笔记本中创建并存储多种相同类型输出（如多语言音频或针对不同章节的思维导图），提升协作和多任务效率。该功能已在英文用户中逐步 rollout，更多语言支持即将到来。&lt;/p&gt;
&lt;p&gt;此外，针对开学季，Google Search的AI模式（AI Mode）也迎来更新，包括支持桌面浏览器上传图像和PDF文件（未来扩展至Google Drive等类型）、Canvas工具用于多会话规划（如创建学习指南）、集成Google Lens的Search Live实时视频输入，以及Chrome中的Lens功能允许询问屏幕内容。这些增强旨在通过互动提问、跨参考信息和视觉上下文，提升学生、家长和教育者的学习体验，目前主要在美国和印度可用，适用于18岁以上用户。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;短评: Google的产品更新博文公布并不意味着功能立马获得，需要耐心等待，就如前一阵子AI Mode支持Gemini 2.5 Pro和Deep Research而言，当天博文发布时，用户们并没有第一时间获得该功能，后续才获取到了该功能。NotebookLM是学习的好帮手，更新的功能可进一步辅助学习；AI Mode是Google革自己命的预演，近期也有如Web Guide的实验项目，这些实验未来终将作为Google Search AI时代的产品发布。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;官方博文:&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://blog.google/technology/google-labs/notebooklm-video-overviews-studio-upgrades/&quot;&gt;https://blog.google/technology/google-labs/notebooklm-video-overviews-studio-upgrades/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;https://blog.google/products/search/ai-mode-updates-back-to-school/&quot;&gt;https://blog.google/products/search/ai-mode-updates-back-to-school/&lt;/a&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Claude Code -add-dir命令&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Claude Code最近引入了--add-dir命令，这是一个允许用户在单一会话中跨多个目录工作的功能扩展。通过在启动时使用CLI标志--add-dir &amp;lt;路径&amp;gt;或在会话中使用斜杠命令/add-dir &amp;lt;路径&amp;gt;，开发者可以无缝地将额外的工作目录添加到Claude Code的工作空间中，而无需切换主目录。该更新特别适用于处理单仓库（monorepo）、共享配置或跨项目协作的场景，帮助提升代码导航、引用和编辑的效率，使Claude Code作为终端AI编码工具更加强大和灵活。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;短评: Claude Code目前已经成为了开发者群体最受欢迎的产品，跨目录功能的扩展进一步使其体验更上一层楼。Anthropic以用户需求开发产品这一点值得点赞。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;官方推文: &lt;a href=&quot;https://x.com/_catwu/status/1950288312033562751&quot;&gt;https://x.com/_catwu/status/1950288312033562751&lt;/a&gt;&lt;/p&gt;
&lt;h2&gt;备注&lt;/h2&gt;
&lt;p&gt;本篇文章由作者和Grok 4合力完成。&lt;/p&gt;
</content:encoded></item><item><title>新的起点</title><link>https://blog.gujiakai.me/2025/07/new-beginning/</link><guid isPermaLink="true">https://blog.gujiakai.me/2025/07/new-beginning/</guid><description>微信公众号启动！</description><pubDate>Thu, 17 Jul 2025 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;在我上大学时，就曾开过一个微信公众号。但由于厌倦审核等因素，当时第一个微信公众号以自我注销而告终。&lt;/p&gt;
&lt;p&gt;之后，在AI的辅助下，我从头开始构建了一个个人博客。经过过去的3年多时间的沉淀，我的小破站有一些观众。下图展示目前小破站Cloudflare的访问数据，其实里面很多访客都是AI爬虫，真实数据远低于图中的值。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2025/07/17/btHN6WzDUhQGnMv.webp&quot; alt=&quot;Cloudflare访问数据&quot; /&gt;&lt;/p&gt;
&lt;p&gt;基本上都是用爱发电，没有考虑过加Google Ads来变现。目前还在读研，让我并没有感受到太多的生活压力。理想主义的站点用兴趣支撑久了，也难免会有些厌倦。&lt;/p&gt;
&lt;p&gt;明年也将迎来我学生时代的终结，难免得开始自己赚钱，养活自己，重开微信公众号就是其中的一种方式，不会作为主业，当作副业来玩玩。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://cdn.sa.net/2025/07/17/WqYR5ey98XBtbHQ.webp&quot; alt=&quot;Grok 4解答微信公众号变现&quot; /&gt;&lt;/p&gt;
&lt;p&gt;真正的中文互联网早已不再是Google、必应等搜索引擎搜出来的网站所支撑的天地了，真正的中文互联网都在各大巨头的“围墙花园”内。&lt;/p&gt;
&lt;p&gt;当我再次愿意“接地气”在真正的中文互联网上书写自己的文字，我会尽量避免落俗，所有文字均会经过我的打磨。本公众号不会涉及任何敏感、违规因素，会进行自我审查。&lt;/p&gt;
&lt;p&gt;我也明白当我在微信公众号上发布文字，自己的文字会成为腾讯混元大模型的语料。在公网上无可避免，私域也难以逃避，坦然面对这一现实。&lt;/p&gt;
&lt;p&gt;本公众号的头像、昵称与微信账号齐名。本公众号的每一篇文章都会对应公网上本人发布的原文，点击每天文章“阅读更多（Read More）”按钮即可跳转至原文出处。&lt;/p&gt;
&lt;p&gt;本公众号主要分享AI、个人折腾、个人成长心得等方面的知识，争取每周一更。&lt;/p&gt;
&lt;p&gt;新的起点，加油！⛽️&lt;/p&gt;
</content:encoded></item></channel></rss>