AI | AI收藏夹

瘦 Harness，胖技能

瘦 Harness，胖技能来源: X.com - @garrytan 作者: Garry Tan (@garrytan) 翻译时间: 2026-04-14 原文标题: Thin Harness, Fat Skills 正文内容 Steve Yegge 说，使用 AI 编码代理的人"比今天使用 Cursor 和聊天的工程师生产力高 10 到 100 倍，大约是 2005 年 Google 员工的 1000 倍。" 这是真实的数字。我见过。我经历过。但当人们听到它时，他们倾向于错误的解释。更好的模型。更聪明的 Claude。更多参数。2 倍的人和 100 倍的人使用的是相同的模型。差异不在于智能。而在于架构——它可以写在一个索引卡上。 Harness 就是产品 2026年3月31日，Anthropic 意外地将 Claude Code 的整个源代码发布到了 npm 注册表。512,000行。我读了它。它证实了我一直在 YC 教授的一切：秘密不在于模型。而在于包裹模型的那个东西。实时仓库上下文。提示缓存。专用工具。上下文膨胀最小化。结构化会话记忆。并行子代理。这些都没有让模型更聪明。所有这些都给模型提供了正确的上下文，在正确的时间，而不让它淹没在噪音中。那个包装器叫做 harness。每个 AI 构建者都应该问的问题是：什么进入 harness，什么留在外面？答案有一个特定的形状。我称之为瘦 harness，胖技能。五个定义瓶颈从来不是模型的智能。模型已经知道如何推理、综合和编写代码。它们失败是因为它们不理解你的数据——你的模式、你的约定、你的问题的特定形状。五个定义解决了这个问题。 1. 技能文件技能文件是一个可复用的 markdown 文档，教模型如何做某事。不是做什么——用户提供那个。技能提供过程。大多数人错过的关键洞察：技能文件就像方法调用一样工作。它接受参数。你用不同的参数调用它。相同的程序根据你传入的内容产生完全不同的能力。考虑一个叫做 /investigate 的技能。它有七个步骤：确定数据集范围、构建时间线、为每个文档做 diarize、综合、论证双方、引用来源。它接受三个参数：TARGET、QUESTION 和 DATASET。指向一个安全科学家和210万封发现邮件，你得到一个医疗研究分析师确定举报人是否被压制。指向一个空壳公司和 FEC 文件，你得到一个法医调查员追踪协调的竞选捐款。 ...

为什么你的'AI优先'策略可能是错的

为什么你的"AI优先"策略可能是错的来源: X.com - @intuitiveml 作者: Peter Pang (@intuitiveml) 翻译时间: 2026-04-14 原文标题: Why Your “AI-First” Strategy Is Probably Wrong 正文内容我们 99% 的生产代码由 AI 编写。上周二，我们在上午 10 点发布了一个新功能，中午进行 A/B 测试，下午 3 点因为数据不佳而下线。下午 5 点我们发布了更好的版本。三个月前，这样一个周期需要六周时间。我们不是靠把 Copilot 添加到 IDE 做到这一点的。我们拆解了整个工程流程，围绕 AI 重新构建。我们改变了规划、构建、测试、部署和组织团队的方式。我们改变了公司每个人的角色。 CREAO 是一个代理平台。25 名员工，10 名工程师。我们从 2025 年 11 月开始构建代理，两个月前我从零开始重构了整个产品架构和工程工作流。 OpenAI 在 2026 年 2 月发布了一个概念，捕捉了我们一直在做的事情。他们称之为 harness engineering（ harness 工程）：工程团队的主要工作不再是编写代码，而是让代理能够完成有用的工作。当某件事情失败时，修复方法从来不是"更努力"。修复方法是：缺少什么能力，我们如何让它对代理来说是清晰可读的、可执行的？我们自己得出了这个结论。我们没有一个名字来形容它。 AI优先不等于使用AI 大多数公司把 AI 套到现有流程上。工程师打开 Cursor，产品经理用 ChatGPT 起草需求文档，QA 尝试 AI 测试生成。工作流保持不变。效率提高 10% 到 20%。结构上没有任何改变。 ...

Claude：终极指南（2026年4月版）

Claude：终极指南（2026年4月版）来源: X.com - @coreyganim 作者: Corey Ganim (@coreyganim) 翻译时间: 2026-04-12 原文标题: Claude: The Ultimate Guide (April 2026) 正文内容大多数人说"我用 Claude"，好像它是一样东西。它不是。 Claude 是四个完全不同的产品，有四个完全不同的用途。用错了，你要么把简单任务复杂化，要么浪费巨大的生产力。以下是每个产品实际做什么、适合谁、以及何时选择哪一个。 Claude Chat：起点这是你认识的 Claude。访问 claude.ai，输入问题，获得答案。它做什么：一般对话和问答写作、编辑和头脑风暴文档分析（上传 PDF、图片、电子表格）研究和总结 Projects 用于保存可复用的上下文和指令适合谁：任何需要智能助手做思考工作的人。作家、研究人员、学生、想要快速答案的企业主。如果你的工作主要是"帮我思考这个"或"帮我写这个"，Claude Chat 是你的工具。在哪里使用：网页浏览器、桌面应用、移动应用。无需设置。直接开始输入。它不能做什么：这是关键限制。Claude Chat 无法在你的其他工具中采取行动。它不能发邮件、整理文件、更新电子表格或提交代码。你是中间人。你问，它答，你把结果复制粘贴到其他地方。定价：免费 tier 可用。Pro 每月 $20，使用量显著增加。底线： Claude Chat 是你的思考伙伴。非常适合头脑风暴、写作和分析。但它停留在聊天窗口内。 Claude Code：开发者的工作马 Claude Code 是有手的 Claude，专门为软件开发设计。它做什么：读取整个代码库并理解项目上下文直接在仓库中编辑文件运行终端命令处理 git 工作流（提交、PR、分支）生成 Agent 团队，多个 Claude 实例协调处理复杂任务通过 MCP 连接器集成 GitHub、GitLab、Slack 适合谁：开发者。句号。如果你不写代码，Claude Code 不适合你。但如果你写代码（任何语言、任何框架），这是目前最大的生产力提升。 ...

推出 Claude Managed Agents

推出 Claude Managed Agents 来源: X.com - @RLanceMartin 作者: Lance Martin (@RLanceMartin) 翻译时间: 2026-04-09 原文标题: Launching Claude Managed Agents 正文内容 TL;DR – Claude Managed Agents 是一个预构建、可配置的代理 harness，在托管基础设施中运行。你将代理定义为模板——工具、技能、文件/仓库等。代理 harness 和基础设施为你提供。该系统旨在跟上 Claude 快速增长的智能，并支持长周期任务。一些有用的链接： Claude 博客：使用模式和客户示例工程博客：Claude Managed Agents 的设计文档：入门、快速开始、CLI 和 SDK 概述为什么推出 Claude Managed Agents Claude Messages API 是通往模型的直接通道：它接收消息并返回内容块。在 Messages API 上构建的代理使用 harness 将 Claude 的工具调用路由到处理程序并管理上下文。这带来了一些挑战： Harness 需要跟上 Claude – 我最近写了一篇博客，专注于使用 Claude API 原语构建代理来处理工具编排和上下文管理。但代理 harness 编码了关于 Claude不能做什么的假设。随着 Claude 变得更有能力，这些假设会过时，并可能瓶颈 Claude 的性能。Harness 需要不断更新以跟上 Claude。 ...

35岁程序员，AI冲击失业，健康危机，我们该如何自救？

35岁程序员，AI冲击失业，健康危机，我们该如何自救？来源: X.com - @jinchenma_ai 作者: 金尘马 (@jinchenma_ai) 备份时间: 2026-04-04 原文标题: 35岁程序员，AI冲击失业，健康危机，我们该如何自救？正文内容我，一个 8 年程序员，在大厂工作了 5 年。如果一年前有人问我「程序员后半场怎么走」，我大概率也答不上来。因为那时候的我，跟现在正在读这篇文章的你一样，满脑子都是绩效、晋升、下次跳槽能涨多少。直到半年前，我从职场走出来，站在外面回头看的时候，才猛然发现一件事。程序员这个群体，就像是站在一艘缓缓下沉的泰坦尼克号上，而船上的绝大部分人还在拼命地想挤进头等舱。这篇文章，可能有点长。但我想根据我的真实经历，分享一下我脱离职场轨道这半年里的一些思考。程序员这艘船如何迎来的黄金时代，为什么会下沉，船上我们的困境究竟是什么，以及普通人该如何弃船自救。 01 程序员的黄金时代是怎么来的程序员的高薪不是从一开始就有的。如果在 2000 年初做开发，薪资并不离谱。程序员这个职业迎来黄金期的真正拐点是在 2010 年之后。那几年发生了什么事？智能手机普及，4G 上线，微信生态起来了。O2O 大战、网约车大战、共享经济大战，一场接一场。每一场战争背后都是资本在烧钱抢市场。资本投了几个亿给一家公司，这家公司最要紧的事不是盈利，而是用最快的速度把产品做出来、把用户抢到手。而为了把产品做出来，最需要的资源就是程序员，所以所有的科技公司都疯了一样地加价抢人。也正是从那个时候开始，我们经常听见有人靠写代码，跟着公司一路高歌猛进，最终公司上市，实现个人的财富自由。这也导致一时间，大批人涌入到互联网开发行业，就算不能人人都能财富自由，但至少高薪是肯定的。但好多人忽略了一点是，那份高薪，不是老板给你的，是他背后的投资人给的。这就像一个矿工，赶上了金矿大开发的年代。你觉得收入高是因为自己挖矿技术好，但真正的原因是矿里有金子。所以，程序员高薪从来不完全是因为写出的代码值那个价，而是市场愿意为争夺程序员这个稀缺资源付的溢价。而溢价，终究是要回吐的。于是，到了现在，金子都挖得差不多了。随着资本退潮、互联网进入存量市场、涌入这个行业的人越来越多，供需关系正在逆转。但问题是，你的房贷、你的消费习惯、你对未来收入的预期，全都是按之前那个职业高光时刻锚定的。 02 程序员是如何被公司驯化的高薪只是锁死程序员的第一步。真正把你锁死的，是公司的制度设计和长期以来的技术惯性。先说公司这把锁薪资结构的锁定效应。大部分公司的薪资构成是基本工资 + 绩效奖金 + 股票期权。基本工资可能只占一半多，剩下奖金和股票部分跟你的工龄、职级、绩效评分直接挂钩。你待得越久，这些附加收入占比越大，但换一家公司可能就归零了。所以你每年都觉得「再待一年把这些钱拿了再走」。这跟赌场的设计原理一模一样，总让你觉得「再玩一把就走」，从而逐渐丧失了对长期风险的判断。分工的极度细化。为了效率，公司把每个业务拆成极细的模块。你可能只负责一个系统的某个子模块的某个功能。你在这个方向上做得越深，你的简历就越依赖这家公司的业务背景。你觉得自己在积累经验，但积累出来的可能只是「只能在这家公司使用的经验」。舒适区的隔离。公司把你从所有非技术事务中「保护」起来了。你不用跟客户打交道，有产品经理帮你翻译需求。你不用考虑商业逻辑，有你 leader 帮你做决策。你不用操心公司赚不赚钱，反正工资按月到账。说好听点是把你「保护」起来，让你专注技术，但实际的代价是，你慢慢丧失了对商业、对市场、对人性的所有感知。时间的买断。 996 的工作时长，加上一线城市一到一个半小时的通勤，一个人一天可能有十四五个小时花在工作相关的事情上。刨去睡眠，留给自己的时间每天可能就一两个小时。白天高强度的脑力消耗已经把你榨干了，回到家你什么都不想干，只想躺在床上刷刷手机，偶尔想要多学点东西，搞搞副业，但很难开始，更别提坚持下去了。这就是公司用高薪买断了你其余时间里成长的可能性。再说程序员「技术思维」这把锁做技术的人通病是什么？拿到一个问题，本能反应是怎么实现。用什么框架，数据表怎么设计，缓存怎么搞，并发怎么扛。 ...

2030年大预言：会用AI的人进入新贵族，不会用的人变成数字农奴

备份：2030年大预言 - AI最严厉的父亲来源: X.com - @dashen_wang 作者: AI最严厉的父亲 (@dashen_wang) 备份时间: 2026-03-30 主要内容: 关于 2027-2030 年 AI 发展、职业变迁及社会物种分化的深度预测。正文内容写于2026年3月。数据是真的，预测是大胆的，悲观的部分是我最不想说对的。 ps：本文又臭又长，但是我还是建议你坚持读完。给我一个不同的意见。我认识一个朋友，前几年做短视频博主，做得还不错，几十万粉丝。去年他跟我说，他现在用AI做内容，以前三个人干的事他一个人干，而且做得比以前好。我当时还觉得他在凡尔赛。上个月我们又聊，他说他现在在考虑怎么"管理"他那几个AI——因为它们开始会自己规划任务了。我没说什么，但我在想：他用的那个词，“管理”，可能很快就会显得天真，就像二十年前有人说"我在管理我的文件夹"一样。那时候人们也觉得那是很认真的事情。然后我想起另一个朋友。他在某个制造业工厂做质检，一个月六千块，做了八年，很熟练。去年工厂引入了视觉检测AI，他被调去负责"监督AI"，薪资降到了四千八。今年他跟我说，他现在在送外卖，因为工厂那边连"监督AI"的岗位也不需要了。这两个朋友，一个在往上走，一个在往下走。而他们之间的距离，正在以一种让人来不及反应的速度变大。这篇文章，我想说清楚几件事：接下来四年，那些往上走的机会在哪里；那条往下走的路会通向什么地方；以及，如果你有孩子，你现在应该怎么想这件事。最后这部分，是我最私人的想法，也是我觉得最值得认真对待的部分。一、先说一个让我久久不能平静的数字 2021年，世界上最聪明的AI，做了一套小学数学题，得了35分。这不是玩笑，这是OpenAI自己公布的测试数据，测试集叫GSM8K，就是那种"小明有3个苹果，给了小红2个，还剩几个"的题型。最先进的AI，35分。（GSM8K：Grade School Math 8K，包含8500道小学水平数学应用题的测试集，曾是衡量AI数学推理能力的标准基准之一。）然后到了2026年，同类型的测试，得分是99分。用了不到五年。这条曲线的形状不是缓慢爬升，是一根杆子，几乎垂直插进天空——垂直到让出题的人觉得尴尬，这道题现在已经被废弃了，因为它失去了测试意义，就像你不会用"会不会骑自行车"来考驾照一样。于是他们出了更难的题。全球几百个领域的顶尖专家联手出了一套"AI绝对通不过"的考试，叫做 Humanity’s Last Exam，我姑且叫它"人类的最后一块自留地"。（Humanity’s Last Exam，HLE：由全球顶尖专家协作出题的超难考试，涵盖数学、物理、化学、生物、法律等100多个专业领域，设计目标是让AI短期内无法通过。设计规则：只要现有AI能答对某题，就撤换那道题，直到AI彻底答不出来为止。） 2024年底这套题出来的时候，顶尖AI的得分是个位数百分比。到2026年2月，Claude Opus 4.6拿到了 53.1% 。从个位数到超过一半，用了大约一年半。那帮出题的顶尖专家们，现在大概要认真想想，什么叫"只有人类才能做到的事"。因为他们以为的那条线，正在以他们没有预料到的速度被穿越。二、在谈预测之前，我要先发明几个词你记不记得，三年前"Agent"这个词突然就流行起来了？或者"RAG"、“MCP”？这些词在两年前还不存在，或者只有极少数研究员在用，现在已经是科技媒体的日常词汇了。（Agent：智能体，指能自主规划、执行任务、调用工具的AI系统，不只是回答问题，而是会主动做事。RAG：检索增强生成，让AI能实时调用你私有数据来回答问题的技术。MCP：Model Context Protocol，让AI和各种外部工具互联互通的标准接口，理解成AI的"USB接口"就够了。）新技术总是先有现象，再造词语。词语跟不上的地方，就是变化正在发生的地方。我接下来说的这几个词，现在还没有人这么叫，但我猜五年内它们会进教科书。第一个：编排者经济（Orchestration Economy）过去，“谁能做"决定了谁有价值。医生有价值是因为他懂医学，程序员有价值是因为他会写代码。执行能力是稀缺的。当AI的执行能力全面溢出，稀缺的就变成了"知道让谁做什么”。编排者，就是那个不一定会做，但知道怎么把一堆AI工具组合起来让整件事完成的人。第二个：技能蒸发（Skill Evaporation）每个人都有一些花了多年时间积累的技能。翻译、校对、排版、基础编程、数据整理、客服话术……过去是护城河。技能蒸发，是指这些技能在极短时间内失去市场价值。不是慢慢贬值，是蒸发。蒸发最快的是"有清晰输入输出、可被验证、大量重复"的技能。就像马车夫在1920年代的遭遇，只是速度快了二十倍。第三个：静默生产（Silent Production）当Agent可以24小时在后台运行，生产活动就开始在你睡觉的时候发生。你早上起来打开手机，你的AI昨晚写了三篇草稿、处理了十二封邮件、抓取了竞争对手的价格数据。没有人盯着它，它就是在工作。静默生产的规模将在2027年到2028年间变得可被统计。第四个：意图层（Intent Layer） ...