瘦 Harness,胖技能

瘦 Harness,胖技能 来源: X.com - @garrytan 作者: Garry Tan (@garrytan) 翻译时间: 2026-04-14 原文标题: Thin Harness, Fat Skills 正文内容 Steve Yegge 说,使用 AI 编码代理的人"比今天使用 Cursor 和聊天的工程师生产力高 10 到 100 倍,大约是 2005 年 Google 员工的 1000 倍。" 这是真实的数字。我见过。我经历过。但当人们听到它时,他们倾向于错误的解释。更好的模型。更聪明的 Claude。更多参数。2 倍的人和 100 倍的人使用的是相同的模型。差异不在于智能。而在于架构——它可以写在一个索引卡上。 Harness 就是产品 2026年3月31日,Anthropic 意外地将 Claude Code 的整个源代码发布到了 npm 注册表。512,000行。我读了它。它证实了我一直在 YC 教授的一切:秘密不在于模型。而在于包裹模型的那个东西。 实时仓库上下文。提示缓存。专用工具。上下文膨胀最小化。结构化会话记忆。并行子代理。这些都没有让模型更聪明。所有这些都给模型提供了正确的上下文,在正确的时间,而不让它淹没在噪音中。 那个包装器叫做 harness。每个 AI 构建者都应该问的问题是:什么进入 harness,什么留在外面?答案有一个特定的形状。我称之为 瘦 harness,胖技能。 五个定义 瓶颈从来不是模型的智能。模型已经知道如何推理、综合和编写代码。它们失败是因为它们不理解你的数据——你的模式、你的约定、你的问题的特定形状。五个定义解决了这个问题。 1. 技能文件 技能文件是一个可复用的 markdown 文档,教模型如何做某事。不是做什么——用户提供那个。技能提供过程。 大多数人错过的关键洞察:技能文件就像方法调用一样工作。它接受参数。你用不同的参数调用它。相同的程序根据你传入的内容产生完全不同的能力。 考虑一个叫做 /investigate 的技能。它有七个步骤:确定数据集范围、构建时间线、为每个文档做 diarize、综合、论证双方、引用来源。它接受三个参数:TARGET、QUESTION 和 DATASET。指向一个安全科学家和210万封发现邮件,你得到一个医疗研究分析师确定举报人是否被压制。指向一个空壳公司和 FEC 文件,你得到一个法医调查员追踪协调的竞选捐款。 ...

2026年4月14日 · 2 分钟 · cxyac

为什么你的'AI优先'策略可能是错的

为什么你的"AI优先"策略可能是错的 来源: X.com - @intuitiveml 作者: Peter Pang (@intuitiveml) 翻译时间: 2026-04-14 原文标题: Why Your “AI-First” Strategy Is Probably Wrong 正文内容 我们 99% 的生产代码由 AI 编写。上周二,我们在上午 10 点发布了一个新功能,中午进行 A/B 测试,下午 3 点因为数据不佳而下线。下午 5 点我们发布了更好的版本。三个月前,这样一个周期需要六周时间。 我们不是靠把 Copilot 添加到 IDE 做到这一点的。我们拆解了整个工程流程,围绕 AI 重新构建。我们改变了规划、构建、测试、部署和组织团队的方式。我们改变了公司每个人的角色。 CREAO 是一个代理平台。25 名员工,10 名工程师。我们从 2025 年 11 月开始构建代理,两个月前我从零开始重构了整个产品架构和工程工作流。 OpenAI 在 2026 年 2 月发布了一个概念,捕捉了我们一直在做的事情。他们称之为 harness engineering( harness 工程):工程团队的主要工作不再是编写代码,而是让代理能够完成有用的工作。当某件事情失败时,修复方法从来不是"更努力"。修复方法是:缺少什么能力,我们如何让它对代理来说是清晰可读的、可执行的? 我们自己得出了这个结论。我们没有一个名字来形容它。 AI优先不等于使用AI 大多数公司把 AI 套到现有流程上。工程师打开 Cursor,产品经理用 ChatGPT 起草需求文档,QA 尝试 AI 测试生成。工作流保持不变。效率提高 10% 到 20%。结构上没有任何改变。 ...

2026年4月14日 · 3 分钟 · cxyac

Claude:终极指南(2026年4月版)

Claude:终极指南(2026年4月版) 来源: X.com - @coreyganim 作者: Corey Ganim (@coreyganim) 翻译时间: 2026-04-12 原文标题: Claude: The Ultimate Guide (April 2026) 正文内容 大多数人说"我用 Claude",好像它是一样东西。 它不是。 Claude 是四个完全不同的产品,有四个完全不同的用途。用错了,你要么把简单任务复杂化,要么浪费巨大的生产力。 以下是每个产品实际做什么、适合谁、以及何时选择哪一个。 Claude Chat:起点 这是你认识的 Claude。访问 claude.ai,输入问题,获得答案。 它做什么: 一般对话和问答 写作、编辑和头脑风暴 文档分析(上传 PDF、图片、电子表格) 研究和总结 Projects 用于保存可复用的上下文和指令 适合谁: 任何需要智能助手做思考工作的人。作家、研究人员、学生、想要快速答案的企业主。如果你的工作主要是"帮我思考这个"或"帮我写这个",Claude Chat 是你的工具。 在哪里使用: 网页浏览器、桌面应用、移动应用。无需设置。直接开始输入。 它不能做什么: 这是关键限制。Claude Chat 无法在你的其他工具中采取行动。它不能发邮件、整理文件、更新电子表格或提交代码。你是中间人。你问,它答,你把结果复制粘贴到其他地方。 定价: 免费 tier 可用。Pro 每月 $20,使用量显著增加。 底线: Claude Chat 是你的思考伙伴。非常适合头脑风暴、写作和分析。但它停留在聊天窗口内。 Claude Code:开发者的工作马 Claude Code 是有手的 Claude,专门为软件开发设计。 它做什么: 读取整个代码库并理解项目上下文 直接在仓库中编辑文件 运行终端命令 处理 git 工作流(提交、PR、分支) 生成 Agent 团队,多个 Claude 实例协调处理复杂任务 通过 MCP 连接器集成 GitHub、GitLab、Slack 适合谁: 开发者。句号。如果你不写代码,Claude Code 不适合你。但如果你写代码(任何语言、任何框架),这是目前最大的生产力提升。 ...

2026年4月12日 · 2 分钟 · cxyac

推出 Claude Managed Agents

推出 Claude Managed Agents 来源: X.com - @RLanceMartin 作者: Lance Martin (@RLanceMartin) 翻译时间: 2026-04-09 原文标题: Launching Claude Managed Agents 正文内容 TL;DR – Claude Managed Agents 是一个预构建、可配置的代理 harness,在托管基础设施中运行。你将代理定义为模板——工具、技能、文件/仓库等。代理 harness 和基础设施为你提供。该系统旨在跟上 Claude 快速增长的智能,并支持长周期任务。 一些有用的链接: Claude 博客:使用模式和客户示例 工程博客:Claude Managed Agents 的设计 文档:入门、快速开始、CLI 和 SDK 概述 为什么推出 Claude Managed Agents Claude Messages API 是通往模型的直接通道:它接收消息并返回内容块。在 Messages API 上构建的代理使用 harness 将 Claude 的工具调用路由到处理程序并管理上下文。这带来了一些挑战: Harness 需要跟上 Claude – 我最近写了一篇博客,专注于使用 Claude API 原语构建代理来处理工具编排和上下文管理。但代理 harness 编码了关于 Claude不能做什么的假设。随着 Claude 变得更有能力,这些假设会过时,并可能瓶颈 Claude 的性能。Harness 需要不断更新以跟上 Claude。 ...

2026年4月9日 · 2 分钟 · cxyac

35岁程序员,AI冲击失业,健康危机,我们该如何自救?

35岁程序员,AI冲击失业,健康危机,我们该如何自救? 来源: X.com - @jinchenma_ai 作者: 金尘马 (@jinchenma_ai) 备份时间: 2026-04-04 原文标题: 35岁程序员,AI冲击失业,健康危机,我们该如何自救? 正文内容 我,一个 8 年程序员,在大厂工作了 5 年。 如果一年前有人问我「程序员后半场怎么走」,我大概率也答不上来。因为那时候的我,跟现在正在读这篇文章的你一样,满脑子都是绩效、晋升、下次跳槽能涨多少。 直到半年前,我从职场走出来,站在外面回头看的时候,才猛然发现一件事。 程序员这个群体,就像是站在一艘缓缓下沉的泰坦尼克号上,而船上的绝大部分人还在拼命地想挤进头等舱。 这篇文章,可能有点长。但我想根据我的真实经历,分享一下我脱离职场轨道这半年里的一些思考。 程序员这艘船如何迎来的黄金时代,为什么会下沉,船上我们的困境究竟是什么,以及普通人该如何弃船自救。 01 程序员的黄金时代是怎么来的 程序员的高薪不是从一开始就有的。 如果在 2000 年初做开发,薪资并不离谱。程序员这个职业迎来黄金期的真正拐点是在 2010 年之后。 那几年发生了什么事?智能手机普及,4G 上线,微信生态起来了。O2O 大战、网约车大战、共享经济大战,一场接一场。每一场战争背后都是资本在烧钱抢市场。 资本投了几个亿给一家公司,这家公司最要紧的事不是盈利,而是用最快的速度把产品做出来、把用户抢到手。 而为了把产品做出来,最需要的资源就是程序员,所以所有的科技公司都疯了一样地加价抢人。 也正是从那个时候开始,我们经常听见有人靠写代码,跟着公司一路高歌猛进,最终公司上市,实现个人的财富自由。 这也导致一时间,大批人涌入到互联网开发行业,就算不能人人都能财富自由,但至少高薪是肯定的。 但好多人忽略了一点是,那份高薪,不是老板给你的,是他背后的投资人给的。 这就像一个矿工,赶上了金矿大开发的年代。你觉得收入高是因为自己挖矿技术好,但真正的原因是矿里有金子。 所以,程序员高薪从来不完全是因为写出的代码值那个价,而是市场愿意为争夺程序员这个稀缺资源付的溢价。而溢价,终究是要回吐的。 于是,到了现在,金子都挖得差不多了。随着资本退潮、互联网进入存量市场、涌入这个行业的人越来越多,供需关系正在逆转。 但问题是,你的房贷、你的消费习惯、你对未来收入的预期,全都是按之前那个职业高光时刻锚定的。 02 程序员是如何被公司驯化的 高薪只是锁死程序员的第一步。真正把你锁死的,是公司的制度设计和长期以来的技术惯性。 先说公司这把锁 薪资结构的锁定效应。 大部分公司的薪资构成是基本工资 + 绩效奖金 + 股票期权。基本工资可能只占一半多,剩下奖金和股票部分跟你的工龄、职级、绩效评分直接挂钩。 你待得越久,这些附加收入占比越大,但换一家公司可能就归零了。 所以你每年都觉得「再待一年把这些钱拿了再走」。这跟赌场的设计原理一模一样,总让你觉得「再玩一把就走」,从而逐渐丧失了对长期风险的判断。 分工的极度细化。 为了效率,公司把每个业务拆成极细的模块。你可能只负责一个系统的某个子模块的某个功能。 你在这个方向上做得越深,你的简历就越依赖这家公司的业务背景。你觉得自己在积累经验,但积累出来的可能只是「只能在这家公司使用的经验」。 舒适区的隔离。 公司把你从所有非技术事务中「保护」起来了。 你不用跟客户打交道,有产品经理帮你翻译需求。你不用考虑商业逻辑,有你 leader 帮你做决策。你不用操心公司赚不赚钱,反正工资按月到账。 说好听点是把你「保护」起来,让你专注技术,但实际的代价是,你慢慢丧失了对商业、对市场、对人性的所有感知。 时间的买断。 996 的工作时长,加上一线城市一到一个半小时的通勤,一个人一天可能有十四五个小时花在工作相关的事情上。刨去睡眠,留给自己的时间每天可能就一两个小时。 白天高强度的脑力消耗已经把你榨干了,回到家你什么都不想干,只想躺在床上刷刷手机,偶尔想要多学点东西,搞搞副业,但很难开始,更别提坚持下去了。 这就是公司用高薪买断了你其余时间里成长的可能性。 再说程序员「技术思维」这把锁 做技术的人通病是什么?拿到一个问题,本能反应是怎么实现。用什么框架,数据表怎么设计,缓存怎么搞,并发怎么扛。 ...

2026年4月4日 · 2 分钟 · cxyac

2030年大预言:会用AI的人进入新贵族,不会用的人变成数字农奴

备份:2030年大预言 - AI最严厉的父亲 来源: X.com - @dashen_wang 作者: AI最严厉的父亲 (@dashen_wang) 备份时间: 2026-03-30 主要内容: 关于 2027-2030 年 AI 发展、职业变迁及社会物种分化的深度预测。 正文内容 写于2026年3月。数据是真的,预测是大胆的,悲观的部分是我最不想说对的。 ps:本文又臭又长,但是我还是建议你坚持读完。给我一个不同的意见。 我认识一个朋友,前几年做短视频博主,做得还不错,几十万粉丝。去年他跟我说,他现在用AI做内容,以前三个人干的事他一个人干,而且做得比以前好。我当时还觉得他在凡尔赛。 上个月我们又聊,他说他现在在考虑怎么"管理"他那几个AI——因为它们开始会自己规划任务了。 我没说什么,但我在想:他用的那个词,“管理”,可能很快就会显得天真,就像二十年前有人说"我在管理我的文件夹"一样。那时候人们也觉得那是很认真的事情。 然后我想起另一个朋友。他在某个制造业工厂做质检,一个月六千块,做了八年,很熟练。 去年工厂引入了视觉检测AI,他被调去负责"监督AI",薪资降到了四千八。今年他跟我说,他现在在送外卖,因为工厂那边连"监督AI"的岗位也不需要了。 这两个朋友,一个在往上走,一个在往下走。 而他们之间的距离,正在以一种让人来不及反应的速度变大。 这篇文章,我想说清楚几件事:接下来四年,那些往上走的机会在哪里;那条往下走的路会通向什么地方;以及,如果你有孩子,你现在应该怎么想这件事。 最后这部分,是我最私人的想法,也是我觉得最值得认真对待的部分。 一、先说一个让我久久不能平静的数字 2021年,世界上最聪明的AI,做了一套小学数学题,得了35分。 这不是玩笑,这是OpenAI自己公布的测试数据,测试集叫GSM8K,就是那种"小明有3个苹果,给了小红2个,还剩几个"的题型。最先进的AI,35分。 (GSM8K:Grade School Math 8K,包含8500道小学水平数学应用题的测试集,曾是衡量AI数学推理能力的标准基准之一。) 然后到了2026年,同类型的测试,得分是99分。用了不到五年。 这条曲线的形状不是缓慢爬升,是一根杆子,几乎垂直插进天空——垂直到让出题的人觉得尴尬,这道题现在已经被废弃了,因为它失去了测试意义,就像你不会用"会不会骑自行车"来考驾照一样。 于是他们出了更难的题。 全球几百个领域的顶尖专家联手出了一套"AI绝对通不过"的考试,叫做 Humanity’s Last Exam,我姑且叫它"人类的最后一块自留地"。 (Humanity’s Last Exam,HLE:由全球顶尖专家协作出题的超难考试,涵盖数学、物理、化学、生物、法律等100多个专业领域,设计目标是让AI短期内无法通过。设计规则:只要现有AI能答对某题,就撤换那道题,直到AI彻底答不出来为止。) 2024年底这套题出来的时候,顶尖AI的得分是个位数百分比。 到2026年2月,Claude Opus 4.6拿到了 53.1% 。 从个位数到超过一半,用了大约一年半。 那帮出题的顶尖专家们,现在大概要认真想想,什么叫"只有人类才能做到的事"。因为他们以为的那条线,正在以他们没有预料到的速度被穿越。 二、在谈预测之前,我要先发明几个词 你记不记得,三年前"Agent"这个词突然就流行起来了?或者"RAG"、“MCP”?这些词在两年前还不存在,或者只有极少数研究员在用,现在已经是科技媒体的日常词汇了。 (Agent:智能体,指能自主规划、执行任务、调用工具的AI系统,不只是回答问题,而是会主动做事。RAG:检索增强生成,让AI能实时调用你私有数据来回答问题的技术。MCP:Model Context Protocol,让AI和各种外部工具互联互通的标准接口,理解成AI的"USB接口"就够了。) 新技术总是先有现象,再造词语。词语跟不上的地方,就是变化正在发生的地方。 我接下来说的这几个词,现在还没有人这么叫,但我猜五年内它们会进教科书。 第一个:编排者经济(Orchestration Economy) 过去,“谁能做"决定了谁有价值。医生有价值是因为他懂医学,程序员有价值是因为他会写代码。执行能力是稀缺的。当AI的执行能力全面溢出,稀缺的就变成了"知道让谁做什么”。编排者,就是那个不一定会做,但知道怎么把一堆AI工具组合起来让整件事完成的人。 第二个:技能蒸发(Skill Evaporation) 每个人都有一些花了多年时间积累的技能。翻译、校对、排版、基础编程、数据整理、客服话术……过去是护城河。技能蒸发,是指这些技能在极短时间内失去市场价值。不是慢慢贬值,是蒸发。蒸发最快的是"有清晰输入输出、可被验证、大量重复"的技能。就像马车夫在1920年代的遭遇,只是速度快了二十倍。 第三个:静默生产(Silent Production) 当Agent可以24小时在后台运行,生产活动就开始在你睡觉的时候发生。你早上起来打开手机,你的AI昨晚写了三篇草稿、处理了十二封邮件、抓取了竞争对手的价格数据。没有人盯着它,它就是在工作。静默生产的规模将在2027年到2028年间变得可被统计。 第四个:意图层(Intent Layer) ...

2026年3月30日 · 2 分钟 · cxyac