Vol.85 AI领域深度洞察：从Agent爆发到工程实践，探索大模型时代的发展路径

第一时间捕获有价值的信号

⼤家好，Weekly Gradient第 85 期已送达，本期内容深度探讨AI领域的最新趋势与实践，涵盖Agent技术的全面爆发、AI工程化与上下文工程的核心方法论、大模型发展路径与Scaling Law的演进、AI编程工具如Claude Code和Cursor的实战应用、开源模型与商业化挑战、AI投资泡沫与行业竞争分析、以及AI在健康、娱乐、教育等多元场景的落地实践，为读者提供全面的AI领域发展洞察。

AI 商业化

聚焦AI行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM策略、SaaS转型等商业分析

1.喝点 VC｜YC 内部内部复盘：AI 正在进入稳定期，并逐渐形成一套可复用的 AI 原生公司构建路径（Z Potentials）

最近 YC 内部复盘透露了一个挺有意思的信号：AI 行业好像真的进入稳定期了，不再是那种乱哄哄的早期探索阶段。现在模型层、应用层和基础设施层分得清清楚楚，创业者们开始有了一套可复用的 AI 原生公司构建路径。有意思的是，Anthropic 的模型在 YC 内部居然比 OpenAI 更受欢迎，特别是在编码 agent 这些场景里表现突出，看来模型竞争格局真的在变化。很多人担心 AI 投资是不是泡沫，但复盘观点认为这更像是电信时代的基础设施建设，巨额投入其实是在为未来的应用大爆发铺路，对应用层创业者反而是好事。随着模型逐渐商品化、算力成本下降，竞争焦点已经从“谁家模型更强”转向“谁能把模型用得更好”，产品化能力成了关键。还有个反直觉的发现：AI 虽然提升了效率，但并没有减少对人才的需求，反而因为客户期望变高了，公司还得继续招人来满足更高质量的服务要求，那种“一人万亿公司”的幻想可能不太现实。

2.Z Product｜Suno 在用的客户调研 Agent，Dialogue AI 重构千亿美元的市场研究产业，VC 正在押注“理解的速度”（Z Potentials）

嘿，最近看到一家叫Dialogue AI的初创公司，它正在用AI彻底改造传统的市场调研行业。你知道吗，过去企业做个用户调研动辄要花几周时间，成本还特别高，但Dialogue AI搞了个端到端的AI原生平台，从研究设计、招募参与者到AI主持访谈、生成洞察报告，全流程自动化，直接把项目周期压缩到了一两天。这不仅仅是效率提升，更关键的是它把定性的深度访谈和自动化的规模结合起来了，AI Agent能像真人一样进行视频访谈，深入挖掘用户想法，适用于概念测试、可用性分析等多种场景。团队背景也很硬核，创始人来自Snap、Nextdoor这些大厂，产品和技术经验丰富，已经拿到了Lightspeed领投的600万美元种子轮投资，客户里还有Suno这样的明星公司。我觉得最值得关注的是，在AI时代，企业‘理解用户的速度’可能真的会成为新的核心竞争力，Dialogue AI的出现或许预示着市场研究这个千亿美元产业的游戏规则要彻底改变了。

3.全球大模型第一股的上市访谈：敢问路在何方？（语言即世界language is world）

智谱CEO张鹏这次聊得挺实在的，作为全球大模型第一股，他们上市背后可不是为了炒概念。张鹏说上市这事儿本身就在证明大模型技术真的能产业化，不是空中楼阁。他们走的路子也挺特别，专注服务企业客户，觉得To B才是生产力变革的落地场景，国内C端用户付费意愿低，不符合他们追求稳定发展的调性。关于AI泡沫的讨论，张鹏观点挺犀利，他认为泡沫可能在资本市场，但中国AI投资其实还远远不够，而且太分散在基础设施上了。智谱的根基在清华实验室那种把论文变成产品的传统，团队对AGI有长期信念，即使在ChatGPT火起来之前就在默默耕耘。最打动人的是，张鹏明确说智谱的最终愿景是成为AGI的先行者，不只是为了赚钱，希望公司能被历史记住为开路者，这种带着点理想主义的商业思考，在当下挺难得的。

4.Z Product | Product Hunt 最佳产品（12.29-1.4），6 款华人 AI 产品上榜！“反拖延自律闹钟”榜首（Z Potentials）

嘿，这期Product Hunt榜单可太有意思了！上周的十大热门产品里，居然有六款都是华人团队开发的AI产品，榜首那个“反拖延自律闹钟”Mom Clock，用强制提醒和应用阻断来帮人专注，听着就挺狠的。榜单里还有数字墨水名片、AI工作流平台、会议简报助手这些五花八门的东西，覆盖了效率管理、商务社交、内容创作好多领域，能看出AI现在真是遍地开花了。更让人惊喜的是，华人团队这次表现这么亮眼，说明咱们在AI产品创新上确实很有竞争力。而且这些产品不再只是藏在后台的技术，而是直接跑到前端跟用户互动，像AI代理融入聊天、自动生成会议简报这些，都在让操作更简单、效率更高。开源工具降低了开发门槛，个性化设计又让AI有了人情味，这些趋势都挺值得关注的。

5.129. 全球大模型第一股的上市访谈，和智谱 CEO 张鹏聊：敢问路在何方？（张小珺Jùn｜商业访谈录）

这期播客聊得真带劲！智谱CEO张鹏亲自复盘了公司从清华实验室起步，一路扛过融资寒冬和市场质疑，最终在2026年冲上港交所成为“全球大模型第一股”的完整故事。他讲得特别实在：当年团队在AI技术遇到瓶颈时，果断转向探索“认知智能”，想给机器装上更接近人类的思考能力；后来GPT-3横空出世，他们火速跟进，硬是搞出了融合BERT和GPT优势的GLM算法，证明中国团队在大模型上也能玩得转。最让人印象深刻的是商业化选择——张鹏直言，考虑到国内C端用户付费习惯和SaaS推广的难度，智谱坚定走了ToB路线，用MaaS模式给企业提供云API和本地部署，靠技术深度换议价权。他还大方分享了开源策略背后的思考：开源和闭源不是非此即彼，而是技术生态和商业服务的不同打法，最终都奔着AGI那个大目标去。听完感觉，这不止是一家公司的成长史，更像是一幅AI浪潮里技术理想与商业现实如何平衡的生动图谱。

AI 产品设计

探索AI原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent设计等

1.How Cursor Builds the Future of AI Coding Tools（LangChain）

Cursor 的工程负责人和 LangChain CEO 聊了聊 AI 编程工具的未来，挺有意思的。他们提到 AI 编程助手已经不只是帮你补全代码了，现在能处理多文件、多智能体的复杂工作流，而且还在不断进化，目标是让智能体更聪明、运行时间更长，甚至能自我评估和调试，减少人工干预。Cursor 自己就特别强调内部使用文化，工程师天天用自家产品，反馈直接驱动开发，所以新功能往往能切中开发者的真实痛点。还有个让人期待的功能是可视化编辑器，以后在 IDE 里就能直接调整网页设计，实时交互，感觉能大大缩短前端开发的迭代周期。不过他们也清醒地指出，不管工具多智能，专业工程师的核心地位不会变，毕竟架构知识和专业词汇还是得靠人来把握，AI 更多是帮我们提升效率的伙伴。整体来看，IDE 的未来会更智能、更集成，但人的专业判断依然关键。

2.Introducing ChatGPT Health — a dedicated space for（OpenAI(@OpenAI)）

嘿，OpenAI这次搞了个挺有意思的新东西——ChatGPT Health！简单说就是在ChatGPT里专门划了个小空间，让你能安心聊健康话题。最酷的是它能连上你的医疗记录和健康管理App，这样AI的回答就能结合你的个人数据，感觉更贴心了。不过官方特别强调，这工具只是帮你管理健康事务的助手，可不能替代专业医生哦。现在已经有早期体验的预约名单开放了，想尝鲜的话可以去看看。感觉这种垂直领域的AI应用越来越实用了，既保护隐私又提供个性化支持，挺值得关注的。

3.泛娱乐 AI 赛道观察：从「猜你喜欢」到参与共创，角色才是 AI 时代最核心的资产（Founder Park）

嘿，最近读到一篇挺有意思的观察，讲的是AI怎么在泛娱乐领域掀起新浪潮。核心观点很直接：AI来了，用户不再是单纯看剧打游戏的消费者，而是变成了能和AI一起搞创作的“共创者”。文章里特别强调“角色”成了最值钱的东西——不管是你在游戏里捏的原创角色，还是和AI聊天时培养的虚拟伙伴，这些角色承载着你的情感和记忆，让体验变得独一无二。它拆解了两种用户心态：有人喜欢AI直接给惊喜（制作者心态），有人则享受和AI协作表达自我（共创者心态）。更妙的是，文章用“酒馆”框架、AI陪伴这些具体案例，展示了AI如何降低创作门槛，让原本小众的玩法（比如角色扮演、原创角色养成）有机会走向大众。最后点出一个关键：AI的真正竞争力不是功能多炫，而是能记住你的偏好、理解你的情绪，建立起那种“你懂我”的信任感——这才是留住用户的根本。读下来感觉既打开了新视角，又挺接地气，难怪说未来的娱乐可能真得靠“自娱自乐”了。

AI 工程实践

涵盖AI系统技术实现与场景化开发的全流程，包含工程架构、工具链实践、提示工程等核心技术环节

1.认知重建：Speckit 用了三个月，我放弃了——走出工具很强但用不好的困境（腾讯技术工程）

你有没有试过那种看起来很厉害的 AI 编程工具，结果用起来却处处碰壁？这篇文章的作者就经历了这样的过程。他原本满怀期待地使用 Speckit 这类规范驱动的工具，结果发现它们在企业复杂的现实场景里根本玩不转——需求总是变来变去，老代码像考古现场一样难懂，更别提把经验沉淀下来了。这让他彻底放弃了原来的思路，转而探索出了一套更接地气的 AI 工程化方案。核心就是两个理念：‘复合工程’和’上下文工程’。前者是把每次解决问题的经验都变成可复用的技能模块，让系统越用越聪明；后者则是精心管理 AI 的’工作记忆’，只给它最相关、最精华的信息，避免它被海量上下文搞晕。文章里还详细拆解了怎么用 Agent 分层架构、结构化笔记这些具体技术，把知识真正编码进工具链里。最终的目标特别有意思：不是让工具变得更复杂，而是让它’隐形’——你只管提需求，工具会自动调用合适的技能、加载必要的上下文，甚至主动提醒你该注意什么。这种让知识自动化复用的思路，或许才是 AI 真正融入日常开发的关键。

2.从 HITL(Human In The Loop) 实践出发看 Agent 与设计模式的对跖点（阿里云开发者）

这篇文章聊了个挺有意思的话题：怎么让AI Agent在干活时，能真正把人类“拉进循环”里来协作，而不是各干各的。它拿ReactAgent举了个例子，详细拆解了怎么通过设计一套XML协议来支持复杂的交互界面，把HITL机制本身做成一个可以被调用的“工具”，还用Redis处理对话中断和重连，确保任务不丢。更妙的是，作者把Agent的发展跟咱们熟悉的软件设计模式挂上了钩——比如HITL就像编程里的Hook或拦截器，Dify和LangGraph背后是图数据结构的思想，而按需加载工具、管理记忆这些操作，分别对应着懒加载和多级缓存。这种类比一下子就把看似前沿的Agent技术拉回到了扎实的工程语境里，让人感觉，哦，原来这些创新不是凭空冒出来的，它们骨子里流淌着经典设计思想的血液。最后还展望了一下，未来是不是能用“复杂工厂模式”自动生成更专业的Agent，想想还挺带感的。整篇读下来，既有具体的技术实现细节，又有高维的架构思考，特别适合那些既关心怎么做，又爱琢磨为什么这么做的工程师和架构师。

3.Ray 异构融合底座重构数据管道：架构演进与万卡落地实践（腾讯技术工程）

腾讯团队最近分享了一个超酷的工程实践，他们用Ray彻底重构了混元大模型的数据处理管道。传统的大数据引擎像Spark、Flink在处理AI任务时其实挺吃力的，特别是面对海量非结构化数据时，资源调度不灵活、对Python生态支持也不够好。Ray这个异构融合底座完美解决了这些问题，它把数据处理和模型推理统一了起来。最厉害的是他们搞定了跨多个Kubernetes集群的统一调度，通过KubeRay联邦架构让CPU和GPU算力能够弹性调配。他们还引入了Streaming-batch计算范式，配合存算分离架构，即使面对不稳定的低优资源也能保持系统稳定运行，这在万卡规模下特别关键。整套系统还建立了完善的可观测体系，从任务监控到故障诊断都考虑得很周全。这个案例展示了AI工程从理论到大规模落实的完整路径，对正在构建类似系统的团队来说简直是宝藏经验。

4.Agent 全面爆发！万字长文详解上下文工程（腾讯云开发者）

最近Agent真是火得不行，大家都在讨论怎么让AI助手真正自主完成任务。这篇文章就讲了一个特别关键但容易被忽略的东西——上下文工程。简单说，以前我们写提示词就像给AI一张任务清单，但Agent要持续工作好几天甚至更久，光靠静态提示根本不够。上下文工程就是解决这个问题的：它得在有限的信息空间里，持续给模型提供最有价值的任务状态，还得避免无效信息干扰。文章里提到要把状态信息显性化，工具调用结果也要结构化反馈，这样模型才能准确判断下一步该干嘛。他们还介绍了一个叫MCP的工程化方法，把任务状态、能力、约束这些信息规范区分开，让整个系统更可读、可维护。最后还强调了Agent系统必须要有可靠的执行、调试和评估机制，比如用LangGraph、LangSmith这些工具来追踪和自动化测试，不然再好的设计也可能在实际运行中翻车。如果你正在构建或使用Agent，这些工程细节真的能帮你少踩很多坑。

5.AI Coding 后端开发实战：解锁 AI 辅助编程新范式（阿里云开发者）

嘿，如果你还在把AI编程工具当成一个简单的代码生成器，那可能就错过了它真正的威力。这篇文章讲的是后端开发者如何与AI协作，解锁一种全新的工作范式。核心在于两个关键能力：一是构建自己的上下文管理体系，通过筛选文件、维护文档来突破AI的上下文限制；二是建立判断AI输出质量的体系，从功能正确性到代码质量都要把关。文章还详细拆解了从需求分析到代码开发、数据处理、Agent应用乃至文档输出的全流程实战技巧。最触动我的是作者强调的思维转变——AI加速了编码过程，但开发者更需要升级为具备全局视角的架构师，在业务、技术和团队需求之间找到平衡。这可不是什么空洞的理论，里面全是能立刻上手的实战建议和最佳实践，帮你真正把AI变成提升效率的伙伴，而不是被它牵着鼻子走。

6.AI 辅助重构 20 万行代码：渐进式重建代码秩序（腾讯云开发者）

腾讯云开发者最近干了一件挺酷的事：他们用AI帮忙，把20万行推荐系统代码给重构了。这事儿听起来就挺有挑战的，毕竟那么多代码，一不小心就可能搞出大问题。他们是怎么做的呢？首先，他们没急着动手，而是先定了个清晰的战略框架，把重构的范围、目标、标准都规划好，确保整个过程有章可循。然后，他们让AI快速扫描代码，找出结构性问题，比如哪些函数太臃肿、哪里依赖混乱，但工程师会仔细复核AI的建议，避免它把业务特性当缺陷，或者过度优化。面对巨型函数，他们和AI一起迭代协作，一步步拆解逻辑单元，而不是追求一步到位，同时严格审查AI生成的代码，防止它自作聪明引入bug。重构过程中，他们还把重复出现的问题抽象成通用组件，比如依赖注入、并行执行器这些，让代码复用性更高，开发效率也上去了。整个过程中，工程师和AI分工明确：工程师负责架构决策和质量把控，AI负责模式识别和代码生成。他们通过角色设定、提供充分上下文和分步指令来引导AI，但始终保持独立思考，警惕AI可能带来的性能退化或隐蔽bug。最终，他们不仅提升了代码质量，还总结出关于重构节奏、架构设计和AI使用的深层次思考，核心就是AI是加速器，不是替代者，工程师的判断力和全局把控能力才是关键。

7.拥抱大模型：深入剖析 ReAct 的核心原理、技术架构及其对 AI 领域的深远影响（腾讯技术工程）

最近读到一篇关于ReAct的文章，感觉特别有意思！它讲的是怎么让大语言模型变得更聪明、更靠谱。简单说，ReAct给大模型加了个“思考-动手-检查”的循环机制，让模型在回答前先自己推理一番，还能调用外部工具去查实时信息，这样就能大大减少胡说八道的情况，决策过程也变得透明多了。文章里详细拆解了它的架构，把推理、行动和调度分开，让AI能像人一样根据任务动态调整策略，处理那些训练数据里没有的复杂问题。更棒的是，它只需要几个例子就能快速适应新场景，换套工具就能切换应用，部署成本低了很多。当然，它也不是完美的，比如还有上下文限制、行动选择不够精准这些问题，未来可能会结合强化学习和外部记忆来优化。整体来看，ReAct正在把大模型从被动的答题机器变成能主动解决问题的智能助手，对知识密集型任务、智能客服这些领域影响挺大的。

8.AI Coding 长文分享：如何真正把工具用起来，从原理到实践（阿里云开发者）

如果你还在为AI编程工具时灵时不灵而头疼，这篇文章简直是及时雨！它没有停留在表面的使用技巧，而是直接挖到AI编程的底层机制。原来AI编程工具的核心是Token计算、工具调用和代码库索引这三板斧，Token决定了模型能记住多少上下文，工具调用让AI能真正搜索和编辑代码，而代码库索引通过RAG技术把代码变成向量，实现语义搜索。最让我惊讶的是Merkle Tree在代码库同步中的应用，这个数据结构能让AI只上传修改的部分，效率提升可不是一点点，就像Git的底层魔法一样。文章还手把手教你如何构建有效的上下文，通过SystemPrompt、UserPrompt和规则设置来引导AI，这比单纯堆砌提示词要聪明得多。更重要的是，它提醒我们AI辅助编码不能完全放手，必须配合代码规范、文档编写和严格测试，人类监督依然是保证代码质量的关键。最后还贴心地介绍了Claude Code等CLI工具的原理，甚至给出了国内用户的替代方案，从工程实现到模型选择都考虑到了。读完感觉终于摸清了AI编程的门道，不再是盲目试错了！

9.In software， the code documents the app. In AI， the traces do.（LangChain Blog）

嘿，最近是不是觉得调试AI智能体特别头疼？代码明明写得没问题，但智能体就是会做出一些莫名其妙的决策。这篇文章点出了一个关键转变：在AI时代，代码不再是理解应用行为的唯一真相来源了。传统软件里，所有逻辑都白纸黑字写在代码里；但智能体的决策是在运行时由LLM内部动态生成的，代码只是搭了个架子。真正的核心变成了“追踪”——也就是智能体执行步骤、推理过程和工具调用的完整记录。这意味着调试方式彻底变了：出问题时，你得去翻追踪日志，看看智能体到底是怎么“想”的，是不是误解了任务、选错了工具。测试和优化也得围着追踪转，要持续监控决策质量，防止性能悄悄下滑。更关键的是，团队协作和产品分析现在必须依赖可观测性平台，因为所有关于智能体行为的讨论都得基于这些共享的追踪数据。说白了，追踪就是智能体时代的新文档，没它根本玩不转。

10.Fly’s new Sprites.dev addresses both developer sandboxes and API sandboxes at the same time（Simon Willison’s Weblog）

Fly.io 新推出的 Sprites.dev 有点意思，它同时解决了两个挺头疼的问题：给 AI 编码智能体一个安全的‘游乐场’，以及让开发者能安全地执行那些不受信任的代码。简单说，它提供了一个有状态的、隔离的虚拟机环境，里面预装好了 Claude、Codex 这些 AI 工具，让智能体能在里面安全地‘折腾’，而不是在那种风险很高的‘YOLO 模式’下乱跑。更妙的是，它有个检查点和恢复功能，就像游戏存档一样，你可以随时给沙盒环境拍个快照，万一代码跑出问题了，一键就能回滚到干净状态，省去了重建环境的麻烦。它还自带一个强大的 JSON API，让你可以编程式地、可控地执行用户或大模型生成的代码，还能设置网络访问策略来限制影响范围。有意思的是，它用上了 Claude Skills 来教 AI 自己理解这个平台怎么用，比如怎么搞端口转发，让 AI 能更好地协助你。最后，它的计费方式也很实在，沙盒不用的时候就休眠，用的时候再快速唤醒，只收活跃时的 CPU、内存和存储费用，对那种偶尔用用的场景特别友好。这玩意儿感觉是把开发者工具和安全执行这两块硬骨头一起啃了。

[11.“你们应该多用 Bash。”

过去几周，Anthropic 的 Thariq 和几十家做通用智能体](https://x.com/dotey/status/2009758885398380943)（宝玉(@dotey)）

最近看到一篇挺有意思的技术分析，讲的是Anthropic的专家Thariq在和几十家通用智能体公司交流后，提出了一个挺反直觉的观点：就算是那些不写代码的Agent，比如邮件助手、客服机器人，也应该多用Bash命令行工具。核心逻辑是，Bash能让Agent把复杂任务的中间结果存成文件，这样工作流程就从依赖模型自己“脑补”和计算，变成了可以检查、验证、复现的“打草稿”式操作。文章举了个邮件Agent查打车费用的例子，对比了传统API调用和用grep等Bash命令的方案，还延伸到了链式API调用、文件处理、定时任务这些场景。当然，作者也没回避Bash方案的安全风险，比如命令注入，还有适用边界，比如简单查询或者Serverless环境可能就不太合适，也提到了Anthropic在Claude Agent SDK里做的权限控制。最后文章升华了一下，说Bash的价值其实在于它背后的思维方式——让AI的思考过程“落地”成可审计的中间产物，这更接近人类处理复杂问题的方式，能大大提升Agent的可信度。

12.LLMs Go To Confession， Automated Scientific Research， What Copilot Users Want， and more…（deeplearning.ai）

这期内容真是干货满满！吴恩达老师又出新招了，专门为不懂代码的朋友们开了门课，教大家直接用自然语言就能搭出AI驱动的网页应用，简直是让创意落地零门槛。OpenAI那边也没闲着，他们居然在训练大模型学会“认错”——当模型没按指令办事时，它会主动“忏悔”，这招可能让AI变得更透明、更靠谱。还有个挺酷的进展叫“科学上下文协议”，它想给AI智能体们定个规矩，让它们能跨学科自动做实验、管数据，搞科研说不定以后就像拼乐高一样简单了。微软研究了Copilot用户，发现大家白天用电脑时只想高效干活，晚上摸手机却爱问人生哲理或健康建议，看来未来的聊天机器人得学会“变脸”才行。最后还有个省钱妙招“Delethink”，能让大模型处理长文本时少烧算力，思路还不打折——AI圈真是越来越会过日子了。

13.我觉得你是没发挥 claude code 的潜力，所有能用 dify 这类工作流完成的 AI 任务，（宝玉(@dotey)）

嘿，最近看到一篇挺有意思的讨论，有人觉得用 Claude Code 平替 Dify 这类工具不太现实，但作者给出了一个完全不同的思路。他提出了一种高阶玩法：把那些能用 Dify 搭建的复杂工作流，拆成一个个独立的技能单元或子智能体，然后用自然语言像搭积木一样把它们编排起来。中间结果通过本地文件传递，还能用子智能体分摊上下文压力，这本质上是在教我们怎么用自然语言编程，搞模块化设计。听起来是不是有点颠覆？这可不是简单的工具对比，而是一套挺有深度的智能体开发方法论，特别适合那些想摆脱固定工作流、追求更灵活 AI 工程实践的朋友。

14.多模态检索新标杆，Qwen3-VL-Embedding&Reranker 开源！（通义大模型）

通义大模型团队这次开源的动作真不小，直接放出了Qwen3-VL-Embedding和Qwen3-VL-Reranker两个模型系列。这两个家伙专门用来处理多模态信息检索，简单说就是能同时理解文字、图片、文档甚至视频，把它们都映射到同一个语义空间里，让计算机能像人一样跨模态找东西。Embedding模型负责生成高质量的向量表示，实现快速召回；Reranker模型则像个精细的质检员，对召回的结果进行深度排序，两者配合形成一套高效的两阶段检索流程。更棒的是，模型支持多语言，向量维度还能灵活调整，量化后性能依然出色，在权威基准测试里表现抢眼。架构设计也很讲究，Embedding用双塔独立编码提升效率，Reranker用单塔交叉注意力实现深度交互。如果你正在做图文检索、视频匹配这类项目，这两个开源模型绝对值得一试，代码示例都准备好了，上手应该不难。

[15.Claude Code 迭代很快，已经到了 2.1.1 版本，这次有一堆更新，三个值得关注的更新：

](https://x.com/dotey/status/2009098789907251320)（宝玉(@dotey)）

Claude Code 又更新了！这次 2.1.1 版本带来了几个很实用的改进，对开发者来说简直是效率神器。最让我兴奋的是技能热重载功能，现在修改技能文件后不用重启会话就能生效，省去了反复切换的麻烦。新增的 context: fork 选项也很聪明，能让技能和命令在独立的子智能体里运行，这样主对话就不会被各种中间过程搞乱，处理复杂任务时思路清晰多了。还有个细节优化很贴心：子智能体遇到权限拒绝时不再直接罢工，而是会尝试其他方案继续工作，这让自动化流程的稳定性提升了不少。这些更新看起来都是实打实地在解决开发中的痛点，用 Claude Code 做编程辅助的朋友们应该会很喜欢。

16.Cursor 刚发表了篇文章：《Dynamic context discovery》https://（宝玉(@dotey)）

Cursor最近那篇《Dynamic context discovery》文章被宝玉详细拆解了，里面讲了个特别有意思的事儿：现在AI模型越来越聪明，但传统那种把海量信息一股脑儿塞给它的做法其实挺笨的——既浪费Token又容易干扰判断。Cursor想了个聪明的办法，让模型学会在需要的时候自己去找信息，就像人一样‘按需索取’。具体怎么实现呢？他们分享了五种很实用的优化手段：把长输出存成文件、聊天历史做成可查询的档案、技能按需加载、给MCP工具‘瘦身’，还有把终端会话也当成文件处理。这些方法背后有个共同的核心思想：把‘文件’作为管理AI上下文的基础单元，实现了所谓的‘可恢复的压缩’。效果有多明显？在MCP场景下Token消耗直接减少了46.9%！宝玉还引用了Manus的Peak的观点，印证了文件系统作为‘终极上下文’的重要性。说到底，上下文工程的关键不是堆砌信息，而是高效获取信息，这种简单的抽象在技术领域往往能爆发出惊人的力量。

17.老黄站在 CES 2026 的舞台上，身后的屏幕突然黑了。“所有系统都挂了，”他笑着说，“这在圣克拉（宝玉(@dotey)）

老黄在CES 2026演讲时系统突然崩溃，他却笑着调侃，这背后其实藏着AI行业正在发生的深刻变革。2025年AI领域出现了三大关键转变：推理模型让AI真正开始‘思考’，能更可靠地解决问题；Agentic系统爆发，AI从被动回答变成主动干活，比如英伟达内部大量使用的Cursor编程工具；开源模型崛起，大幅降低了技术门槛。Agent展现出四大超能力：推理、工具使用、规划和协作，NVIDIA的‘Blueprint’框架就是典型例子，展示了Agentic AI如何构建和工作。未来软件形态将被彻底改变，人机交互方式面临重塑，现在正是开发者利用开源模型和Agentic框架进行应用创新的黄金窗口期。

18.前几天 Google 首席工程师（Principal Engineer）Jaana Dogan 发了（宝玉(@dotey)）

最近Google首席工程师Jaana Dogan的一条推文可真是炸了锅，说Claude Code一小时就干完了团队一年的活！网上立马冒出各种声音，有人吐槽大公司效率低，有人惊呼AI要取代程序员了。但真相其实挺有意思的——宝玉老师这篇解读把迷雾给拨开了。原来Claude生成的是个‘玩具版本’，而且那个Prompt可不是凭空想出来的，是团队花了一年时间探索、试错、提炼出的‘最佳想法’结晶。团队那一年主要忙的是‘探索’、‘验证’和‘对齐’这些烧脑的活儿，AI现在能快速搞定的只是‘建造’环节。所以啊，AI其实把技术开发的难点从‘怎么写代码’转移到了‘到底要写什么’——你得对问题有深刻理解，有判断力，有品味，还得能清晰表达出来。这对咱们个体和小团队反而是个机会，只要提升决策和认知能力，用好AI这个工具，就能在竞争中跑得更快。

19.看完 Manus、Cursor 分享后的最大收获：避免 Context 的过度工程化才是关键（Founder Park）

最近看了篇关于AI Agent开发中上下文管理的深度分析，讲的是Manus和Cursor这两家顶尖团队怎么处理一个特别头疼的问题：随着Agent运行，上下文信息会越堆越多，导致推理变慢、质量下降，也就是所谓的“上下文腐烂”。他们给出的解法挺有意思，不是拼命往里塞信息，而是想办法做“减法”。Cursor的思路很程序员，主张“万物皆可文件化”，把工具结果、聊天记录这些全变成文件，让Agent自己去发现和检索，大大减少了Token消耗。Manus则搞了一套更结构化的系统，分无损压缩和有损摘要，还设计了分层的工具行动空间来保持接口简洁。文章还深入聊了多Agent怎么协作，核心是“通过通信来共享内存”，用任务委托、信息同步这些模式，再配上共享沙箱和约束解码来保证输出靠谱。两家公司最后达成的共识特别关键：别把上下文工程搞得太复杂，过度设计反而添乱。真正该做的是信任大模型，把主动权还给它，让它能自主探索外部环境。这背后其实是一种设计哲学的转变，从“我们替模型想好一切”转向“让模型自己学会找路”，感觉这才是提升系统效率和智能的正道。

20.”Ralph Wiggum” AI Agent will 10x Claude Code/Amp（Greg Isenberg）

有个叫“Ralph Wiggum”的AI智能体工作流，简直像给程序员配了个不知疲倦的夜间助手。它能把产品需求文档自动拆成一个个小用户故事，每个都带着明确的验收标准，然后指挥Claude这样的AI去选任务、写代码、测试、提交，循环往复。最妙的是，它把活儿拆得特别细，每个任务都小到AI能完全理解，还能自己检查验收标准对不对，根本不用人盯着。系统还设计了短期和长期记忆，让AI能记住进度、总结经验，越干越聪明。最让人意外的是，这么高级的自动化，成本居然挺亲民，开发一个功能往往只要几十美元，感觉像是用AI把传统开发流程重新组装了一遍，既高效又省钱。

21.#385.告别 RAG 幻觉：为什么 AI 的未来记忆在“权重”里？（跨国串门儿计划）

最近听到一个挺有意思的观点，说现在流行的RAG技术其实有不少坑，比如处理长文档容易出错，还可能泄露信息。嘉宾Jack Morris认为，未来AI的记忆应该直接刻在模型的“大脑”里，也就是权重中。这听起来有点科幻，但确实能解决很多问题。他们聊了怎么用合成数据来训练模型，既能让AI学会新东西，又不会忘掉老本。还提到了一些很酷的技术，像LoRA、前缀微调这些，可以让模型快速适应不同领域，成本还低。最后还展望了联邦学习和专业AI的趋势，感觉企业以后真的能打造出那种特别懂自家业务的智能系统了。

22.A Vibe Coder’s Guide to AI Agents（Greg Isenberg）

嘿，最近看到个超酷的视频，讲的是那些完全不懂传统编程的“氛围程序员”怎么用AI智能体做出能上线的软件。核心思路特别有意思：把大语言模型当成一个超级耐心的编程导师，你只需要在命令行里跟它聊天，它就能帮你一步步把想法变成产品。他们有个叫agents.md的文件，像说明书一样给AI提供上下文，这样沟通起来特别高效。工作流也设计得很聪明，用GitHub Actions和Slack这些工具，在手机上就能做代码审查和项目管理，简直是移动办公神器。更关键的是，他们鼓励大家去学点Bash命令和VPS部署，不是为了成为专家，而是为了能跟系统底层对话，让做出来的东西能24小时跑起来。最打动我的是那种心态：把失败成本降到最低，快速试错，有问题就问AI，把每个bug都当成学习机会。这完全打破了“必须懂代码才能做产品”的旧观念，感觉普通人搞创新的门槛真的被拉低了一大截。

23.动态上下文发现 (Dynamic Context Discovery)（宝玉的分享）

最近读到一篇关于AI Agent优化的文章，挺有意思的。它讲的是怎么让AI在软件开发中更聪明地利用上下文信息。传统做法是把所有历史记录、工具结果都塞给AI，不仅浪费Token，还容易让它搞混。文章提出的“动态上下文发现”模式就聪明多了——把聊天记录、工具输出这些都当成文件，需要的时候才去搜索加载，就像我们查资料一样按需取用。Cursor在五个具体场景里应用了这个方法，结果Token消耗少了，回答质量反而提高了。这种把复杂信息抽象成文件的做法，虽然听起来简单，但确实解决了上下文窗口溢出和模型遗忘的老大难问题。看来AI Agent的未来交互，可能就建立在文件这种简单又强大的基础之上。

24.#384.揭秘 Anthropic 的 Agent 哲学：为什么 Bash 和文件系统才是 AI 的终极武器？（跨国串门儿计划）

这期内容太硬核了！Anthropic的工程师直接告诉你，为什么给AI Agent配上Bash和文件系统，比堆砌一堆专用API要强大得多——因为它们能像乐高一样自由组合，处理任务灵活到飞起。核心框架就三步：收集信息、执行操作、验证结果，听起来简单，但循环起来就是艺术。安全方面他们搞了个“瑞士奶酪防御模型”，层层设防，从模型对齐到沙箱操作，把风险降到最低。最戳中我的是那个观点：AI技术迭代太快了，别老想着预测未来，抓住当下最有效的工具，代码该扔就扔，快速迭代才是王道。还有处理百万行数据时，别傻乎乎全加载，学学人类，一步步搜索、记录关键点，效率直接拉满。最后那个宝可梦助手原型演示，简直是把这些理念玩活了，自动生成API、分析数据、部署上线，一套组合拳下来，产品化思路清晰得可怕。

25.Google 团队一年都没做出来的项目 Claude Code 一小时就把代码写出来了（宝玉的分享）

最近有个挺震撼的事儿：Google 一个团队花了一年时间都没搞定的分布式 Agent 编排系统，Claude Code 只用了一个小时就把代码写出来了。听起来像魔法对吧？但仔细想想，这背后其实不是 AI 凭空变戏法，而是把人类团队一年里探索、试错、验证、对齐的那些认知劳动成果，快速转化成了代码。说白了，AI 就是个超级加速器，真正值钱的是前面那一年大家想清楚问题、达成共识的过程。现在这个时代，技术瓶颈已经变了，不再是‘怎么实现’，而是‘到底要实现什么’。当代码执行变得这么便宜，工程师的核心竞争力就变成了判断力、品味，还有对业务深层问题的理解。而且这事儿还特别有意思，AI 其实放大了个体和小团队的竞争力，大公司那些对齐成本被放大了，小团队反而能轻装上阵，快速验证想法。所以啊，以后工程师可能得更多靠脑子而不是手了。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI讨论、领袖观点

1.如何画好一张架构图丨终极典藏版（腾讯云开发者）

画架构图这事儿，很多人觉得就是画几个框框连几条线，但真正画好可太有讲究了！这篇文章简直把架构图这件事儿给说透了——它不只是个图，而是团队沟通的命脉，能帮你明确方向、减少扯皮、提升效率。文章手把手教你画出既专业又好看的架构图：结构要清晰、外表要美观、内容要完整，还给出了亲密性、对齐、对比这些设计原则，甚至用色轮和黄金分割来提升美感。更关键的是，它强调架构设计的核心是分层、分治和抽象思维，得先想清楚再动笔。文章还详细介绍了类图、时序图、组件图等7种UML图该怎么用、用在哪儿，但最后点醒我们：画图的目的不是追求标准，而是准确传达设计意图，让团队都能看懂。如果你在团队里经常需要画架构图或者评审别人的图，这篇文章绝对值得收藏反复看！

2.Vol.83 25 页 PPT 记录一场中国 AI“全明星赛”（屠龙之术）

最近明浩参加了一场堪称中国AI“全明星赛”的AGI Next峰会，现场大咖云集，从清华教授到一线公司技术负责人，甚至还有91岁的张院士压轴发言。这场峰会干货满满，大家聊得最热的就是多模态和全模态技术，据说2026年这块会成为竞争焦点。另一个有趣的话题是自主学习，有人觉得这是AI超越人类的关键，但也有人担心安全问题，得慢慢来。AI Agent在ToB领域被看好，未来几年可能带来经济爆发，不过得教会人类怎么跟它们协作。虽然中国AI发展很快，但跟美国比，在算力和基础研发上还有差距。最后张院士提出了“可验可检验AGI”的清晰定义，提醒我们AI治理的核心应该是人，而不是机器。整场听下来，能感受到中国AI圈的活力和信心，挑战虽在，但未来可期。

3.吴恩达老师新年第一条推文没有预测“今年 AI 会有多厉害”，反而问：“我们到底怎么判断 AGI 来没（宝玉(@dotey)）

吴恩达老师新年第一条推文没聊AI会有多厉害，反而抛出一个更根本的问题：我们到底怎么知道AGI（通用人工智能）真的来了？他提出了一个叫“图灵-AGI测试”的新标准，挺有意思的。简单说，就是给AI一台能上网、用浏览器和Zoom的电脑，评委设计一个连续多天的工作任务，比如接受客服培训然后接听客户电话，如果AI能像熟练的人类员工一样优秀地完成，就算通过。吴恩达觉得传统图灵测试有点跑偏了，因为模拟打字错误这种非智能表现就能骗过评委；而像GPQA、AIME这些现有基准测试，因为测试集公开，AI容易“刷题”优化，没法全面衡量通用能力。这个新测试回归到普通人对AGI的直观理解——能替人干活的AI，聚焦实际工作能力，避免炒作，校准社会期望。推文作者宝玉也挺认同，还幽默地说，要是AI真通过了，人类说不定可以“躺平”让AI代劳了。

4.#389.Tailwind CSS 创始人的至暗时刻：从风靡全球到裁员 75%，开源商业化的残酷真相（跨国串门儿计划）

Tailwind CSS创始人Adam Wathan最近在播客里聊了个挺沉重的话题——他刚裁掉了公司75%的工程师。这事儿听着挺讽刺的，Tailwind CSS明明火遍全球，但公司收入却像温水煮青蛙一样慢慢往下掉，逼得他不得不做出这个痛苦决定。他反思说，开源项目越受欢迎，商业变现反而越难，社区里那些‘理所当然’的功能需求，在生存压力面前都得往后排。有意思的是，AI在这故事里扮演了双重角色：一方面抢走了文档流量，影响了产品曝光；另一方面，像Claude Code这样的工具又成了小团队的救命稻草，帮他一个人扛起了运维的活儿。听着挺心酸的，但Adam没放弃，他打算重回一线写代码，同时优化产品、找合作伙伴，想带着剩下的团队蹚出一条路来。最触动人的是，他给离职的工程师写了深情推荐信——这大概就是创业者的担当吧，哪怕在至暗时刻，也没忘了对团队负责。

5.All in AI 的第一个三年｜对谈绿洲资本合伙人张津剑（42章经）

绿洲资本合伙人张津剑回顾了All in AI这三年，他坚信2022年重仓AI是极其正确的战略，像投资MiniMax这样的项目就验证了这一点。他认为未来三年AI将开启一个“大科学时代”，年轻科学家会借助AI推动科技大爆发，甚至可能迎来脑力的奥林匹克。技术层面，AI和具身智能正在融合，多模态理解是通往通用人工智能的关键，而中国在这个领域很有机会领先全球。对于咱们普通人，张津剑的建议特别实在：别老想着跟AI比智力，那比不过，不如专注活出自己，找到你独特的审美或技能，放大它，要么用AI服务更多人，要么成为AI替代不了的“非遗继承人”。他还提醒，投资时要过滤市场噪音，盯住创始人解决核心问题的能力和执行力，这些才是AI没法取代的。整体上，他对未来十年人机协作中“真”和执行力的重要性很乐观，甚至预测2026年中国科技融资会吸引更多全球资金。

6.#388.对话黄仁勋：AI 时代的“五层蛋糕”、Token 经济学与被误解的泡沫（跨国串门儿计划）

这期播客和黄仁勋聊得真够深入的，直接把AI产业从里到外扒了个遍。他提到AI虽然会自动化很多重复性任务，但反而让人类工作更有目的性了，比如医生不用再花大量时间看片子，可以更专注于诊断和研究，而且AI工厂这类新产业还会创造大量就业机会。他还用了个很形象的“五层蛋糕”模型来解释AI架构，从能源、芯片、基础设施到模型、应用，每一层都缺一不可，美国和其他国家得在整个技术栈上竞争，不能只盯着某个万能模型。开源这事儿他特别强调，说这是AI创新的基石，能让初创公司和传统行业低成本地接入AI，政策制定者真得好好保护这个开放生态。关于AI泡沫的争论，他直接反驳了，说计算基础正在从通用计算转向加速计算，除了大语言模型，自动驾驶、数字生物学、金融服务这些领域对AI计算的需求大得惊人，全球都缺算力。最后他还预测，随着AI成本快速下降，技术普及会加速，未来五年数字生物学、机器人这些垂直应用会有爆发性进步。

7.深度｜AI 教母李飞飞：AI 绝对是一种文明级技术；人们正在忽视“人”在 AI 中的重要性（Z Potentials）

李飞飞这位AI领域的重量级人物，在访谈中分享了不少让人深思的观点。她认为AI绝对是文明级别的技术，正在重塑我们生活的方方面面，但有个关键问题被大家忽略了——人本身在AI发展中的核心地位。她强调AI应该以人的尊严为本，不能让人失去价值感。她还提到ImageNet这个里程碑项目，其实不是靠单一天才完成的，而是通过众包创新解决了海量数据标注的难题，这背后是无数科学家的积累。现在AI领域有个被低估的方向叫“空间智能”，就是对三维世界的理解和交互，这在机器人、沉浸式体验领域潜力巨大。李飞飞创立的WorldLabs就在专注这个方向。她还特别谈到AI时代的教育变革——学会如何学习比死记硬背重要多了，未来人才评价会更看重快速适应和与AI协作的能力。最打动人的是她提到的“北极星”理念，鼓励每个人找到自己的人生使命，这不仅是科学探索的动力，更是活出生命力的关键。整篇访谈既有技术洞见，又充满人文关怀，值得每个关心AI未来的人仔细品味。

8.#386.应对极端不确定性：塔勒布与华尔街资深记者聊风险、危机与生存（跨国串门儿计划）

这期播客请来了《黑天鹅》作者塔勒布和《华尔街日报》资深记者，聊透了在充满不确定性的世界里怎么活下来。塔勒布讲了个核心观点：别总想着预测未来去押注，真正聪明的是去发现并躲开那些平时没人注意、但一旦发生就完蛋的“沉默风险”。面对像流行病、气候变化这种可能毁掉文明的系统性危机，他主张“预防原则”——别等证据确凿了再行动，趁早恐慌、提前预防才是正解。节目里还详细拆解了Universa基金那个著名的“纯粹主义”策略：他们就死磕买入深度虚值看跌期权这一招，像练一万遍同一种踢法，反而在尾部风险管理上建立了绝对优势。塔勒布还狠狠批评了金融系统的毛病：银行家赚钱时拿奖金，亏钱了却让纳税人兜底，这种“风险共担”的缺失制造了道德风险，让整个系统变得极其脆弱。他引入了“凸性”这个概念，意思是你要设计一种处境：错了损失有限，对了收益巨大，这样系统和个人才能在波动中反而变得更强大。最后，塔勒布分享了他的生存哲学：在这个信息爆炸、骗子横行的时代，要对重要的事情保持深度怀疑，只相信少数值得尊敬的人，别在无力改变的小事上浪费情绪。听完感觉像是拿到了一套在混乱世界里保持强韧的生存手册。

9.Marc Andreessen’s 2026 Outlook: AI Timelines， US vs. China， and The Price of AI（a16z）

Marc Andreessen 最近聊了聊他对 AI 未来的看法，信息量挺大的。他直接把 AI 革命排到了互联网前面，说这是他这辈子见过最重要的技术变革，甚至能和微处理器、车轮这种级别的发明相提并论。他提到现在领先 AI 公司的收入增长快得吓人，这背后是计算成本下降和产品被疯狂采用。他还特别强调了中美之间的 AI 竞赛，尤其是中国开源模型的崛起，像 DeepSeek、Kimi 这些，正在改变游戏规则，甚至开始影响美国的政策风向。Andreessen 对监管这事儿挺担心的，尤其是加州和欧洲那种过度监管的做法，他觉得这会直接扼杀创新，特别是对开源开发者很不公平。他还预测未来 AI 行业会形成一个‘大模型和小模型’共存的生态，既有顶级的闭源‘上帝模型’，也会有大量更便宜、更易获取的开源方案，让 AI 能力真正普及。整体上，他描绘了一个既充满竞争又机会巨大的 AI 未来，挺值得琢磨的。

10.#383.重新定义学习：大多数学习工具失败的原因（跨国串门儿计划）

这期播客聊得真透彻，直接戳破了学习工具和传统教育的痛点。Andy Matuschak 提出一个颠覆性的观点：记忆根本不是死记硬背，而是深度理解和创造力的燃料。没有足够的知识储备，大脑就没法发现信息间的联系，那些灵光一闪的瞬间也就无从谈起。很多学习工具之所以失败，是因为它们只解决了表面问题，却没帮我们管理好认知负荷和元认知规划——说白了，就是没减轻学习时那种既要学知识又要规划怎么学的双重痛苦。真正有效的做法是把元认知任务外包出去，比如通过高质量的教学大纲或者嵌入式问题，让大脑能专心消化核心内容。主动参与和即时反馈也比被动看视频强得多，编程时那种边做边得到反馈的体验，才是扎实的学习。传统教育体系也有大问题，常常为了照顾中等水平而牺牲了顶尖人才的培养，甚至强迫学生去追求根本不是他们自己的目标。最后还讨论了研究者在追求真理和迎合市场之间的艰难平衡，提醒我们要警惕营销对深度探索的腐蚀。听完感觉对学习和教育的理解又深了一层。

11.#382.巴菲特深度访谈：除了财富，我更想聊聊那些让我“富有”的人生准则（跨国串门儿计划）

这期播客太有意思了！巴菲特老爷子难得抛开那些复杂的投资数字，聊起了真正让他感到“富有”的东西。他讲了个集中营幸存者的故事，说真正的成功不是看银行账户有多少钱，而是看有多少人真心爱你、愿意为你冒险。他还提到了“卵巢彩票”这个概念——我们出生在什么地方、有什么样的父母，这些无法选择的运气因素对人生影响太大了，承认这一点才能更好地理解社会公平问题。巴菲特特别强调要专注在自己擅长的领域，别去嫉妒别人，那是最没用的情绪。他还建议多和比自己优秀的人交往，因为你会不知不觉地朝着他们的方向发展。最触动我的是他对金钱的看法：钱到了一定程度就买不到更多幸福了，所以他把大部分财富都捐出去做公益，觉得这才是金钱该有的归宿。听完感觉不只是投资大师，更是个活得通透的智者啊！

12.Scaling Law 没死，它只是换了个活法（硅星人Pro）

最近关于Scaling Law是不是已经过时的讨论特别热闹，尤其是Gemini 3发布后，大家好像都在重新思考大模型到底该怎么发展。其实核心观点很明确：Scaling Law没死，只是玩法变了。过去那种单纯堆模型规模、数据和算力的粗暴方式确实遇到了瓶颈，但现在它进化成了更精细的多阶段扩展。黄仁勋就提出了预训练、后训练和推理计算三条曲线同时作用的新框架，Sam Altman也强调持续投入就能持续变好。你看各大科技巨头还在疯狂砸钱建数据中心，算力依然是硬通货，只是现在更注重怎么高效利用。这背后其实挺有意思的，英伟达、OpenAI、Ilya Sutskever这些玩家都在基于自己的利益讲故事。对中国公司比如DeepSeek来说，既要优化工程效率，又得面对芯片限制下的规模挑战，这条路走得不容易。说到底，AI的发展从来不是一条直线，现在正是从野蛮生长转向精细化运营的关键时刻。