Vol.82 AI领域年度盘点：Agent技术、世界模型与增长策略深度解析

第一时间捕获有价值的信号

⼤家好，Weekly Gradient第 82 期已送达，本期内容全面解析AI领域年度发展，涵盖Agent技术如何重塑电商运营与开发流程，世界模型在实时交互与物理仿真中的路线之争，以及企业级AI市场的370亿美元支出流向。同时深入探讨了Lovable、Manus等公司的创新增长策略，AI生成代码的安全挑战与VibeSec解决方案，以及多模态模型、开源平台和工程领导力在AI时代的关键作用。

AI 商业化

聚焦AI行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM策略、SaaS转型等商业分析

1.#363.AI 时代的增长神话：2 亿美金 ARR，Lovable 如何彻底颠覆传统增长打法？（跨国串门儿计划）

Lovable 这家公司太猛了，上线一年就做到 2 亿美金 ARR，简直是 AI 时代的增长神话。他们发现传统增长方法在 AI 浪潮里只有三四成管用，核心秘诀是“停止优化，开始创新”——把 95% 的时间都用来创造新东西，而不是微调旧流程。产品上，他们用“最小可爱产品”取代了传统的 MVP，认为功能只是基础，真正能引爆口碑的是情感连接和惊喜体验。增长上玩得更野：创始人带着员工在社交媒体上高频分享公司动态，这叫“公开构建”；还把 AI 调用成本当成营销费用，疯狂免费送产品，降低用户门槛快速扩大基数。最颠覆的是，他们发现 AI 时代的产品市场契合度每三到六个月就会变，企业得持续创新才能重新夺回 PMF。这背后还有独特的招聘理念，专找有热情、能自主、适应快节奏的人，还通过 SHE build 倡议推动女性参与 AI 领域。

2.Menlo Venture AI 调研：一年增长 3.2 倍，370 亿美元的企业级 AI 支出流向了哪？（海外独角兽）

嘿，最近看到一份超有料的调研！Menlo Ventures调查了近500位美国企业的AI决策者，发现企业级AI市场简直像坐上了火箭——一年时间从115亿美元猛增到370亿美元，足足翻了3.2倍！这可不是小打小闹，说明AI真的在帮企业赚钱、提升效率。有意思的是，这370亿美元里，190亿流向了AI应用，180亿投给了基础设施。初创公司在应用层特别猛，占了63%的市场，尤其在编程、销售这些领域跑得飞快；而基础设施这块，传统巨头还是靠着数据平台的优势占了56%。还有个亮点是Anthropic，它在企业级大模型市场居然超过了OpenAI，份额冲到40%，尤其在编程领域几乎称霸了。更让人惊讶的是，27%的AI应用支出是通过PLG模式完成的，远高于传统软件，这意味着好用的AI工具真的能自己‘卖’自己，省去一堆采购流程。报告还预测，明年AI可能在编程任务上超越人类，同时可解释性、治理这些话题会越来越重要，模型也会慢慢跑到手机、设备这些边缘端去。整体来看，AI不仅没降温，反而在更深地改变企业的工作方式。

3.9 个月，1 亿美金 ARR，Manus 验证了什么？（硅星人Pro）

嘿，最近看到一篇挺震撼的报道，讲的是中国AI公司Manus，它前身是Monica.im，居然在短短9个月内就实现了1亿美元的年经常性收入，直接刷新了SaaS行业的增长纪录。创始人肖弘抓住了AIGC的风口，拉上技术天才季逸超和产品合伙人张涛，一起搞了个能“干活儿”的AI Agent，不是那种只会聊天的Chatbot，而是像云电脑一样自动交付成果。产品2025年3月一发布就火了，22天就启动商业化，虽然中间被质疑“过度营销”和“套壳”，但团队没多辩解，就埋头用产品和数据说话，结果4月就拿下了Benchmark领投的7500万美元B轮融资。为了全球化，他们把总部搬到了新加坡，还做了大规模组织调整，裁了部分员工，最终在12月突破1亿美元ARR，这速度简直疯狂，感觉AI Agent时代真的来了，出海和快速商业化太关键了。

4.对话商汤如影：如何用 Agent，实现电商运营的 20 倍能效提升？（Founder Park）

商汤如影团队搞了个挺有意思的东西，他们用五个Agent组成的营销智能体系统，把电商运营从直播场控到店铺管理的活儿全包了。最厉害的是那个店铺运营Agent，据说在退款分析这类任务上能实现20倍效率提升，原来要花半天时间的数据整理和分析，现在十分钟就能搞定，而且分析得还更全面。数字人直播也进化到2.0时代了，动作更自然、互动性更强，现在连鞋服这种对展示要求高的品类都能用，还能跟真人主播搭档，平均能达到真人一半的销售额。这套系统的核心优势在于他们真的懂商家痛点，不是那种平台视角的工具，五个Agent之间还能实时协同工作。更妙的是，这种AI能力已经不止用在电商了，教育、办公、招聘这些场景都能看到它的身影，比如几天内就能完成上万人的简历初筛，这效率提升可不是一点点。

5.深度解析世界模型：新范式的路线之争，实时交互与物理仿真（海外独角兽）

最近AI圈里“世界模型”这个概念特别火，但到底什么是世界模型呢？简单说，它不只是生成视频或者理解文字，而是要让AI真正理解时间和空间的规律，能根据当前环境和动作模拟未来会发生什么。这可比我们熟悉的语言模型和视频生成模型要求高多了，得具备长时记忆、能实时交互、还得符合物理规律。现在这个领域分成了两大技术路线：一边是追求实时视频生成，主要用在游戏、娱乐这些面向消费者的场景；另一边是搞3D/4D结构化，更注重物理准确性，为机器人、自动驾驶这些AI应用服务。文章还分析了四家代表性公司，比如World Labs专注3D一致性，General Intuition用游戏数据训练空间推理，Decart在做实时交互的开放世界，Odyssey则专攻高保真3D资产。看起来世界模型的发展路径还挺多元的，不同公司都在根据自己的技术特点探索商业化可能，挺有意思的。

6.125. 与 Altimeter 合伙人 Freda 聊：下注 OpenAI、Robinhood 往事，美国资本坏小孩、算盘与泡沫（张小珺Jùn｜商业访谈录）

这期播客干货满满，Altimeter 合伙人 Freda 聊得特别透彻。她点出美股现在三大主线：AI、再工业化和数字金融，三者环环相扣，AI 驱动芯片和云需求，再工业化搞本土制造和数据中心，数字金融用稳定币推动 AI 落地，整个市场格局都在重塑。OpenAI 正从卖模型转向做产品，ChatGPT、API 和企业业务是收入支柱，但训练成本高得吓人，还得平衡快速迭代和股权稀释，未来可能靠企业端成为超级入口。Robinhood 被看好能做成一站式金融应用，服务年轻一代，通过业务多元化、抢市场份额、提定价权和控制成本，在财富管理和 VC 基金这些领域潜力巨大。中美自动驾驶和机器人发展路子不同，中国数据优势明显，美国机器人技术还在突破，市场正快速收敛到少数玩家。硅谷那帮投资人喜欢集中重注，专挑能颠覆市场、引领变革的公司，深度研究后精准下注，追求超额收益。最后，Freda 强调 AI 投入虽大，但长期看能提升生产力、拉动经济增长，带来万亿美元级别的 GDP 增长，还会重塑劳动力和社会财富，这可不是泡沫那么简单。

7.一份命中率 80% 的 AI 预测复盘｜拾象年度预测（海外独角兽）

拾象团队年初发布了20项AI年度预测，现在结果出来了——命中率高达80%！他们复盘了哪些猜对了、哪些看走眼了，信息量超大。比如微软和OpenAI真的解绑了，模型开始在多个云平台跑；Google凭借TPU和基础设施打了个漂亮的翻身仗，重回AI领先地位；Agent成了新的软件形态，特别是Coding Agent已经落地干活了。最扎心的是，AI的技术红利果然还是流向了Mag 9这些大公司，它们靠“基建税”赚得盆满钵满。不过团队也承认，合成数据和持续学习比想象中难搞，高质量的人类数据和专家知识依然无法替代。这份复盘不仅梳理了2025年AI领域的关键进展，还藏着对2026年的深刻洞察，值得一看。

AI 产品设计

探索AI原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent设计等

1.a16z 领投 250 万美元，AI 陪伴赛道新品类，靠养宠物帮助人形成自律习惯（深思圈）

最近有个叫 Momo Self Care 的应用挺有意思的，它把养电子宠物和培养好习惯结合起来了。你照顾虚拟宠物的同时，其实是在完成自己的任务，比如喝水、运动这些日常小事。这种设计背后藏着行为心理学的巧思——通过互惠关系和养育本能，让你对虚拟宠物产生责任感，不知不觉就把习惯坚持下来了。现在 AI 伴侣这么火，其实反映了现代人的孤独感，加上大语言模型技术成熟了，能提供更个性化的陪伴。Momo 刚拿了 a16z 领投的 250 万美元种子轮融资，投资方看中的就是这种把 AI 陪伴和具体成果挂钩的模式。不过新鲜感过后怎么留住用户是个挑战，他们打算通过个性化学习和社区功能来增强粘性。这波 AI 伴侣的兴起，可能真能帮我们找到对抗拖延和孤独的新方式。

2.告别“扁平思维”：Qwen-Image-Layered 开启 AI 图片的图层革命（魔搭ModelScope社区）

最近Qwen团队搞了个大动作，推出了Qwen-Image-Layered模型，直接把AI图像编辑带入了图层时代。以前用AI修图总有个头疼的问题——稍微动一下某个元素，整张图都可能跟着“翻车”，这就是所谓的“扁平思维”局限。现在这个模型把图像分解成一个个独立的RGBA图层，就像Photoshop里的图层一样，每个元素都能单独操作。你可以精准移动画面里的人物，无损缩放某个物体，或者自由替换服装，完全不用担心影响其他部分。这背后靠的是RGBA-VAE和VLD-MMDiT这些核心技术，让AI能同时处理颜色和透明度信息，还能协调不同图层之间的关系。最厉害的是，它在边界清晰度、背景补全和编辑稳定性上都比现有方案强出一大截，透明度质量指标直接拉开了“代差”。这意味着AI图像创作不再是碰运气的“抽卡游戏”，而是变成了“搭积木”式的精准操作，彻底打通了AI和专业设计工具之间的壁垒。对于做数字艺术、影视后期或者电商广告的朋友来说，这简直是革命性的工具，以后处理图像肯定会轻松很多。

3.太猛了！谷歌悄悄在 Gemini 里塞了个 N8N 进去（歸藏的AI工具箱）

谷歌这次真是放大招了！Gemini里的“新Gem”功能已经悄悄进化成一个内置的Agent构建工具Opal，现在你只需要用自然语言描述需求，就能快速生成支持图片、文档、YouTube视频等多种输入的定制化AI应用，还能输出网页、可视化报告甚至音频博客。更厉害的是，Opal还提供了图形化的高级编辑器，让你可以精细调整工作流，选择Gemini 2.5 Flash/Pro、Imagen 4、Veo这些多模态模型，实现复杂的图文音视频生成。而且你做的应用还能轻松分享给别人使用，这简直是把AI应用开发的门槛降到了地板级，感觉整个AI应用的生态都要被重新洗牌了。

4.字节 Seedance 1.5 Pro 藏师傅实测：可以说方言的音画同出视频模型（歸藏的AI工具箱）

字节跳动新出的Seedance 1.5 Pro视频模型，这次真的有点东西！藏师傅实测下来，它不仅能根据文字描述生成视频，还能让画面里的角色开口说话，而且口型、语调都跟声音对得上。更厉害的是，它支持好几种方言，像陕西话、四川话、粤语都能生成，这让做本土化内容方便多了。模型对情绪的理解也很到位，能根据语境同步调整声音和画面的情感表达，连猫咪吃播这种非人场景都能做出拟人化的效果。在专业制作方面，它还能自动实现希区柯克变焦、长镜头这些复杂运镜，大大降低了视频制作的门槛。总的来说，这个模型坚持纯文字生成视频的路径，音画融合质量很高，感觉视频AIGC和未来的视频Agent产品真的要迎来一波爆发了。

5.通用 Agent 模型 Seed1.8 正式发布（字节跳动Seed）

字节跳动Seed团队刚刚发布了通用Agent模型Seed1.8，这可不是简单的聊天机器人升级。它最大的突破在于让AI真正“看见”并直接操作电脑、网页和手机界面，从信息查询进化到直接执行复杂任务。想象一下，一个能帮你规划旅行、处理金融数据、甚至操作软件界面的智能助手，现在真的来了。更厉害的是，它在多项评测中都达到了顶尖水平，搜索能力超过了Gemini-3-Pro，视频理解也接近行业前沿。通过优化推理效率和引入三种思维模式，它还能做到低延迟响应，让AI助手不再“慢半拍”。这标志着AI正从对话工具转向真正的生产力伙伴，未来可能彻底改变我们与数字世界互动的方式。

6.设计不止于代码（宝玉的分享）

最近读到一篇挺有启发的文章，讲的是设计师在AI时代到底该扮演什么角色。作者Karri Saarinen直接怼了那种把设计等同于写代码的观点，觉得这太简化了。他担心随着AI和各种新工具越来越普及，大家会只顾着埋头敲代码，反而忘了设计最核心的东西——就是先搞清楚到底要解决什么问题。文章把设计过程分成概念和执行两个阶段，强调在动手画图或写代码之前，得花足够时间用文字、纸笔或者设计工具探索各种可能性，把愿景和意图想明白。过早陷入技术细节真的会扼杀创新，很多设计项目失败就是因为一开始就没对齐核心问题。如果整个行业都默认直接跳到执行阶段，那种深思熟虑的设计文化可能就慢慢消失了，最后做出来的产品也会越来越平庸。这其实是在提醒我们，无论工具多先进，设计师的价值始终在于更宏观的思考和对问题的深度质疑。

7.从失败中重生：一个 AI Agent 前端落地的真实复盘（宝玉的分享）

这故事挺有意思的，一个技术团队费尽心思搞了个AI Agent项目，技术上各种难题都攻克了，私有组件学习、代码预览、质量保证都做得挺漂亮，结果上线后用户根本不买账。原来问题出在用户习惯上，大家觉得Agent生成的代码总差那么点意思，用起来还割裂了原有流程。团队痛定思痛，发现光有技术成功远远不够，得从根上重新思考——不是让AI去模仿人类工作流，而是要以AI为中心设计全新的协作方式。现在他们找到了破局点：把那些辛苦开发的Agent能力拆解成一个个‘Skill’，直接嵌入到开发者已经熟悉的Claude Code、Cursor这些环境里。这样一来，门槛低了，接受度自然就上去了。整个过程虽然踩了坑，但收获的认知升级特别宝贵，提醒我们在这个快速变化的AI时代，勇于实践、从失败中学习才是王道。

8.豆包大模型 1.8 发布，通用 Agent 模型成为了 AI 行业的新叙事（Founder Park）

字节跳动刚刚发布了豆包大模型1.8版本，这次更新可不仅仅是参数提升那么简单，它直接把AI Agent的能力推向了新高度。最让人兴奋的是那个OS Agent，它居然能“看见”电脑屏幕、网页界面，还能直接操作它们，这意味着什么？以后那些没有开放API的系统，比如电商后台、客服软件，AI也能帮你自动处理了，简直像给电脑装了个智能助手。更厉害的是，豆包1.8从训练开始就把文字和图像融合在一起，这种原生多模态设计让AI理解视觉信息的能力大幅提升，为Agent的“看懂”和“操作”打下了坚实基础。文章还提出了一个特别有价值的观点：传统AI评测榜单和实际应用经常脱节，豆包团队干脆自己设计了一套新评估体系，重点关注用户体验、真实场景和通用智能，这或许能推动整个行业从“刷榜”转向真正创造价值。最后那个“基模厚度”的概念也很有意思——原生多模态、思考能力和工具调用能力被视为基模的核心，这些基础能力越强，上层应用就越容易开发，未来开发者可能只需要专注于场景设计，而不是从头训练模型了。

9.12 月，我们推荐这 7 款 AI 新品（Founder Park）

最近极客公园创新大会上，Founder Park一口气推荐了七款让人眼前一亮的AI新品，从帮你记笔记到管理健康，从生成创意图片到优化营销策略，覆盖了生活的方方面面。这些产品背后有个共同理念：AI不是要取代你，而是成为你的得力助手。比如flomo笔记的“多视角洞察”功能，就像给你戴上一副智能眼镜，帮你从不同角度审视信息；Doka相机的AI构图辅助，则像一位随行的摄影导师，悄悄给你提点建议。最打动我的是remio的Personal ChatGPT，它不再是个冷冰冰的问答机器，而是通过默默记录你的工作习惯，变成真正懂你业务的“AI伙伴”。还有MuleRun搭建的AI Agent市场，让开发者能把专业知识变成可交易的智能助手，想想看，未来我们可能像下载App一样，轻松获取各种定制化的AI服务。Pallas AI的营销Agent更是有趣，它让品牌从被动等待搜索，转向主动在AI平台上被推荐，这或许会彻底改变营销的游戏规则。健康领域也没落下，OdyssLife的AI项链能无感记录你的饮食运动，提供个性化方案，解决了传统健康App总让人忘记记录的痛点。而LavieAI的视觉生成工具虽然降低了创意门槛，但设计师们反而更忙了——因为AI时代，独特的审美和创意想法变得比技术操作更重要。这些产品都在强调一个关键：真正的智能离不开“上下文”，无论是你的个人习惯、工作场景还是健康数据，只有理解了这些背景，AI才能真正帮到点子上。看完这些，感觉AI不再遥不可及，它正悄悄融入日常，成为我们提升效率、激发创意的隐形伙伴。

10.Gemini 引导式学习系统提示词（宝玉的分享）

Gemini 这套引导式学习系统真有点意思，它把自己定位成一位温暖又鼓舞人心的同伴导师，核心原则就是“引导，而非告知”。这意味着它不会直接给你答案，而是通过提问、提供背景信息这些方式，帮你自己把知识构建起来，这种主动学习的效果肯定比被动接收强多了。更精细的是，它把用户的问题分成了收敛性、发散性、简单回忆等不同类型，每种都有专门的对话策略，比如收敛性问题就一步步引导解题，发散性问题则提供多个切入点让你探索，针对性特别强。整个对话过程还强调保持上下文连贯、避免重复啰嗦，甚至会策略性地用些视觉辅助和表情符号来维持你的学习兴趣，细节考虑得很周到。当然，所有这一切都建立在严格的安全护栏之上，确保内容积极适宜，守护好学习环境。这套设计把AI的教育潜能发挥得挺到位，既注重学习效果，又照顾用户体验，值得琢磨。

11.I Tested ChatGPT’s New Image Model（Greg Isenberg）

Greg Isenberg最近亲自上手测试了ChatGPT新集成的图像模型，还拿它和Google的Nano Banana Pro做了个对比。新界面挺有意思，有个风格轮播可以直接选“毛绒玩具”或“素描”这类预设，还有个内置的提示优化功能，就算你不懂什么提示工程，也能轻松生成想要的图。他试了毛绒玩具、素描图、摇头娃娃这些实际例子，发现生成的图像细节特别丰富，质量很高，很适合用来做产品概念或者社交媒体内容。另外，新模型在编辑功能上也有进步，比如添加删除元素、更准确地遵循指令（像特定的网格布局），还能更好地渲染文字，这些改进都让它在创意工作里更实用了。Isenberg觉得这个新模型不仅效率高，可能比现有工具还好用，对创作者和企业家来说是个挺有吸引力的工具。

12.独家对话 Looki 创始人孙洋：摸着自己过河（Founder Park）

Looki创始人孙洋的访谈太有意思了！他们那款AI可穿戴设备Looki L1，原本定位是“人生记录相机”，结果发现用户对AI的接受度远超预期，果断转型成多模态AI硬件，反而意外走红。最惊人的是用户日均使用时长高达7.9小时，这哪是相机啊，简直成了生活里的AI副驾驶。他们的产品哲学很特别，强调“少结构，多智能”，不预设功能，而是让AI在用户真实生活数据里创造惊喜。商业模式也不是卖硬件那么简单，而是想做“价值售卖”，基于用户信任提供个性化生活建议，未来可能像你的“生活主理人”。孙洋还提到AI时代创业，关键不在数据多少，而在认知差和行动速度，招聘也更看重品味和想象力，会使用AI工具的员工才吃香。整个访谈既有产品设计的深度思考，又有商业模式的创新探索，还涉及隐私处理和团队管理的现实挑战，特别适合关注AI硬件和产品创新的朋友。

13.《AI 与自动化的讽刺》读后感（宝玉的分享）

读完这篇关于AI自动化的文章，心里有点五味杂陈。它从一篇1983年的老论文说起，把AI Agent的发展和我们今天面临的问题联系得特别紧密。最让我有感触的是，文章说AI越能干，我们人类的技能反而可能越退化——就像肌肉不用就会萎缩一样，长期让AI干活，我们自己动手的能力真的会变差。而且还有个挺讽刺的现象：AI系统出错越少，我们越难集中精神盯着它，因为人类天生就不擅长长时间盯着不出问题的东西看。更现实的是，专家们从创造者变成了监工，这种身份转变带来的心理落差可不小。文章还提到，现在很多AI Agent的界面设计得根本不适合人类监控，全是文字，看着就累。最颠覆认知的是，成功的自动化系统反而需要投入更多培训资源，因为我们要从执行者变成领导者，这要求完全不一样了。整篇文章都在提醒我们，享受AI便利的同时，千万别忘了它带来的这些隐藏挑战。

14.深度｜AI 编码黑马 Sourcegraph 华裔联创：我们的理念不是以模型为核心，而是以 Agent 为核心（Z Potentials）

嘿，最近读到一篇关于 Sourcegraph 联合创始人 Beyang Liu 的深度访谈，挺有意思的。他聊到 AI 编程工具 Amp 背后的理念，核心观点是：别只盯着模型本身，真正重要的是 Agent 这个整体。怎么理解呢？Agent 的能力其实是由模型、提示词、工具、环境和反馈机制共同决定的，模型只是其中一环。这意味着未来开发者的角色可能会大变样——从自己写代码，转向协调多个 Agent 协作，然后评审它们的输出，效率能提升不少。他还特别强调，评估 AI Agent 不能只看冷冰冰的指标，用户的实际体验和效率提升才是硬道理。开源模型在这里扮演了关键角色，经过针对性训练后，不仅性能更好，成本还更低。不过，Beyang Liu 也表达了一些担忧：目前全球顶尖的 Agent 工具用的模型很多来自中国，美国如果跟不上，可能会过度依赖外部技术；加上监管层面如果缺乏清晰统一的规则，各州各自为政，反而会巩固大公司的垄断地位，拖累创新。整体来看，这不仅是技术讨论，更关乎未来软件开发的生态和竞争力。

AI 工程实践

涵盖AI系统技术实现与场景化开发的全流程，包含工程架构、工具链实践、提示工程等核心技术环节

1.首发！建议你一定要看的《AI 生成代码在野安全风险研究》（腾讯技术工程）

最近一份研究分析了 GitHub 上大量项目的代码提交记录和漏洞数据，发现 AI 生成代码在开源生态中的使用已经走过了爆发期，现在正进入稳定的人机协作阶段——AI 主要处理重复性任务，人类则负责系统设计和安全把关。有意思的是，AI 在漏洞这件事上扮演着双重角色：一方面，它确实可能引入漏洞，研究显示有 3.5% 的漏洞修复会专门把 AI 代码换成人工代码来消除隐患；但另一方面，它也能帮忙加速修复，9.4% 的案例里人工代码反而被 AI 代码替换了。关键在于怎么用 AI。这些 AI 引入的漏洞还挺有特点，主要集中在输入验证和不安全的 API 调用上，因为 AI 容易机械模仿训练数据的模式，漏掉一些校验或用上过时的接口。不过，它们很少涉及复杂的业务逻辑错误，风险上限其实和人工代码差不多，只是更偏向网络攻击面。为了应对这些挑战，研究提出了几个核心建议：首先得建立多维度评测基准，通过红队测试和准入机制从源头把关；然后要增强模型本身的安全性，比如在训练阶段用 RLHF 对齐，推理阶段结合 RAG 和受限解码；最后，人机协同治理依然是不可替代的防线，需要重构开发规范，明确责任分工，确保安全决策始终有人参与。整体来看，AI 编程的价值很大，但必须在可控的前提下发挥，这份研究正好提供了实用的安全视角。

2.AI 架构师的诞生：AI+传统 DDD 模式 = 实现开发效率提升 75%（阿里云开发者）

淘宝闪购服务包系统原来是个大单体，开发成本高、重复代码多、扩展还麻烦。现在他们用AI结合领域驱动设计（DDD）来重构，效果简直惊人！AI能帮忙拆解业务边界、生成代码骨架，甚至写具体代码，但关键还得靠人把关业务逻辑。这么一搞，代码量直接砍掉一半，重复代码全没了，开发新功能改动的文件从8个减到1-2个，整体开发效率飙升75%。这可不是简单的工具升级，而是人机协作的新模式——AI负责自动化提效，人专注业务决策，真正把软件工程带进了智能时代。

3.“大晓机器人”携手火山引擎多模态数据湖探索千万小时级视频处理新路径（字节跳动技术团队）

嘿，如果你正为海量视频数据怎么高效处理而头疼，那这篇文章可真是及时雨！它讲的是‘大晓机器人’和火山引擎联手，专门攻克千万小时级别视频处理的难题。过去那种单机脚本模式，链路分散、资源浪费还动不动就崩，面对海量数据简直束手无策。现在他们用上了火山引擎LAS AI数据湖里的Daft计算框架，把整个视频处理流程都变成了统一的DataFrame链路，再结合Ray搞分布式并行，一下子就把分镜、滤波、生成Caption这些关键步骤的效率拉满了。文章里还拆解了具体怎么做的，比如怎么检测场景、切分视频、采样关键帧、过滤低质量内容，最后用视觉语言模型生成描述，每一步都讲得挺清楚。更厉害的是，他们通过一些优化手段，比如Explode增大并发、ZeroCopy减少数据拷贝，让CPU和GPU的利用率都冲到了90%以上，处理速度嗖嗖的。而且，他们还设计了Checkpoint机制，万一任务中途断了，也能从断点接着干，再也不怕长周期任务出幺蛾子了。这套方案不仅解决了眼前的处理难题，还给具身智能、智能驾驶这些领域搭了个高效又可靠的数据处理底座，确实挺有启发的。

4.打造社交 APP 人物动漫化：通义万相 wan2.x 训练优化指南（阿里云开发者）

如果你正在为社交APP开发真人转动漫跳舞视频功能，这篇文章简直是及时雨。它直接瞄准了动态动作不稳定、动漫风格控制弱、视频质量差和推理速度慢这些让人头疼的问题。文章选择了阿里云的通义万相wan2.1和wan2.2模型作为基础，通过构建多模态数据集，并用LoRA和全参微调的方法来强化模型在特定场景下的表现。更厉害的是，它一口气介绍了四种优化技术：用INT8量化的Sage Attention能提速27%，通过缓存相似帧的TeaCache机制再提速28%，大规模并行推理框架xDiT甚至能实现高达400%的加速，还有Gradient Checkpointing Offload技术能减少13%的显存占用。这些技术组合起来，实实在在地解决了高质量AIGC视频生成中的效率瓶颈，而且文章还提供了详细的代码示例和效果对比，干货满满，值得仔细研究。

5.面向业务落地的 AI 产品评测体系设计与平台实现（阿里云开发者）

淘宝闪购这篇分享干货满满，直接戳中了当前AI产品落地最头疼的问题——怎么评测？传统那套验收测试在AI面前完全不够用，因为AI产品天生就带着不确定性，而且像Agent这种架构链路又长又复杂。他们提出要把评测升级成贯穿整个生命周期的“质量工程体系”，从需求阶段就开始介入，跟业务、产品一起定义什么叫“好”。具体怎么操作呢？他们设计了五个核心评价维度：业务目标、产品效果、性能体验、安全合规、服务成本，而且这些维度还能根据产品阶段动态调整。针对Agent，他们推荐以端到端评测为主，这样最贴近真实用户场景，同时用可回放环境和模型裁判（比如LLM-as-a-Judge）来解决没有标准答案时的评测难题。为了平衡效率和覆盖度，他们还搞了个“按变更分级+标签选集”的策略，根据版本改动大小来匹配不同的测试强度，再用精细化的标签体系自动筛选用例，让回归测试又快又准。最后，他们搭建的平台也很有想法，采用标准化流程加插件化扩展的设计，方便多部门接入，未来还打算支持多模态评测、可视化标注，甚至开放插件市场。这套体系确实是从实战中摸爬滚打出来的，对任何在做AI产品落地的团队都很有参考价值。

6.字节内部演进实录：Redis 迁移 Valkey，以一体化破解 AI 集群规模魔咒（字节跳动技术团队）

字节跳动最近分享了他们如何改造Valkey（就是原来的Redis）来应对AI业务爆炸式增长的挑战。你知道吗？他们的AI集群现在需要处理256T内存、800GB/s的带宽，还要存32M那么大的单个数据，原来的Gossip协议架构根本撑不住，通信开销大得吓人，故障恢复慢，还容易导致数据不一致。为了解决这个问题，他们自研了一套Raft一体化中控架构，在Valkey节点里新增了root角色，用Raft协议统一管理集群元数据，彻底抛弃了Gossip协议。这样一来，不仅解决了脑裂和运维复杂的问题，还通过客户端直接对接root节点、多点探活等优化，大大提升了集群的稳定性和性能。这绝对是AI时代存储基础设施的一次重要升级，字节跳动还表示会把这些贡献回馈给Valkey社区，看来他们是真的想把Valkey打造成更强大的AI存储引擎。

7.Multi-Agent 全面爆发！一文详解多智能体核心架构及 LangGraph 框架（腾讯云开发者）

如果你正在为如何让多个AI智能体高效协作而头疼，这篇文章简直是及时雨！它深入拆解了LangGraph这个框架，告诉你怎样用有向图把复杂的任务拆成一个个节点和边，让智能体们像流水线一样各司其职。最酷的是，它不仅能处理并行任务和条件分支，还能通过状态合并、动态路由这些高级功能，确保数据在智能体之间流转得既准确又灵活。更贴心的是，框架还内置了状态持久化和时间旅行，万一出错了能随时回滚调试；甚至支持人机协作，关键时刻让人类介入把关，大大提升了系统的可靠性和安全性。读完你会明白，用LangGraph来设计多智能体架构，不仅能模块化专业分工，还能通过多种通信模式让团队协作效率飙升，绝对是开发现代AI应用的利器。

8.让 AI 真正懂数据：猫超 Matra 项目中的 AI 知识库建设之路（阿里云开发者）

猫超的Matra项目真是把AI和数据治理玩出了新高度！他们面对海量数据资产带来的管理混乱和业务人员找数据难的痛点，没有选择重构底层数据模型，而是巧妙地构建了一个包含指标、实体、属性、表、字段五类知识的AI知识库。这个知识库可不是静态文档，而是进化成了半自动化的产品化平台，能自动解析、关联和校验知识，彻底告别了手动维护的麻烦。更厉害的是，他们引入了GraphRAG技术构建知识图谱来提升数据关系的准确性，再结合ReAct和Plan&Execute框架设计Data Agent，让AI不仅能理解自然语言问题，还能自动生成并执行SQL，真正实现了从“人找数”到“AI取数、分析”的转变。现在，这个系统已经在资产查询、智能问数和开发提效等场景大显身手，虽然还有提升空间，但这条路子确实让人看到了AI真正懂数据的希望。

9.破除 AI Agent 自主操控风险：万字解读 LangGraph“人工干预”机制，附零基础实战（腾讯技术工程）

如果你正在用大模型构建AI Agent，肯定担心过它会不会在关键任务里自作主张、捅出娄子。这篇文章简直像及时雨，手把手教你用LangGraph框架给AI Agent装上“人工刹车”。核心思路很清晰：通过持久化保存执行状态，配合灵活的动态和静态中断机制，在需要的时候把控制权交回人类手里。文章详细拆解了四种经典的人机协同模式——批准或拒绝操作、直接编辑运行状态、审查工具调用、验证人工输入，每种都配了代码示例，零基础也能跟着实战。特别提醒一点，LangGraph中断后恢复时会重新执行整个节点，所以那些有副作用的操作（比如调用API、写数据库）得小心安排位置，避免重复执行。最后还结合Venus MCP平台的智能搜索工具，展示了在真实异步场景里怎么应用这些机制。读完感觉，这不仅是技术实现，更是构建可靠、安全AI应用的必备思维。

10.Reborn from Failure: A Real-World Retrospective on（宝玉(@dotey)）

这场分享会可太真实了！讲者没有炫耀什么辉煌战绩，反而坦诚地复盘了一个前端AI智能体项目的完整经历。团队明明在技术上取得了成功，把功能都实现了，结果产品却遭遇了失败，用户根本不买账。最精彩的部分在于，这次挫折反而成了团队的催化剂，促使大家完成了一次深刻的认知升级。故事的核心不是教你如何复制成功，而是让你看到实践中那些真实的坑，以及团队思维模式如何在这个过程中发生根本性的转变。如果你也在做AI相关的工程落地，这种从失败中汲取的实战智慧，可能比任何成功案例都更有价值。

[11.完整版

https://t.co/VmSyCSdVYo](https://x.com/dotey/status/2002234644243124441)（宝玉(@dotey)）

宝玉分享了一篇日语技术文章，专门聊AI Agent和前端开发那些事儿。文章挺有意思的，不是那种光讲成功案例的，反而重点在说怎么从失败里找经验，让前端开发能重新站起来。如果你对AI Agent怎么在实际工程里落地感兴趣，或者自己也在前端架构上踩过坑，这篇文章应该能给你不少启发。虽然是日语的，但内容质量看起来很高，值得技术圈的朋友们关注一下。

12.卖掉上一家公司后，这位连续创业者拿下 1600 万美元，要用开源颠覆 AI Agent 开发（深思圈）

最近有个挺有意思的创业故事，一位连续创业者卖掉上一家公司后，又拿到了1600万美元投资，这次他要解决AI Agent开发中的一个大麻烦。你知道吗，现在很多开发者做AI Agent时，从原型到真正上线运行，中间会遇到一堆头疼的问题——任务怎么排队、失败了怎么重试、同时处理大量请求时怎么控制、出错后怎么处理……这些基础设施的活儿特别费时间。Trigger.dev这个开源平台就是来搞定这些的，它让开发者能像写普通函数一样定义任务，把复杂的分布式系统细节都封装起来。文章里举了两个实际例子：教育科技公司MagicSchool AI用它处理大规模异步任务，视频广告平台Icon.com也靠它提升系统可靠性。有意思的是，他们选择TypeScript作为主要语言，认为这既适合人类开发者，也适合AI模型协作。开源策略也帮他们快速吸引了开发者社区。说到底，AI Agent天生就是异步、事件驱动的，需要新的软件架构来支撑，这种‘AI-native’的应用正在催生全新的基础设施需求。

13.Agent Skills（Simon Willison’s Weblog）

Anthropic 最近把自家 AI 代理的“技能机制”开源了，还起了个挺酷的名字叫 Agent Skills，直接推成了一个独立标准。这个标准设计得特别简洁，读起来不费劲，但有些地方比如 metadata 和 allowed-skills 这些字段，定义得还不够清楚，可能会让开发者有点困惑。不过，已经有 OpenCode、Cursor、GitHub、VS Code 等好几家公司用上了，生态圈正在快速形成。有意思的是，OpenAI 虽然也在悄悄研究类似技术，但这次名单里没它，Agent Skills 能不能成为行业通用框架，这场标准之争还挺有看头的。

14.OpenAI Releases GPT-5.2-Codex for Advanced Agentic Coding（OpenAI(@OpenAI)）

OpenAI这次又放大招了，推出了专门为高级编码任务设计的GPT-5.2-Codex。这个模型可不简单，它瞄准的是‘智能体编码’这个前沿领域，说白了就是让AI能自主完成编码任务。最让人兴奋的是，它不仅能在复杂的编码挑战中保持可靠表现，还能有效应用于大型项目，这意味着AI驱动的软件工程能力又向前迈进了一大步。无论是真实的软件开发还是防御性网络安全，这个模型都能派上用场，看来AI在工程实践领域的应用又要掀起一波新浪潮了。

15.Your job is to deliver code you have proven to work（Simon Willison’s Weblog）

最近看到不少工程师开始依赖AI工具生成代码，但提交的PR经常把验证工作甩给评审同事，这其实挺让人头疼的。这篇文章就直指这个痛点——开发者的核心责任不是写代码，而是交付真正能用的代码。作者特别强调两个关键动作：一是手动测试，你得亲眼看着代码跑起来，展示效果；二是自动化测试，每次改动都得配上测试用例，AI工具现在让写测试变得容易多了，没理由跳过这步。更有意思的是，作者建议我们反过来训练AI编程助手，让它们学会自己验证代码质量。说到底，AI再厉害，代码质量的最终责任还是在人身上，经过充分测试的代码才是真正有价值的贡献。

16.OpenAI利用Codex在28天内开发Sora Android客户端的深度分析（宝玉(@dotey)）

OpenAI最近分享了一个超酷的案例：他们用自家的Codex工具，只花了28天就搞定了Sora的Android客户端开发。最让人惊讶的是，整个项目里大约85%的代码都是AI生成的，而且最终成果质量很高，运行起来一个崩溃都没有。不过，这可不是什么AI要取代程序员的信号，恰恰相反，它揭示了一个更重要的趋势：未来的软件开发，将是精锐工程师和先进AI工具的高效协同。OpenAI团队的成功秘诀很值得琢磨：他们坚持“架构先行”，也就是由人来搭建整体框架和制定规范，然后让AI去填充具体的代码细节，甚至还专门写了份详细的.AGENTS.md文件，相当于给AI准备了一份“新人入职手册”。另一个关键方法是“先规划再写代码”，要求AI在动手之前，必须先理解整个系统，并制定出清晰的实现计划，这样能大大减少后期的返工，也让代码复查变得更高效。文章里还提出了一个特别有意思的观点：未来的跨平台开发框架，可能不再是某个特定的技术栈，而就是AI Agent本身——由AI来充当不同编程语言和应用逻辑之间的“翻译官”。这背后其实传递出一个强烈的信号：AI辅助开发正在重塑软件工程。代码本身会变得越来越“廉价”，但工程师的核心能力正在升级——对系统的深度理解、与AI长期协作的能力，以及定义什么是“正确、优雅、面向未来”解决方案的那种“品味”，会变得前所未有的重要和昂贵。

17.Inside PostHog: How SSRF， a ClickHouse SQL Escaping 0day， and Default PostgreSQL Credentials Formed an RCE Chain（Simon Willison’s Weblog）

这简直是个教科书级别的多阶段攻击案例！攻击者从PostHog的Webhooks系统入手，利用URL验证不严的漏洞发起服务器端请求伪造，让服务器乖乖去访问内部的ClickHouse数据库。更绝的是，他们发现ClickHouse里有个postgresql()表函数存在SQL逃逸漏洞，直接绕过了防护机制。最后通过PostgreSQL的COPY … FROM PROGRAM命令，在数据库服务器上执行任意shell命令，成功建立了反向shell。整个攻击链环环相扣，把三个看似独立的漏洞串联成了完整的远程控制通道，真是让人背后发凉。好在所有漏洞都已经被发现并修复了，但这也提醒我们，安全防护真的不能有丝毫松懈。

18.Gemini 3 Flash（Simon Willison’s Weblog）

谷歌这次真的放了个大招！他们推出了全新的Gemini 3 Flash模型，这玩意儿简直是为实际应用量身定做的。最让人兴奋的是，它的价格只有Gemini 3 Pro的四分之一到八分之一，但性能却能和Pro版媲美，甚至在基准测试中超越了之前的2.5 Pro。这意味着我们可以用更少的钱获得强大的多模态能力，处理文本、图像、视频、音频、PDF都没问题。更棒的是，它支持不同精细度级别，从最小到高，让你能精确控制生成内容的复杂程度，比如生成不同风格的SVG图像。我亲自试了用它来构建HTML图像画廊的Web组件，通过对话就能迭代设计、生成替代文本，开发效率提升明显。不过有个小遗憾，它移除了之前版本中的图像分割功能。总的来说，如果你在寻找一个既强大又实惠的AI助手来辅助编码和创意工作，Gemini 3 Flash绝对值得关注。

19.一张图秒生 LoRA ? Qwen-Image-i2L 诞生记（魔搭ModelScope社区）

嘿，最近魔搭社区搞了个挺酷的东西，叫Qwen-Image-i2L。简单说，就是给你一张图，它就能直接给你生成一个LoRA模型，把原来要训练好几个小时的活儿，瞬间搞定。这背后可不简单，他们试了好几种图像编码器，像SigLIP2、DINOv3这些，还用了双层全连接结构来平衡性能和资源。一开始的版本要么风格抓得好但记不住细节，要么细节复现了又容易跑偏，后来他们用多专家模型和差分训练才慢慢调过来。现在这模型虽然直接生成的LoRA还有点差距，但作为预训练权重来用，能让后续的LoRA训练快很多，早期就能出很像目标的图。魔搭社区还说了，代码都会开源，继续优化，感觉这技术以后能让玩AI绘画的朋友们省不少时间。

20.Samsung’s Tiny Recursive Model Outperforms LLMs on Grid Puzzles（DeepLearning.AI(@DeepLearningAI)）

三星最近搞了个挺有意思的研究，他们开发了一个叫TRM的微型递归模型，专门用来解决数独、迷宫这类基于网格的谜题。最让人惊讶的是，这个小小的模型在特定任务上居然比DeepSeek-R1、Gemini 2.5 Pro这些大家伙表现还要好！它通过迭代优化的方式，不断更新一个动态的“上下文”来记住之前的变化，这种设计思路特别适合处理那些规则明确、约束条件多的问题。这其实给我们提了个醒：模型不是越大越好，有时候针对特定场景设计的专用架构反而能发挥出意想不到的效果。如果你对AI模型设计或者推理任务感兴趣，这个研究绝对值得一看。

21.OpenAI’s Answer to Gemini 3， Runway’s Interactive Worlds， Disney’s Alliance With OpenAI， and more…（deeplearning.ai）

这期内容挺有意思的，咱们聊聊AI领域几个挺关键的进展。吴恩达最近提了个观点，说现在的大语言模型虽然比以前通用多了，但真要让它干点具体活儿，还是得靠大量数据工程来调教，离人类那种灵活学习的能力还有差距。Runway那边搞了个GWM-1模型，能实时生成带物理规则的交互视频，不只是画面好看，还能模拟真实世界怎么运转，用在机器人训练或者虚拟角色对话里挺有潜力。OpenAI为了应对竞争压力，推出了GPT-5.2系列，在抽象推理和编程测试里表现抢眼，关键是计算成本降了不少，让更多人能用上高级AI能力。还有个叫SEMI的技术挺聪明的，用投影仪和LoRA适配器，只要几十个样本就能让大模型学会处理新类型的数据，比如图像或音频，解决了多模态开发里数据不够的老大难问题。这些进展都在推动AI变得更实用、更智能。

22.本周 AI 项目推荐：“给 Vibe Coding 擦屁股”的 VibeSec 公司们（硅星人Pro）

最近是不是觉得AI写代码越来越厉害了？但你可能没注意到，这些AI生成的代码里藏着不少安全隐患，简直成了“房间里的大象”。传统的人工审查根本跟不上AI的生产速度，于是VibeSec这个新赛道就火起来了——简单说就是用AI来保护AI生成的代码。具体怎么操作呢？从源头就开始防：比如用AI拦截那些可能让模型产生幻觉或注入恶意代码的提示词；还要防止供应链被投毒，实时监控软件包的行为；更厉害的是，直接用AI去攻击AI代码，主动找出逻辑漏洞。国内这边也挺热闹，奇安信、蚂蚁这些大厂在用AI优化传统安全工具，墨菲安全、墨云科技这些初创公司则在代码指纹识别、AI渗透测试上玩出了新花样。对了，还有个容易被忽略的问题：AI生成的代码可能“能跑但不可读”，导致技术债务越积越多，所以现在也有专门评估代码质量的工具，帮你看看这些代码是不是真的可维护。感觉这波AI安全浪潮，真是把代码安全的玩法彻底升级了。

23.#364.解密 OpenAI 高效引擎：18 天打造榜首 App，Codex 负责人揭秘 AI 队友的进化之路（跨国串门儿计划）

这期播客聊得太有意思了！OpenAI Codex 的负责人 Alexander 亲自揭秘了他们团队如何用 18 天就搞定了 Sora 安卓版 App 的开发，简直像开了挂。原来背后是 Codex 这个 AI 编码助手在疯狂输出，它不仅能理解代码、生成计划，还能自动化那些烦人的重复任务，硬是把开发周期压缩到不可思议的程度。Alexander 还抛出了一个特别颠覆的观点：未来 AGI 实现的最大瓶颈，可能不是 AI 不够聪明，而是我们人类的打字速度太慢，跟不上 AI 的节奏。想想也是，AI 模型越来越强，但我们作为发指令和审结果的人，效率就那么点。Codex 的成长之路也挺有启发的，它从最初一个超前的云端 Agent，转型成了现在大家熟悉的 IDE 插件，更贴合开发者的实际工作流，用起来门槛低多了，难怪能爆发式增长。整个对话都在强调，编码能力是构建任何 AI Agent 的核心，未来的超级助理本质上都是编码 Agent，哪怕普通用户感觉不到后台的代码在跑。OpenAI 那种‘准备-开火-瞄准’的自下而上工作模式也让人印象深刻，面对快速变化的 AI 技术，他们选择先动手干起来，从市场反馈里快速学习，而不是过度规划，这全靠团队里顶尖人才的自驱力。听完感觉，AI 正在彻底重塑软件开发的游戏规则，小团队配上好工具，爆发力可能远超想象。

24.Coding Agent 的舒适区（宝玉的分享）

最近看到Simon Willison用AI Agent把Python库JustHTML成功转成纯JavaScript库的案例，真是让人眼前一亮！原来Coding Agent在特定场景下能这么给力。文章总结出它的四大“舒适区”：跨语言代码翻译就像照葫芦画瓢，效率高得惊人；如果有完整的测试集，Agent就能自己测试、自己修正，进入良性循环；在既定架构下做填空式开发，避开了上下文限制，专注实现细节；高手操作时还能用Spec First、冒烟测试和Agentic Loop设计，把Agent潜力榨干。这些实践建议很实在，比如先找参考模板、给Agent配验证工具、设计先行再实现，对想用好AI编程工具的开发者来说，简直是及时雨！

25.#362.别再从头造 Agent 了：Anthropic 专家揭秘“Agent Skill”如何重塑 AI 协作（跨国串门儿计划）

最近听到一个特别有意思的概念叫“Agent Skill”，感觉像是给AI Agent找到了开挂的方法。现在很多AI助手虽然聪明，但一遇到税务、法律这些专业领域就露怯了，每次都要从头训练一个专业Agent，费时又烧钱。Anthropic的专家们想了个妙招：把专业知识打包成一个个标准化的“技能包”，就像给Agent安装插件一样简单。这些技能包其实就是结构化的文件或文件夹，用代码封装起来，Agent可以随时调用组合，瞬间变身领域专家。更酷的是，现在连财务、法务这些非技术背景的人都能自己动手做技能包了，把多年经验变成AI能用的工具。整个生态正在形成“Agent循环+运行时+MCP+技能库”的新架构，让AI不仅能解决垂直行业问题，还能持续学习和进化。这波操作简直是把AI协作带到了新高度，以后我们可能真的会看到人和AI共同维护一个不断成长的能力知识库。

26.4 人 28 天，85%AI 代码：揭秘 Sora Android 背后的“凡尔赛”开发法（宝玉的分享）

最近有个开发团队用 AI 搞出了点大动静，他们只用了 4 个人、28 天，就做出了一个 Sora 的 Android 客户端，而且 85% 的代码都是 AI 写的。这听起来有点“凡尔赛”，但背后的方法其实挺有启发的。他们不是简单地把需求扔给 AI 然后坐等代码，而是先由经验丰富的工程师把整个 App 的骨架和规范搭好，比如写清楚 AGENTS.md 这样的指引文件，让 AI 知道往哪个方向填充血肉。更关键的一步是，他们让 AI 先“读懂”整个系统，制定出详细的实现计划，工程师审核通过后 AI 才开始写代码，这样大大减少了返工，代码质量也上去了。还有个聪明的做法是把 iOS 的代码库丢给 AI 当参考，让它“翻译”成 Android 版本，跨平台开发效率飙升。这整个过程其实在告诉我们，未来工程师的核心能力可能不再是敲代码的速度，而是对系统的深度理解、架构设计，以及怎么和 AI 长期协作、做出有“品味”的决策。代码或许会越来越廉价，但好的设计和把控反而更珍贵了。

27.别把 AI 写代码当赌博：从 Vibe Coding 到 Vibe Engineering（硅星人Pro）

最近有个说法挺火的，叫Vibe Coding，意思就是AI生成什么代码，开发者就照单全收，感觉像在赌场里碰运气。这篇文章就狠狠批判了这种做法，认为它风险很大，容易掉进效率陷阱，最后代码质量一团糟。那怎么办呢？作者提出了一个升级版的概念——Vibe Engineering。这可不是换个名字那么简单，它强调要用工程化的方法去驾驭AI，比如给AI提供清晰的结构化上下文、设置好约束条件，还要对AI生成的代码保持怀疑精神，主动去管理和迭代。文章还聊到一个挺现实的话题：AI对不同水平的开发者影响完全不一样。初级开发者可能会觉得入口变窄了，压力更大；但对资深工程师来说，AI简直是神器，能带来10倍的效率提升，关键就在于他们知道怎么判断代码质量，知道什么时候代码“足够好”了。说到底，用好AI编程工具，需要的是一套全新的复合技能，不只是会写提示词那么简单，更得懂模型边界、会管理上下文、有技术批判能力。这或许才是未来工程师的核心竞争力。

28.深度｜大模型年终观察，如何定义 2025 年的”好模型”？（Z Potentials）

嘿，2025年的大模型世界可真是变了天！过去大家总盯着各种跑分排行榜，现在终于清醒了——光会考试没用，得能干活才行。行业正从‘选秀’转向‘找伙伴’，开源模型成了默认选项，因为灵活性和生态支持才是硬道理。最让人兴奋的是，AI已经能稳定接手真实世界的复杂任务了，不再是技术玩具，而是真正的生产工具。OpenRouter的数据显示，推理类模型调用量激增，任务长度也显著上升，这说明AI正在实实在在地提升生产力。评测标准也变得更务实了，不光看性能，还得算成本，更要参考真实使用中的反馈，全面评估模型的‘性价比’。部署方面，硬件加速和透明化定价让模型‘跑得起、用得起’，降低了应用门槛。而交付的关键在于可治理、可观测和可复现，确保AI在企业里能稳定运行，不出岔子。说到底，赢得信任的模型才能成为真正的生产力，卓越运营、可控性、安全性和可观测性将是未来竞争的核心。

29.#358.AI 时代的工程领导力：从 Meta 首席工程师到 Claude Code 创造者，Boris Cherny 的成长哲学（跨国串门儿计划）

这期播客太有料了！Boris Cherny 从 Meta 首席工程师到 Claude Code 创造者的经历，简直就是一部技术人的成长教科书。他分享的“潜在需求”原则特别启发人——原来 Facebook Marketplace 和 Dating 这些成功产品，都是通过观察用户“滥用”现有功能的方式发现的，而不是强行改变用户习惯。在大公司里，他处理跨部门协作和文化差异的经验也很实用，尤其是无头衔文化下如何持续赢得信任，靠的是实际贡献而不是职位高低。最让人兴奋的是 Claude Code 如何颠覆传统开发流程，把原本需要几十人几年的项目缩短到几个月，工程师从编码者变成了“编排者”。他对 AI 安全的深刻关注也让人敬佩，在模型发布前做严格评估，确保技术向善发展。如果你也在思考如何在 AI 浪潮中找到自己的位置，或者想提升工程领导力，这期内容绝对值得一听。

30.人工智能与自动化讽刺（第 1 部分）（宝玉的分享）

你有没有想过，当AI越来越聪明，我们人类在系统里到底还扮演什么角色？1983年就有位心理学家提出“自动化的讽刺”——越是自动化，人类越可能失去关键技能。现在大语言模型驱动的AI智能体浪潮里，这个问题又回来了。文章讲了个挺扎心的现实：让专家整天盯着AI屏幕，他们原本的实操能力会慢慢萎缩，一旦AI出问题，这些专家可能像新手一样手足无措。更麻烦的是，人很难长时间保持对低频异常的警觉，系统大部分时间都正常，偶尔的报警反而容易被忽略。把领域专家降级成单纯的监控员，不仅让他们技能倒退、地位下降，长远看还可能让下一代操作员根本学不到真本事，最后没人能真正理解或干预AI的失误。这可不是危言耸听，而是我们正在面对的真实挑战。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI讨论、领袖观点

1.Andrej Karpathy 是 OpenAI 联合创始人、前特斯拉 AI 总监，也是全球最有影响（宝玉(@dotey)）

Andrej Karpathy这位AI界的大佬对2025年大模型发展做了六点超有意思的预测，简直像在描绘一个全新的AI世界。他说训练方法要升级了，RLVR会让模型自己琢磨解题策略，不再只是模仿人类，这会让推理能力猛增。他还把AI智能比作“召唤幽灵”，说它特别“参差不齐”——有标准答案的地方厉害得不行，但常识和社交方面可能就傻乎乎的，搞得我们得重新想想那些基准测试到底靠不靠谱。应用层也浮出水面了，像Cursor这样的工具证明“LLM应用”成了新软件范式，重点在上下文工程和多模型协作，而不是担心大厂把活儿全包了。AI还在往本地跑，Claude Code就是个例子，让AI智能体在本地跟开发者一起干活，比死磕云端AGI现实多了。更酷的是“Vibe Coding”要来了，普通人用自然语言就能编程，代码变得又便宜又即用即弃，软件形态和程序员工作都得大变样。最后他预言大模型会进入“图形界面时代”，交互靠图片和动画，Google的Gemini Nano Banana已经露了苗头，这得把文本、图像和世界知识在模型里深度整合。总之，2025年的大模型可能又聪明又蠢，但潜力巨大，还有一堆事儿等着我们去探索呢！

2.#366.好莱坞之王 Michael Ovitz：从收发室到全球经纪帝国，关于卓越、好奇心与权力的实战课（跨国串门儿计划）

这期播客太有料了！好莱坞传奇经纪人Michael Ovitz亲自分享了他如何从收发室小职员一步步打造出全球最大的经纪帝国CAA。他可不是在讲那些老掉牙的成功学，而是掏心窝子地聊实战经验：为什么深度好奇心比聪明更重要？怎么识别并留住真正的A级人才？他居然从洛克菲勒那儿学到了“不提钱反而能筹到更多钱”的销售心法，这招太绝了！Ovitz还坦诚了自己那种“要么赢，要么死”的底层驱动力，从早年的生存恐惧到后来的创造激情，这种转变特别真实。最打动人的是他对诚信的坚持——在连合同都没有的创业初期，他靠不撒谎和100%透明赢得了所有人的信任。如果你也在思考怎么在快速变化的行业里保持竞争力，或者想了解顶级销售和团队管理的底层逻辑，这期内容绝对值得一听。

3.深度｜DeepMind CEO Demis: AGI 还需 5-10 年，还需要 1-2 个关键性突破（Z Potentials）

DeepMind的CEO Demis Hassabis最近在访谈中分享了对AI未来的看法，挺有意思的。他说通用人工智能（AGI）可能还要等5到10年才能实现，因为现在AI系统还缺几个关键能力，比如持续学习、长期规划这些，得再来一两个像Transformer那样的重大突破才行。不过他也挺乐观的，觉得多模态理解和智能体（Agent）会是接下来一年的重点，像Gemini这种能同时处理图像、视频、文本的模型已经让人惊艳了，未来Agent说不定真能成为生活中的万能助手。但Demis也没回避风险，他担心AI可能被滥用或者失控，强调安全问题必须认真对待，社会得提前做好准备。他还提到DeepMind能保持领先，靠的是科学方法和实证精神，不是盲目跟风，这点挺值得思考的。整体来说，这访谈既有技术展望，也有责任提醒，读起来挺有启发的。

4.Redis 之父 Salvatore Sanfilippo 的年终 AI 反思（宝玉的分享）

Redis之父Salvatore Sanfilippo在2025年末分享了他对AI发展的八条深度思考，观点既犀利又务实。他直接指出，过去那种认为大模型只是‘随机鹦鹉’的说法已经站不住脚了——模型在各种专业考试中表现超越人类，内部形成了真正的概念表征，理解能力是实实在在的。更让人兴奋的是‘思维链’这个机制，它让模型能采样自己的内部表征，结合强化学习一步步修正思考路径，最终收敛到更优答案，这简直是模型自我提升的‘秘密武器’。而‘可验证奖励的强化学习’更是打破了算力扩张的瓶颈，模型能在代码优化、数学证明等任务中通过可验证的奖励信号无限自我学习，不再依赖人类标注数据。对于程序员来说，AI辅助编程的投入产出比已经到了临界点，虽然模型还会犯错，但节省的时间远超修正成本，大家正把它当成高效‘同事’来协作。不过，Sanfilippo也敲响了警钟：AI的根本挑战已不再是技术突破，而是如何确保其强大能力不会导致‘灭绝’风险，这不再是科幻话题，未来20年的治理和控制成了最紧迫的课题。整体来看，他认为大模型的能力被普遍低估，强化学习正带来巨大可能性，但AI发展依然充满不确定性，既让人期待又让人警惕。

5.#365.风险共担与非对称性：塔勒布对话纳瓦尔，拆解真实世界的运行逻辑（跨国串门儿计划）

这期播客太精彩了！塔勒布和纳瓦尔聊透了现实世界的运行逻辑。核心就是“风险共担”——收益和风险必须对等，那些让别人承担损失、自己独占好处的行为，比如传统金融里常见的“损失社会化、收益私有化”，简直就是在耍流氓。塔勒布用自己当交易员的经历狠狠吐槽了那些脱离实际、只会空谈理论的“知识分子白痴”，真正的专家得在实践里用盈亏报表说话。他还讲了“少数派原则”，别看人数少，只要他们够坚定、不妥协，就能像洁食认证那样，硬生生把整个市场的规则给改了。比特币在这里被看作是对不公平金融体系的一次“复仇”，而且它特别能体现“反脆弱性”——不是仅仅扛住冲击，而是能从混乱里变得更强。最后，真正的美德和本事，都得靠实实在在的牺牲和成本来证明，光说不练的伪专家可得小心了。听完感觉对复杂世界的理解又深了一层。

6.Flock Safety was instrumental in finding the suspe（a16z(@a16z)）

最近布朗大学和麻省理工那起悲剧性谋杀案，嫌疑人能这么快被锁定，背后有个关键角色——Flock Safety。这家公司的技术在这次案件里帮了大忙，但更让人触动的是，过去一年他们居然协助找回了超过450名失踪儿童。这可不是简单的摄像头监控，而是通过AI驱动的车牌识别和数据分析，让执法部门能更高效地追踪线索。推文里还提到投资方a16z和一些关键人物都在力挺，看来这种技术正在成为打击犯罪的新利器。想想看，从校园安全到儿童失踪案，技术真的在让我们的社区更安全一点。

7.深度｜百亿美金 AI 独角兽 Surge AI 华裔创始人：不融资、小规模，AI 创业的另一种可能（Z Potentials）

嘿，读到一篇特别有意思的访谈，主角是Surge AI的华裔创始人Edwin Chen。这家公司四年营收突破百亿美金，居然没拿过一分钱外部融资，团队规模也不大，完全颠覆了硅谷那套烧钱扩张的玩法。他们靠的是死磕产品和技术，把数据质量做到极致，这给所有创业者提了个醒：成功不一定非得跟着主流剧本走。更让人深思的是，Edwin狠狠批评了现在AI行业的一些怪现象——大家太痴迷那些有缺陷的基准测试，或者一味追求用户点击、停留时间这些表面指标，结果模型越优化越跑偏，甚至开始生产“AI垃圾”。他觉得，AI的未来不该只是迎合人类的惰性，而应该被引导去解决真正重要的大问题，这背后需要一套更复杂、更正确的“目标函数”。他还提到，强化学习环境会是下一个关键突破点，让AI在模拟的真实任务里学会应对复杂情况。说到底，创业还是得回到初心：做只有你自己才能做出来的东西，别被风口和别人的评价带歪了。

8.喝点 VC｜a16z 的未来展望：现在 AI 不是泡沫，因为它还没破裂；只有当投入打水漂，才能确认它曾经是泡沫（Z Potentials）

a16z的专家们聊了个挺有意思的话题：现在AI到底是不是泡沫？他们的结论很直接——还不是，因为大家真在用它赚钱、解决问题。不过他们也泼了盆冷水，说纯靠软件自己进化到超级智能不太现实，还得砸钱砸算力。最扎心的可能是关于工作的部分：AI既会创造新岗位，也会淘汰旧工作，所以别只盯着学某个AI工具，多练练沟通协作这些通用技能更靠谱。还有个反直觉的观点：别看现在总说数据中心耗电，其实钱到位了，扩展起来快得很，能源根本不是长期瓶颈。数学领域可能是AI最先突破的地方，但想用它攻克癌症？还得再等等。

9.How Intelligent Is AI， Really?（Y Combinator）

最近读到一篇挺有意思的讨论，关于我们到底该怎么衡量AI到底有多聪明。现在很多测试其实在考AI的记忆力，就像让一个学生背题库，题目再难也只是重复训练过的内容。但真正的智能应该像人类那样，遇到完全没见过的新问题也能快速学会解决。ARC-AGI这个基准测试就在做这件事，它专门设计了一些AI从未接触过的任务，看系统能不能自己推理出解法。有意思的是，连现在很火的大语言模型最初在这个测试上表现也不怎么样，这反而说明ARC-AGI确实能识别出哪些进步是真正的突破。更让人期待的是即将推出的新版本，它会变成一个互动游戏，AI需要像人类一样通过尝试和反馈来学习，而且不光看最终答案对不对，还要比较AI和人类学习同样内容时消耗的数据和能源效率。当然，就算在这个测试上拿高分也不代表AI就达到通用智能了，但这确实是迈向真正智能的重要一步。

10.#361.Demis Hassabis 展望 AI 未来：从 AGI 路径、世界模型到社会变革（跨国串门儿计划）

这期播客请来了 Google DeepMind 的 CEO Demis Hassabis，聊得特别深入。他提到 AI 现在正从单纯的大语言模型转向能真正理解物理世界的 Agent AI，比如构建世界模型来弥补语言模型的局限，这对未来机器人或通用助手的发展至关重要。谈到实现通用人工智能，Hassabis 认为不能光靠堆算力，还得解决 AI 系统推理不一致、缺乏持续学习能力这些硬骨头。他特别看好 AI 在解决蛋白质折叠、核聚变这些基础科学难题上的潜力，可能带来清洁能源等颠覆性突破。但 AI 带来的社会冲击可能比工业革命还大，就业结构、经济体系甚至国际合作都得重新思考，比如全民基本收入这种设想。最后他强调，开发 AI 不能一味讨好用户，得让它有科学、友好的人格，在安全的环境里演化，避免重蹈社交媒体的覆辙。整体上，既有对技术路径的冷静分析，也有对社会变革的深远担忧，挺值得一听的。

11.深度｜谷歌前 CEO 谈旧金山共识：当技术融合到一定阶段会出现递归自我改进，AI 自主学习创造时代即将到来（Z Potentials）

谷歌前CEO埃里克·施密特最近在哈佛大学分享了对AI未来的深刻见解，他提出的‘旧金山共识’描绘了AI从语言、智能体到推理的革命路径，最终可能实现自主学习和递归自我改进——这意味着AI能像数学家一样自我进化，推动技术进入全新阶段。他警告说，这种变革堪比科学革命，人类将首次面对非人类智能竞争者，这会彻底重塑我们的经济、就业和社会结构。美中在AI领域的竞争也很有意思，美国在芯片和核心技术上有优势，而中国更擅长把AI嵌入万物、快速落地应用，未来竞争会围绕整个生态系统展开。AI生成代码的能力已经让每个开发者都像拥有了超级计算机和顶尖程序员，这既带来效率革命，也带来网络安全风险。面对这些挑战，施密特强调我们必须坚守人类主体性，加强教育和批判性思维，才能在AI时代保持主导权，防止技术被滥用。

12.Sahil Bloom’s Annual Review used by the top 1.7% of founders（Greg Isenberg）

如果你觉得新年计划总是半途而废，那可能是因为缺少一个真正有效的复盘框架。Sahil Bloom提出的七个问题，正是帮你从过去一年中挖出宝藏的钥匙。这套方法不只是问“明年要做什么”，而是先让你看清2025年到底发生了什么：哪些想法发生了转变？什么让你充满干劲，什么又悄悄吸走你的能量？更重要的是，它帮你揪出那些拖后腿的“船锚”——可能是某个自我设限的念头，或是段消耗精力的关系。很多人卡在恐惧面前不敢行动，但恐惧往往只是纸老虎，拆解它、分析利弊，反而能带来清晰的方向。别忘了盘点自己最闪光的成功和最痛的失败，背后的原因才是真正的成长养料。最后，把这一年学到的经验教训浓缩成几条，它们会成为2026年最实用的行动指南。整个过程就像给自己的生活做一次深度体检，用结构化的反思取代模糊的决心，让改变真正发生。