Vol.70 AI领域精选文章总结：从GTM策略到智能体应用与前沿技术

第一时间捕获有价值的信号

⼤家好，Weekly Gradient第 70 期已送达，本期内容精选多篇AI领域深度文章，涵盖AI初创公司GTM策略、生成式AI对企业生产力的影响、AI用户研究变革、多模态模型技术突破、AI编程效率提升、智能体应用实践等核心主题，全面解析AI技术发展趋势与商业应用前景。

AI 商业化

聚焦AI行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM策略、SaaS转型等商业分析

1.未来 AI 初创公司，生死胜负手在「GTM」｜对谈矩阵魔方创始人孤山（十字路口Crossing）

最近和矩阵魔方创始人孤山聊了聊，发现AI初创公司现在真是面临前所未有的增长挑战。传统那套增长地图在AI领域基本失灵了，品类变化快得吓人，窗口期短到让人喘不过气，技术出身的创始人又普遍不懂营销，简直是雪上加霜。不过孤山提出了个很有意思的方法论——‘版本即事件，品类定生死’，意思是要通过刷屏级的首发和周期性大版本更新，快速抢占用户心智。他们公司还搭建了个GTM for AI的生态系统，把媒体、营销、分发平台都整合起来，让AI应用出海变得简单多了。最实用的是他分享的那些传播技巧，比如找科技明星带货，还有把产品定位浓缩到6个单词以内，这些实操建议对正在创业的朋友们应该很有启发。

2.警惕“AI工作垃圾”：生成式AI如何摧毁企业生产力与协作（宝玉(@dotey)）

最近有个挺扎心的发现：公司里AI工具用得越多，大家反而越忙了。原来员工们把AI当成了甩锅神器，生成一堆看起来漂亮但没啥实际内容的‘工作垃圾’，然后让同事来擦屁股。每收到一份这样的AI垃圾，平均要花近2小时去处理，算下来每人每月浪费186美元，万人员工的公司一年就损失900多万美元！更糟的是，这种操作直接伤害了团队信任——大家开始互相怀疑对方的能力。MIT和斯坦福的研究都证实了这点。好在文章给出了几个实在的建议：别搞一刀切的AI强制令，要培养主动用AI解决问题的‘飞行员’，而不是逃避工作的‘乘客’，还得建立支持协作的人机互动规矩。

3.AI X 用户研究：能并行千场访谈的“超级研究员”，正重塑产品决策的未来（海外独角兽）

最近看到一篇关于AI如何彻底改变用户研究的文章，真的让人眼前一亮！传统用户研究总是要在深度和速度之间做痛苦的选择，要么花几周时间做深度访谈，要么快速但浅尝辄止。现在AI驱动的用户研究工具可以同时进行上千场访谈，把几周的工作压缩到几小时完成，而且还能保持研究的深度和规模。更厉害的是，整个行业正在从卖工具转向卖洞察，市场规模估计达到200亿美元。人类研究员也不用担心失业，他们的角色正在从执行者升级为战略家，专注于更高价值的战略规划和创意驱动。像Listenlabs、Outset这些头部公司正在重新定义这个领域，未来还可能通过专有知识网络实现更大的价值跃迁。这波AI浪潮正在实实在在地重塑产品决策的未来！

4.Z Product｜Product Hunt 最佳产品（9.15-21），一站式数据爬虫和可视化 AI 工具登顶（Z Potentials）

这周 Product Hunt 的热门榜单简直是一场 AI 效率工具的盛宴！Capalyze 这种一站式数据爬虫和可视化工具登顶，说明市场对智能数据处理的需求有多旺盛。你看，现在连非技术人员都能用 Blocks、CodeWords 这样的无代码平台快速搭建应用，AI 真的把技术门槛打下来了。榜单上从视频创作到项目管理，清一色都在用 AI 简化复杂任务，这种全行业效率升级的势头太猛了，感觉每个领域都在被 AI 重新定义工作方式。

5.#243. 人工智能与其他技术浪潮有何不同？（跨国串门儿计划）

这期播客太精彩了！OpenAI 董事会主席 Bret Taylor 和前 Google 高管 Clay Bavor 聊了个特别有意思的话题：AI 到底是一场颠覆世界的革命，还是只是更好的软件？他们提出了个震撼的观点：AI 正在把智能从稀缺变成充足，就像当年电力和食物的普及一样，这会彻底改变我们的社会经济结构，甚至挑战我们人类对自己的认知。最酷的是他们预测智能体将成为 AI 时代的新范式，就像互联网时代的网站和移动时代的应用，这些能自主工作、具备推理能力的数字实体将成为我们和企业互动的主要方式。他们还分享了自家公司 Sierra 的颠覆性商业模式——按结果付费，只有 AI 智能体真正解决了客户问题才收费，这和传统 SaaS 完全不同，把供应商和客户的利益深度绑定在一起。两位大佬还给了个特别实用的建议：应用型 AI 公司千万别自己建基础模型，投资太大还贬值快，应该专注于整合利用最好的模型来创造卓越的用户体验。听完真的让人对 AI 的未来充满期待，也明白了为什么这次的技术浪潮如此不同。

AI 产品设计

探索AI原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent设计等

1.「OK Computer」，Kimi Agent 模式开启内测（月之暗面 Kimi）

Kimi大模型这次真的放大招了！新推出的Agent模式‘OK Computer’已经开始内测，这可不是普通的AI助手，它能通过多轮深度推理和调用20多种工具，把复杂任务从头到尾自动搞定。想象一下，你只需要描述需求，它就能化身项目经理、产品经理、设计师、前端工程师，从需求调研到产品方案、交互设计、前端开发全部包办，直接交付多页面网站原型、移动端Web应用和高品质演示文稿。文章里展示了三个超实用的案例：宠物网站开发、财经数据可视化分析、电影主题PPT制作，每个都让人眼前一亮。最厉害的是它采用原生Agent架构，通过端到端强化学习训练K2模型，熟练掌握了文件系统、浏览器、终端、代码、图片音频生成等工具，能灵活应对各种突发情况。虽然现在算力需求比较大还在灰度测试，但这绝对是让普通用户也能成为全栈知识工作者的革命性突破，感觉AI真的要开始真正理解并执行复杂任务了！

2.OpenAI推出ChatGPT Pulse：从被动问答到主动预测的AI助理（宝玉(@dotey)）

OpenAI这次真的玩出了新花样！ChatGPT Pulse不再是那个只会被动回答问题的AI，它现在能主动出击了——在你休息时默默分析聊天记录、个人资料、日历和文档，预测你的需求，第二天早上直接送上量身定制的资讯卡片或行动建议。Sam Altman把它比作私人秘书，实际体验也确实惊艳：有人收到实用建议，有人被贴心跟进，还有人发现意想不到的信息组合。目前只有Pro用户能尝鲜，但这一步已经让AI助理从工具变成了真正的智能伙伴，感觉科幻片里的场景正在变成现实。

3.Qwen3-Omni：一个模型，全能不偏科（通义大模型）

阿里通义这次推出的Qwen3-Omni真的让人眼前一亮！它用创新的Thinker-Talker架构解决了全模态模型的老大难问题——多模态能力一集成，性能就下降。Thinker模块专门负责深度语义理解，Talker模块专注流式语音生成，两者配合得天衣无缝，真正做到了音视频能力强劲的同时，文本和图像单模态性能丝毫不打折扣。测试结果更是惊艳，36项音视频基准测试中32项都是开源模型最佳，22项达到业界顶尖水平。最实用的是它的实时交互能力，端到端音频对话延迟只有211毫秒，支持119种文本语言、19种语音输入和10种语音输出，还能理解长达30分钟的音频内容。对于开发者来说，系统提示词和工具调用功能让定制变得特别灵活，还有轻量版和专门的开源模型可选，上手门槛大大降低。这绝对是全模态AI领域的一次重大突破！

4.【案例】Gamma：30 人，一年赚 5000 万美元，用 AI 重塑 PPT（AI炼金术）

Gamma 这个案例太有意思了！一个只有 30 人的团队，一年就能做到 5000 万美元收入，关键就在于他们用 AI 重新定义了做 PPT 这件事。他们特别聪明地选择了解决“从 0 到 60 分”的需求，而不是追求极致完美，让 AI 快速生成及格线的作品，大大降低了用户的心理负担。更厉害的是他们提出的“原子化设计”理念，把传统的幻灯片打散成灵活的卡片，内容和形式完全分离，这样一份内容就能轻松输出横屏演示、竖屏图文甚至交互式网页，彻底打破了传统媒介的限制。他们的增长模式也很巧妙，用户在使用过程中体验到 AI 的魔力后，自然就想分享自己的作品，通过网页链接传播，形成了一个自我加速的增长飞轮。这确实给 AI 产品开发者提供了很好的启发：找准痛点、降低门槛、重新定义产品形态，产品本身就是最好的营销。

5.【洞见】80000 家公司的 AI 实践：未来产品是活的，组织架构将消亡（AI炼金术）

微软AI高管的洞见太震撼了！未来的产品不再是冷冰冰的工具，而是会学习进化的活有机体，核心竞争力变成了培养产品的思考能力。大模型竞争的重点也变了，不再盲目追求规模，而是转向精调和强化学习，这才是真正实用的路径。最颠覆的是人机交互方式，图形界面要被代码原生界面取代，用自然语言就能自由组合产品功能，简直像魔法一样。AI代理崛起后，重复性工作将被接管，人类专注创造性任务，组织架构也会从固定职位变成动态工作流，这波变革真的会彻底重塑我们的工作方式。

6.对话 Plaud 莫子皓：你还记得 PMF 的感觉吗？（Founder Park）

Plaud 这家公司真的挺有意思的，他们做的 AI 录音卡片在全球卖出了上百万台，年收入都过亿美金了。最厉害的是他们找到了那种完美的产品市场契合感，不是单纯靠技术，而是把产品定位成用户线下场景的传感器。他们的 AI 能通过一键标记功能捕捉你的意图，然后用大模型的超长记忆和多角度思考能力，从对话里挖出连你自己都没意识到的深层价值。现在他们直接把产品升级成了“工作伙伴”，专门服务那些语言交流多、专业知识深、决策影响大的用户群体。更酷的是，他们还在探索让 Agent 在用户的使用环境中自主进化，甚至允许一些“幻觉”来激发创新。背后支撑这一切的是他们强大的软硬结合能力，毕竟团队有搜狗录音笔和龙旗的背景，对 AI Native 硬件的理解特别独到——就是那种没大模型根本用不了的产品。

7.Nano Banana 核心团队：图像生成质量几乎到顶了，下一步是让模型读懂用户的 intention（Founder Park）

Nano Banana团队最近有个挺有意思的观点：图像生成质量差不多到天花板了，现在最大的挑战是让AI真正理解我们想要什么。他们发现用户经常面对空白画布不知道从何下手，这其实是个产品设计问题。未来AI图像工具会变得更聪明，能结合语言模型的世界知识来处理复杂需求，甚至变成信息查询工具。最让人期待的是，模型会通过对话了解每个人的审美偏好，实现深度个性化，而不是让所有人都用同一个模板。图像和视频技术也会融合成通用模型，但传统专业工具依然有存在的价值，毕竟精细调整还是需要专业软件。

AI 工程实践

涵盖AI系统技术实现与场景化开发的全流程，包含工程架构、工具链实践、提示工程等核心技术环节

1.适用所有团队研发提效｜带你 1 分钟上手基于 Claude Code 的 AI 代码评审实践（阿里云开发者）

最近看到个超实用的AI代码评审方案！直接把Claude Code集成到阿里云AONE平台，让AI自动帮你审代码。以前人工评审太耗时，AI工具又经常误报，现在这个方案把代码变更分成未分析、部分分析和重审三个层次，还能用多个Claude实例并行处理，据说能提效50%以上，长期甚至能达到80%。最棒的是提供了现成的流水线模板，配置一下就能用，团队上手特别快，还能发现人工容易忽略的潜在问题。

2.Networking at the Heart of AI — @Scale: Networking 2025 Recap（Engineering at Meta）

最近参加了一场超硬核的网络技术会议，发现AI的飞速发展背后，网络基础设施正在经历一场革命！各大科技巨头都在分享他们的实战经验——从Meta的吉瓦级集群到跨大西洋光纤，原来AI训练和推理对网络的要求这么苛刻。最让我震撼的是，网络现在扮演着关键抽象层的角色，把复杂的底层硬件包装成一个统一的“超级计算机”，让AI模型能够专注运算而不被基础设施拖累。工程师们强调，必须把网络和AI技术栈深度协同设计，从网卡到路由都要精心调校，才能支撑起混合专家模型、分布式推理这些新兴任务。看来，想要跟上AI的进化速度，网络技术也得持续创新，把高性能计算和分布式系统的优势都融合进来才行。

3.如何将 AI 代码采纳率从 30%提升到 80%？（阿里云开发者）

你有没有遇到过让 AI 写代码，结果生成的东西完全跑偏的情况？这背后其实有深层原因：信息不对称让 AI 搞不清业务背景，任务太复杂它根本处理不了。好消息是，现在有了一套系统性的解决方案！通过建立分层文档体系，AI 能真正理解你的项目上下文；把复杂需求拆解成小任务，AI 就能精准输出可用代码。更关键的是要记住：AI 没有中期记忆，每次都要给它精准的上下文；开发者必须对 AI 生成的代码负责，把它当成结对编程的伙伴来对待。这套方法已经在实践中证明，能把 AI 代码采纳率从 30% 提升到 80%，大幅降低维护成本，让开发效率真正起飞！

4.前端工程化演进之路：从手工作坊到 AI 驱动的智能化开发（阿里云开发者）

前端开发这二十年变化太大了！从最早用记事本写HTML、FTP传文件的原始时代，到现在AI辅助写代码的智能化开发，简直像坐上了火箭。记得jQuery刚出来时大家多兴奋吗？它统一了浏览器API，让前端开发终于有了标准。后来Node.js、Grunt/Gulp这些工具让前端真正进入了工程化时代，再后来Webpack一统江湖，React、Vue这些框架让组件化开发成为主流。现在更厉害了，GitHub Copilot、ChatGPT这些AI工具直接帮我们写代码、设计解决方案，前端开发正在被AI彻底重塑。性能优化也从早期的经验技巧变成了数据驱动的科学方法。整个前端领域从混沌走向秩序，现在又迈向了AI驱动的智能化新阶段，想想都觉得激动！

5.CC&LG 实践｜基于 LangGraph 一步步实现 Claude-Code 核心设计（阿里云开发者）

哇，这篇文章真是把Claude-Code的设计精髓给拆解得明明白白！它手把手教你如何用LangGraph从最基础的ReAct Agent开始，一步步搭建出功能完整的简版Claude-Code。LangGraph这个框架确实厉害，通过状态机、图节点和工具的组合，能轻松管理复杂流程，让Agent开发变得模块化又可控。特别欣赏它把规则驱动和LLM驱动融合的设计思路，这样既保持了Agent的自主性，又能确保系统的可靠性。人机协同那块也很实用，中断机制和检查点持久化让用户能随时介入审查，LLM还能动态决定什么时候需要人工帮忙。多Agent架构更是把复杂任务拆解得明明白白，每个SubAgent专注自己的领域，最后智能合成结果，处理多步骤任务简直不要太高效！

6.私域知识工程实战：如何让 AI 一次性写出高质量代码？（阿里云开发者）

你有没有遇到过AI写代码的尴尬时刻？明明功能都实现了，但就是不符合项目规范，还得花大把时间修修改改。这就是典型的‘80分困境’——AI技术很强，但不懂你的业务细节。好消息是，现在有个解决方案叫‘私域知识工程’，就像给AI做入职培训一样，先建立专属知识库教它项目架构和业务规则，再用专家级提示词让它一次性写出符合规范的代码。最棒的是这个知识库还能自动更新维护，让AI越用越聪明。实践数据显示，这套方法不仅让代码质量大幅提升，还能把开发者从反复调教AI的苦差事中解放出来，真正实现甩手掌柜式的智能编程。

7.腾讯混元图像 3.0 正式开源发布！80B，首个工业级原生多模态生图模型（魔搭ModelScope社区）

腾讯刚刚开源了一个重磅产品——混元图像3.0，这可是个80B参数的大家伙，而且是业界首个工业级的原生多模态生图模型！最厉害的是它完全免费开放，效果直接对标那些收费的头部闭源模型。这个模型最特别的地方在于它的’原生多模态’架构，不是简单地把不同功能拼在一起，而是真正在一个统一框架下处理文字、图片、视频和音频，这让它具备了很强的常识推理能力，能深度理解复杂的语义和用户意图。实际用起来效果真的很惊艳，不仅能生成高质量、有美感的图片，还能准确处理长文本指令和图片里的小文字，这在以前可是很多模型的痛点。看看那些月全食漫画、时尚穿搭分解的案例，就能感受到它在内容创作和效率提升上的巨大潜力。现在已经在GitHub、HuggingFace这些平台开源了，还提供了在线体验和提示词手册，对开发者和创作者来说简直是福音，上手门槛大大降低。

8.Video models are zero-shot learners and reasoners（Simon Willison’s Weblog）

最近看到谷歌DeepMind的Veo 3视频模型真的让人眼前一亮！这些生成式视频模型正在成为机器视觉领域的通用基础模型，就像大型语言模型在文本领域那样。最神奇的是它们具备零样本学习能力，能解决从未专门训练过的视觉任务，还通过‘帧链’实现了早期形式的视觉推理——在生成的视频帧中跨时空操纵元素，一步步推理，简直就像给机器装上了视觉思维链条。虽然现在运行成本还比较高，但想想LLM的发展轨迹，价格下降是迟早的事。这波技术进步正在重新定义机器视觉的可能性，感觉我们离真正智能的视觉系统又近了一大步！

9.腾讯混元 3D 开源+2：瞄准游戏建模、3D 打印痛点（腾讯混元）

腾讯刚刚开源了两款超厉害的3D生成模型，感觉要彻底改变3D内容创作的游戏规则了！Hunyuan 3D-Omni被称作3D界的ControlNet，它最酷的地方是能用骨骼、点云、边界框等多种方式输入，让生成的3D模型在几何结构和姿态上都特别精准，再也不怕生成出来的东西歪歪扭扭了。另一个Hunyuan 3D-Part专门解决模型组件拆分的问题，能把复杂的3D模型拆成一个个可编辑的部件，这对游戏建模和3D打印来说简直是神器。最棒的是这两款模型都完全开源免费，开发者们可以随便用，这波操作绝对能大大加速3D生成技术的实际应用落地。

10.Improved Gemini 2.5 Flash and Flash-Lite（Simon Willison’s Weblog）

Google刚刚给Gemini 2.5 Flash和Flash-Lite来了个大升级，这次更新真的挺实在的。Flash-Lite现在更懂人话了，指令执行精准度提升明显，而且输出内容不再啰嗦，直接帮你省下不少token成本，音频转录和图像理解能力也同步增强。Flash版本在复杂应用场景下表现更亮眼，自主使用工具的能力提升了5%，用更少的token就能生成更高质量的结果。最让人惊喜的是推理模式带来的效率飞跃，Flash-Lite输出token直接砍半，速度比之前快了40%，这种实实在在的性能提升对开发者来说太友好了。现在用gemini-flash-latest这样的模型ID就能轻松调用最新版本，Simon Willison的llm-gemini库也已经同步更新，上手就能用。

11.Gemini Robotics 1.5 brings AI agents into the physical world（Google DeepMind Blog）

谷歌DeepMind这次真的把AI带进了现实世界！他们推出的Gemini机器人1.5和ER 1.5就像是给机器人装上了大脑和手脚——ER 1.5负责高级规划和逻辑决策，还能调用Google Search等工具，而1.5则把这些计划变成具体的动作指令。最厉害的是机器人现在学会了‘先思考再行动’，不仅能解释自己的推理过程，还能在不同形态的机器人之间快速转移学到的技能，这简直是机器人学习能力的一大突破。测试结果显示它们在空间理解和具身推理方面表现卓越，而且谷歌还特别强调了安全措施，发布了升级版的ASIMOV基准来确保语义安全。感觉我们离真正智能的通用机器人又近了一大步！

12.YouTube视频转深度博客文章的AI提示词：重塑思想而非搬运文字（宝玉(@dotey)）

最近看到一条特别实用的推文，分享了一个专门为AI设计的提示词，能把YouTube视频变成有深度的博客文章。最打动我的是它的核心理念——不是简单搬运视频里的文字，而是真正重塑思想，让AI以独立创作者的口吻来写。这个提示词设计了完整的五步流程：从起个吸引人的标题开始，到开篇引入，再到主体论述、升华提炼，最后来个有力的结尾。特别强调要用流畅的叙事风格，避免枯燥的项目符号，还要对核心思想进行深度挖掘和抽象提炼。感觉这个思路很对，毕竟现在AI生成内容最大的问题就是缺乏灵魂，而这个方法正好解决了这个问题，能产出既易懂又引人深思的高质量内容。

13.腾讯自研 FastMTP 重磅开源：推理速度暴涨 203%，消费级显卡也能跑出无损速度翻倍！（魔搭ModelScope社区）

腾讯这次开源的FastMTP技术真是让人眼前一亮！它巧妙地把投机解码和多Token预测结合起来，专门解决大语言模型生成速度慢的老大难问题。最厉害的是他们做了三项核心优化：用共享权重的单MTP头大幅节省内存，还能让模型学会长距离依赖；通过自蒸馏训练让草稿预测更准确，跟主模型输出高度对齐；再加上语言感知动态词汇压缩，进一步降低计算量。实验结果太惊艳了，推理速度平均提升2.03倍，在数学推理和代码生成这些结构化任务中效果更明显，而且完全不损失输出质量。这意味着我们以后在消费级显卡上也能跑出专业级的性能，对开发者来说简直是雪中送炭！

14.你们催更的模型，云栖大会一口气全发了！（通义大模型）

阿里云栖大会这次真是放大招了！一口气发布了七款通义系列大模型，从文本、图像到语音、视频，几乎把AI能覆盖的场景都包圆了。最让人兴奋的是Qwen MAX这个万亿参数的大家伙，在代码生成和数学推理上直接冲到了国际领先水平，写代码再也不用愁了。还有Qwen3-Omni这个全模态模型，音频识别和图像理解能力全面超越竞品，开车时语音操控导航、看视频自动分析内容都不在话下。最实用的是通义百聆，专门解决企业语音识别的老大难问题，把误识别率从接近八成降到了一成左右，金融客服、在线教育这些场景用起来就靠谱多了。这些模型都已经上线，想用的话直接部署或调用API就行，感觉AI真的要进入普及时代了！

15.AI辅助编程效率实测与软件工程师工作方式变革（宝玉(@dotey)）

哇，这篇推文真的把AI编程工具的实际效果讲透了！作者亲测了Codex、GitHub Copilot这些工具，发现它们能让开发效率翻倍——从修小bug到写测试代码，甚至解决复杂算法问题，AI都能帮上大忙。不过想用好这些工具，你得有扎实的代码基础和技术管理经验，还得会写提示词、设计AI友好的代码架构。这让我觉得，未来软件工程师不仅要懂代码，还得学会和AI协作，工作方式真的要彻底改变了。

16.GPT-5-Codex（Simon Willison’s Weblog）

OpenAI终于把GPT-5-Codex的完整API放出来了！之前只能在命令行里用，现在开发者们可以更灵活地集成这个专业编码模型了。最让人兴奋的是缓存输入token能享受90%的折扣，这对需要频繁调用的Agentic工作流程简直是成本救星。这个模型特别有意思，它内置了很多编码最佳实践，所以开发者不需要写冗长的提示词，‘少即是多’才是正确用法。更厉害的是，连它自己的工具支持都是GPT-5 Codex自己生成的，这种自举能力真的很酷。测试结果也让人惊喜，不仅能处理代码，还能准确描述图像内容，比如那个鹈鹕骑自行车的例子，说明它的能力范围比我们想象的更广。

17.Chrome DevTools MCP 协议：AI 智能体实现网页调试新突破（宝玉(@dotey)）

太棒了！Chrome DevTools 刚刚发布了模型上下文协议，这可是解决了AI编程助手在网页开发中的一个大痛点。以前AI只能写代码却看不到运行效果，现在通过MCP协议，AI智能体可以直接使用Chrome DevTools进行调试、性能分析、模拟用户操作、诊断网络错误，还能实时检查样式。这意味着网页开发效率会大幅提升，问题定位也更准确了。推文里还贴心地提供了安装方法和具体的使用提示词示例，让人能马上上手体验。最让人兴奋的是，MCP作为开源标准，展现了连接大语言模型和外部工具的无限潜力，这绝对是网页开发工具的一次重大升级！

18.LongCat-Flash-Thinking 正式发布，更强、更专业，保持极速！（魔搭ModelScope社区）

美团LongCat团队刚刚发布了全新的LongCat-Flash-Thinking模型，这绝对是开源AI领域的一个重磅消息！这个模型在保持闪电般推理速度的同时，专业能力得到了质的飞跃，在逻辑推理、数学计算、代码编写和智能体任务等多个复杂领域都达到了全球顶尖水平。最令人兴奋的是它融合了深度思考与工具调用、非形式化与形式化推理的独特能力组合，这可是国内首个具备这种全方位推理能力的模型。背后的技术支撑同样硬核，领域并行强化学习让模型能力稳步提升，DORA系统实现了三倍训练加速，还有双路径智能体框架和专家迭代形式化推理框架，这些创新技术共同打造了一个真正能解决复杂问题的AI大脑。在ARC-AGI、HMMT、LiveCodeBench这些权威测试中，它的表现甚至能媲美顶尖闭源模型，现在完全开源，对AI开发者和研究者来说真是个好消息！

19.Alibaba Releases Qwen3-Next-80B-A3B with Enhanced Long-Context Inference（DeepLearning.AI(@DeepLearningAI)）

阿里巴巴刚刚发布了重磅开源模型Qwen3-Next-80B-A3B，这可是个800亿参数的大家伙！它采用了混合专家架构，最厉害的是用Gated DeltaNet和门控注意力机制替换了传统注意力层，让长文本处理速度大幅提升。这个模型基于Apache 2.0开放许可，提供了Base、Instruct和Thinking三个版本，训练数据来自Qwen3数据集的15万亿token子集，还用了GSPO进行微调。最让人兴奋的是它支持262,144个token的超长上下文，而且还能通过修改支持更长的输入，这在处理长篇文档或复杂对话时简直太实用了。这次发布绝对是开源大模型领域的一大突破，特别是对那些需要深度理解长文本的应用场景来说，意义重大！

20.Four new releases from Qwen（Simon Willison’s Weblog）

Qwen这次真是火力全开啊！一天之内发布了四个重磅模型，感觉AI应用的门槛又被拉低了一大截。最让人兴奋的是那个300亿参数的Qwen3-Omni，不仅能处理文字，还能直接玩转音频和视频，这种全模态能力简直是为下一代AI应用量身定制的。而且他们还贴心地推出了FP8量化版本，把模型体积直接砍半，从163GB降到82GB，这下普通开发者也能轻松跑起来了。语音合成和图像编辑也都有大升级，特别是图像编辑现在支持多图输入，创作空间更大了。最棒的是这些模型都开源，Apache 2.0许可证让所有人都能自由使用，这种开放态度真的很赞！

21.DeepSeek-V3.1 版本更新（DeepSeek）

DeepSeek-V3.1这次更新真的挺实在的，直接升级到了Terminus版本，重点解决了大家反馈最多的语言一致性问题。现在模型输出中英文混杂和异常字符的情况明显减少了，用起来顺手多了。Code Agent和Search Agent的能力也进一步优化，在代码生成和信息检索方面表现更稳定。好消息是这些更新已经同步到官方App、网页端、小程序和API了，还在HuggingFace和ModelScope上提供了开源下载，想体验新版本的朋友可以直接去试试看。

22.Vol.71｜对谈胡渊鸣：AI 走进三维世界，最需要的是什么？（开始连接LinkStart）

这期对谈太精彩了！胡渊鸣从开源编程语言太极到创立Meshy的创业历程，简直就是AI 3D领域的进化史。AI 3D生成技术经历了从多视角重建到稀疏扩散模型的突破性发展，现在用Meshy几分钟就能生成一个3D模型，成本从几千美元降到1美元，这简直是游戏开发者和创意工作者的福音啊！更让人感动的是，这项技术还帮助意外失去建模能力的建模师重拾职业。不过AI原生游戏和世界模型虽然前景诱人，但算力需求和游戏趣味性仍是巨大挑战。胡渊鸣还分享了AI创业团队需要务实坦诚、快速迭代的文化，以及招聘时看重的SMART、HUNGRY、HUMBLE、CLEAR人才特质，这些经验对正在AI领域打拼的团队来说太有参考价值了。

23.Prompt：Transcribes YouTube videos (from a URL) or uploaded local videos into a structured， formatted text complete with speaker labels and timestamps（宝玉的分享）

最近看到一个特别实用的AI提示词，专门用来把YouTube视频或本地视频转成格式工整的文字稿。这个提示词设计得相当细致，要求AI逐字逐句转录，不翻译原文，还要准确识别不同说话人——优先看视频元数据，不行就靠听声音判断。更厉害的是，它会根据视频内容灵活生成章节，输出时严格规范时间戳格式、自动生成目录，章节标题和对话段落都排得清清楚楚。这种高度结构化的转录结果，读起来特别顺畅，也方便后续分析使用。不得不说，这个案例充分展示了精心设计的提示词能让AI完成多么复杂的任务，真是把提示词工程玩出了新高度！

24.组织能力才是 AI 公司真正的壁垒｜42 章经（42章经）

最近看到一篇挺有启发的分享，讲的是AI公司怎么打造真正有竞争力的组织能力。核心观点很直接：技术本身可能很快被复制，但高效的组织体系才是真正的护城河。文章详细拆解了三个关键维度——工作流、人才和组织。工作流上，主张默认让AI承担所有研发任务，人类只在AI搞不定时补位，这种思维转变能带来10倍以上的效率提升，还分享了Code Review、代码生成等具体环节的AI提效方法。人才方面，未来工程师的角色会彻底转变，不再是传统技能专精，而是要成为AI的“Context Provider”、快速学习者和动手建造者，核心价值在于提供高质量上下文、快速掌握知识并与AI高效协作。组织形式也要从“按流程分工”转向“按结果分工”，让工程团队对完整业务结果负责，减少中间环节损耗，快速构建60分版本加速产品迭代。更前瞻的是，文章预测未来组织形态可能是“少量核心合伙人+大量灵活合同工”，既留住高价值人才，又保持组织弹性。这些实践不仅适用于初创公司，对大厂转型也有参考价值，确实让人对AI时代的组织进化有了更具体的想象。

25.YouTube Video -> Blog Post Prompt (Gemini Only)（宝玉的分享）

这个提示词设计得真巧妙，它教会AI如何把YouTube视频变成有深度的博客文章。核心思想是让AI不要简单搬运视频内容，而是要真正理解视频的精髓，然后用全新的视角重新组织表达出来。文章结构设计得很讲究，从吸引人的标题开始，到引人入胜的开头，再到逻辑清晰的主体论述，最后还要提炼出核心框架和思维模型，让读者获得认知上的提升。写作风格要求用流畅的散文体，避免使用项目符号，通过优雅的过渡词串联逻辑，读起来就像专业创作者写的一样自然。这种系统化的提示词设计，确实为AI生成高质量内容提供了实用的指导方案。

26.麦肯锡调研了 50 个一线 AI 智能体的项目总结出来的六条经验（宝玉的分享）

麦肯锡这份调研太实用了！他们研究了50多个AI智能体项目后发现，成功的关键根本不是技术本身，而是要把整个工作流程重新设计一遍。智能体不是万能的，得根据任务特点选择合适方案——变化大、标准化低的工作才适合用智能体。最有趣的是要把智能体当新员工培养，持续培训监控，不然很容易产出‘AI垃圾’。他们还建议把常用功能模块化复用，能省下30%-50%的重复开发工作。最后强调人类角色反而更重要了，现在要做的是监督判断和创造性解决问题，实现真正的人机协同。这些经验都是企业避开陷阱、让AI真正创造价值的关键。

27.18 年 SEO 增长经验专家：别再收藏各种 AEO 最佳攻略了，自己动手实验才是做好的关键（Founder Park）

读完这篇来自18年SEO老兵的分享，真是有种豁然开朗的感觉！原来答案引擎优化的核心不是收藏各种攻略，而是自己动手做实验验证。AEO和传统SEO在头部和尾部策略上差异明显：头部需要多渠道提及来增加曝光，尾部则要专注回答那些具体又小众的长尾问题。最让人兴奋的是，优化RAG层居然是见效最快的方式，关键是要提供真正有价值的信息增益，让AI觉得你的内容值得引用。Reddit这类真实社区现在成了AI的重要信息来源，但得用真诚的方式参与，而不是制造垃圾内容。最警醒的是，100%纯AI生成内容真的是死路一条，会导致模型坍塌和群体智慧丧失，未来应该是AI辅助人类创作，而不是完全取代。说到底，做AEO就是要理解底层逻辑，然后不断测试验证，这才是真正的制胜之道。

28.为 OpenAI 秘密提供模型测试， OpenRouter 给 LLMs 做了套“网关系统”（海外独角兽）

最近发现一个很有意思的平台叫 OpenRouter，它就像是大模型世界的“网关系统”，用一个统一的 API Key 就能调用市面上各种主流模型。这解决了开发者最头疼的几个问题：不用再为不同模型的 API 格式发愁，也不用担心某个供应商突然宕机影响业务，还能根据价格、时延等需求自动选择最合适的模型。更厉害的是，它发布的模型用量报告已经成为行业风向标，连 OpenAI 都偷偷用它来测试 GPT-4.1 这样的新模型。创始人 Alex Atallah 认为大模型市场不会一家独大，开发者应该拥有完全的控制权。未来 OpenRouter 还想成为 Agent 的最佳推理层，集成记忆、网页搜索等功能，让开发者能自由切换模型而不被绑定。这确实是个很实用的基础设施，感觉对做 AI 应用的人来说帮助会很大。

29.当 AI 编程告别「拨号上网」时代，会发生什么？（宝玉的分享）

最近看到一篇挺有意思的分析，把现在用 AI 编程的体验比作当年的拨号上网——慢吞吞还老掉线。原来背后是 AI token 使用量爆炸式增长，把基础设施压得喘不过气，导致服务不稳定，token 生成速度只有 30-60 tok/s，确实挺影响效率的。不过文章也描绘了一个挺让人期待的未来：当 token 生成速度飙升到 2000 tok/s，AI 编程就能进入无监督、并行尝试并自动评估的全新模式，开发者可以同时跑多个实例去试错，复杂任务处理效率会大幅提升。这意味着软件工程师的工作方式要彻底改变了，得从盯着 AI 干活转向更自主的工作流。而且 AI 服务商可能因为算力限制，在高峰期搞错峰定价之类的商业模式。感觉咱们都得保持好奇心，早点适应这些变化才行。

30.AI 炮制的“工作垃圾”，正在摧毁你的生产力（宝玉的分享）

最近发现一个挺扎心的现象：大家兴冲冲地用AI工具想提高效率，结果反而制造出一堆表面光鲜但内容空洞的‘工作垃圾’。这些AI炮制的东西看着挺像样，实际上毫无价值，还逼着同事花额外时间去解读、修改甚至重做。调查显示，40%的员工上个月就收到过这种垃圾，平均每件要浪费近2小时，算下来一个万人大公司每年损失几百万美元。更糟的是，这不仅烧钱，还伤感情——收到垃圾的同事会觉得你能力不行、不靠谱，团队信任直接打折扣。所以文章提醒企业别搞‘一刀切’强制用AI，得制定明确使用规范；鼓励大家像飞行员那样主动驾驭AI，把它当协作工具增强创造力，而不是偷懒的捷径。说到底，AI用对了是神器，用错了就是坑队友啊。

31.AI 真的会写 90% 的代码了（宝玉的分享）

最近看到一篇挺有意思的文章，说AI现在能写90%的代码了，但别慌，这可不是要抢我们饭碗！作者分享了自己的亲身经历，发现AI其实是在帮我们处理那些重复性的琐碎工作，比如写测试代码、修复bug、快速搭建原型什么的。这样一来，我们工程师反而能腾出手来专注于更有价值的设计和架构工作，效率最高能提升120%以上呢！不过要玩转AI编程也不是那么容易，你得有扎实的代码基础，懂得怎么把复杂任务拆解成小步骤，还得学会用清晰的提示词跟AI沟通。现在我们的工作重心正在从手写代码转向管理AI工具、审查AI生成的代码，感觉像是从码农升级成了AI教练，挺有意思的转变。当然，这种效率提升也可能带来一些连锁反应，比如团队招聘需求减少，新人机会可能变少，这些都是我们需要思考的现实问题。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI讨论、领袖观点

1.陶哲轩论AI时代社会结构失衡与个人困境（宝玉(@dotey)）

数学家陶哲轩最近分享了一个挺戳心的观察：AI技术看似让生活更便利，实际上却在悄悄改变社会结构。他发现技术发展对个人能力的提升其实很有限，反而让大公司、大机构变得越来越强大，小组织却逐渐被挤压得没地方站了。这种不平衡虽然带来了物质上的舒适，却让很多人感到孤独、疏离，甚至产生无力感和悲观情绪。更让人担忧的是，大组织试图用那些像’垃圾食品’一样的合成情感产品来填补空白，但这些虚假的亲密感根本解决不了问题。陶哲轩警告说，如果任由AI这样发展下去，这些负面趋势只会越来越严重，这确实该让我们好好思考技术到底该往哪个方向走。

2.颠覆性AI论文解读：通用智能体必然自带“世界模型”（宝玉(@dotey)）

最近有篇颠覆性的AI论文提出了一个让人震撼的观点：任何能完成复杂任务的AI智能体，不管有没有被刻意设计，都会在内部自动构建一个环境预测模型，也就是所谓的’世界模型’。研究人员用严谨的数学方法证明了这一点，发现世界模型其实是智能体获得通用能力的必然副产品。这意味着我们过去对’无模型’方法的很多假设可能站不住脚了。更酷的是，这项研究还展示了如何通过’审问’AI来反向推导出它隐藏的世界模型，这为提升AI的安全性和可解释性打开了新的大门。感觉整个AI领域的研究方向都要因此改变了，未来大家可能会更关注如何构建和利用这些必然存在的世界模型。

3.#245. 强化学习之父萨顿：LLM 走错了路，真正的 AGI 要向松鼠学习（跨国串门儿计划）

强化学习之父Richard Sutton这次真的放了个大招！他直接指出当前火爆的大语言模型可能走错了方向——这些模型只是在模仿人类语言，却没有真正理解世界，缺乏明确目标和真实互动能力。Sutton教授坚信强化学习才是通往通用智能的正道，通过‘感觉-行动-奖励’的循环让AI从经验中学习预测和调整，就像松鼠通过试错掌握生存技能那样自然。他还抛出了个震撼观点：AI的崛起标志着宇宙从生物复制时代迈向了智能设计时代，人类应该以开放心态引导AI融入正直等普世价值观。听完这些，你会重新思考什么才是真正的智能。

4.#244.黄仁勋：AI 是新的工业革命，OpenAI 将是下一个万亿级公司，我们的护城河从未如此宽阔（跨国串门儿计划）

黄仁勋这次对话真是信息量爆炸！他把AI定义为新的工业革命，预测推理需求会有十亿倍的增长，这数字听着就让人震撼。英伟达的护城河居然这么宽，连竞争对手免费送芯片都打不过，因为他们的系统每瓦性能优势太明显了。更劲爆的是他首次透露了和OpenAI的千亿美元‘星际之门’合作，要帮OpenAI自建全栈AI基础设施，还大胆预测OpenAI会成为下一个万亿级公司。关于中美竞争，他的观点很务实，认为美国应该在中国市场竞争而不是脱钩，把市场让给对手太傻了。他还提到AI会重塑全球GDP，推动再工业化，创造新工作而不是导致失业，这些观点都让人对AI未来充满期待。

5.喝点 VC｜a16z 联合创始人 Ben Horowitz 分享 460 亿美元风投巨头的创业生存法则（Z Potentials）

硅谷顶级投资人Ben Horowitz这次聊得特别实在，把创业那些事儿说得明明白白。他说真正的领导者就得在困难时刻果断拍板，哪怕大家都不理解也要坚持做对的事，这种魄力才是创造价值的关键。创业者们经常被各种错误打击得没信心，但他认为失败太正常了，关键是要学会直面恐惧，把每次失误都当成成长的养分。关于AI投资，他特别强调现在根本不是泡沫，基础设施和应用层都有巨大机会，特别是那些能理解人类复杂行为的AI产品。管理团队方面他有个很犀利的观点：CEO别总想着把普通员工培养成专家，而是要找到那些能让公司真正伟大的人。他还分享了用嘻哈文化建立团队信任的独特方法，这些实战经验对正在创业或带团队的人来说特别有启发。