第一时间捕获有价值的信号
⼤家好,Weekly Gradient第 70 期已送达,本期内容精选多篇AI领域深度文章,涵盖AI初创公司GTM策略、生成式AI对企业生产力的影响、AI用户研究变革、多模态模型技术突破、AI编程效率提升、智能体应用实践等核心主题,全面解析AI技术发展趋势与商业应用前景。
AI 商业化
聚焦AI行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM策略、SaaS转型等商业分析
1.未来 AI 初创公司,生死胜负手在「GTM」|对谈矩阵魔方创始人孤山(十字路口Crossing)
最近和矩阵魔方创始人孤山聊了聊,发现AI初创公司现在真是面临前所未有的增长挑战。传统那套增长地图在AI领域基本失灵了,品类变化快得吓人,窗口期短到让人喘不过气,技术出身的创始人又普遍不懂营销,简直是雪上加霜。不过孤山提出了个很有意思的方法论——‘版本即事件,品类定生死’,意思是要通过刷屏级的首发和周期性大版本更新,快速抢占用户心智。他们公司还搭建了个GTM for AI的生态系统,把媒体、营销、分发平台都整合起来,让AI应用出海变得简单多了。最实用的是他分享的那些传播技巧,比如找科技明星带货,还有把产品定位浓缩到6个单词以内,这些实操建议对正在创业的朋友们应该很有启发。
2.警惕“AI工作垃圾”:生成式AI如何摧毁企业生产力与协作(宝玉(@dotey))
最近有个挺扎心的发现:公司里AI工具用得越多,大家反而越忙了。原来员工们把AI当成了甩锅神器,生成一堆看起来漂亮但没啥实际内容的‘工作垃圾’,然后让同事来擦屁股。每收到一份这样的AI垃圾,平均要花近2小时去处理,算下来每人每月浪费186美元,万人员工的公司一年就损失900多万美元!更糟的是,这种操作直接伤害了团队信任——大家开始互相怀疑对方的能力。MIT和斯坦福的研究都证实了这点。好在文章给出了几个实在的建议:别搞一刀切的AI强制令,要培养主动用AI解决问题的‘飞行员’,而不是逃避工作的‘乘客’,还得建立支持协作的人机互动规矩。
3.AI X 用户研究:能并行千场访谈的“超级研究员”,正重塑产品决策的未来(海外独角兽)
最近看到一篇关于AI如何彻底改变用户研究的文章,真的让人眼前一亮!传统用户研究总是要在深度和速度之间做痛苦的选择,要么花几周时间做深度访谈,要么快速但浅尝辄止。现在AI驱动的用户研究工具可以同时进行上千场访谈,把几周的工作压缩到几小时完成,而且还能保持研究的深度和规模。更厉害的是,整个行业正在从卖工具转向卖洞察,市场规模估计达到200亿美元。人类研究员也不用担心失业,他们的角色正在从执行者升级为战略家,专注于更高价值的战略规划和创意驱动。像Listenlabs、Outset这些头部公司正在重新定义这个领域,未来还可能通过专有知识网络实现更大的价值跃迁。这波AI浪潮正在实实在在地重塑产品决策的未来!
4.Z Product|Product Hunt 最佳产品(9.15-21),一站式数据爬虫和可视化 AI 工具登顶(Z Potentials)
这周 Product Hunt 的热门榜单简直是一场 AI 效率工具的盛宴!Capalyze 这种一站式数据爬虫和可视化工具登顶,说明市场对智能数据处理的需求有多旺盛。你看,现在连非技术人员都能用 Blocks、CodeWords 这样的无代码平台快速搭建应用,AI 真的把技术门槛打下来了。榜单上从视频创作到项目管理,清一色都在用 AI 简化复杂任务,这种全行业效率升级的势头太猛了,感觉每个领域都在被 AI 重新定义工作方式。
5.#243. 人工智能与其他技术浪潮有何不同?(跨国串门儿计划)
这期播客太精彩了!OpenAI 董事会主席 Bret Taylor 和前 Google 高管 Clay Bavor 聊了个特别有意思的话题:AI 到底是一场颠覆世界的革命,还是只是更好的软件?他们提出了个震撼的观点:AI 正在把智能从稀缺变成充足,就像当年电力和食物的普及一样,这会彻底改变我们的社会经济结构,甚至挑战我们人类对自己的认知。最酷的是他们预测智能体将成为 AI 时代的新范式,就像互联网时代的网站和移动时代的应用,这些能自主工作、具备推理能力的数字实体将成为我们和企业互动的主要方式。他们还分享了自家公司 Sierra 的颠覆性商业模式——按结果付费,只有 AI 智能体真正解决了客户问题才收费,这和传统 SaaS 完全不同,把供应商和客户的利益深度绑定在一起。两位大佬还给了个特别实用的建议:应用型 AI 公司千万别自己建基础模型,投资太大还贬值快,应该专注于整合利用最好的模型来创造卓越的用户体验。听完真的让人对 AI 的未来充满期待,也明白了为什么这次的技术浪潮如此不同。
AI 产品设计
探索AI原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent设计等
1.「OK Computer」,Kimi Agent 模式开启内测(月之暗面 Kimi)
Kimi大模型这次真的放大招了!新推出的Agent模式‘OK Computer’已经开始内测,这可不是普通的AI助手,它能通过多轮深度推理和调用20多种工具,把复杂任务从头到尾自动搞定。想象一下,你只需要描述需求,它就能化身项目经理、产品经理、设计师、前端工程师,从需求调研到产品方案、交互设计、前端开发全部包办,直接交付多页面网站原型、移动端Web应用和高品质演示文稿。文章里展示了三个超实用的案例:宠物网站开发、财经数据可视化分析、电影主题PPT制作,每个都让人眼前一亮。最厉害的是它采用原生Agent架构,通过端到端强化学习训练K2模型,熟练掌握了文件系统、浏览器、终端、代码、图片音频生成等工具,能灵活应对各种突发情况。虽然现在算力需求比较大还在灰度测试,但这绝对是让普通用户也能成为全栈知识工作者的革命性突破,感觉AI真的要开始真正理解并执行复杂任务了!
2.OpenAI推出ChatGPT Pulse:从被动问答到主动预测的AI助理(宝玉(@dotey))
OpenAI这次真的玩出了新花样!ChatGPT Pulse不再是那个只会被动回答问题的AI,它现在能主动出击了——在你休息时默默分析聊天记录、个人资料、日历和文档,预测你的需求,第二天早上直接送上量身定制的资讯卡片或行动建议。Sam Altman把它比作私人秘书,实际体验也确实惊艳:有人收到实用建议,有人被贴心跟进,还有人发现意想不到的信息组合。目前只有Pro用户能尝鲜,但这一步已经让AI助理从工具变成了真正的智能伙伴,感觉科幻片里的场景正在变成现实。
3.Qwen3-Omni:一个模型,全能不偏科(通义大模型)
阿里通义这次推出的Qwen3-Omni真的让人眼前一亮!它用创新的Thinker-Talker架构解决了全模态模型的老大难问题——多模态能力一集成,性能就下降。Thinker模块专门负责深度语义理解,Talker模块专注流式语音生成,两者配合得天衣无缝,真正做到了音视频能力强劲的同时,文本和图像单模态性能丝毫不打折扣。测试结果更是惊艳,36项音视频基准测试中32项都是开源模型最佳,22项达到业界顶尖水平。最实用的是它的实时交互能力,端到端音频对话延迟只有211毫秒,支持119种文本语言、19种语音输入和10种语音输出,还能理解长达30分钟的音频内容。对于开发者来说,系统提示词和工具调用功能让定制变得特别灵活,还有轻量版和专门的开源模型可选,上手门槛大大降低。这绝对是全模态AI领域的一次重大突破!
4.【案例】Gamma:30 人,一年赚 5000 万美元,用 AI 重塑 PPT(AI炼金术)
Gamma 这个案例太有意思了!一个只有 30 人的团队,一年就能做到 5000 万美元收入,关键就在于他们用 AI 重新定义了做 PPT 这件事。他们特别聪明地选择了解决“从 0 到 60 分”的需求,而不是追求极致完美,让 AI 快速生成及格线的作品,大大降低了用户的心理负担。更厉害的是他们提出的“原子化设计”理念,把传统的幻灯片打散成灵活的卡片,内容和形式完全分离,这样一份内容就能轻松输出横屏演示、竖屏图文甚至交互式网页,彻底打破了传统媒介的限制。他们的增长模式也很巧妙,用户在使用过程中体验到 AI 的魔力后,自然就想分享自己的作品,通过网页链接传播,形成了一个自我加速的增长飞轮。这确实给 AI 产品开发者提供了很好的启发:找准痛点、降低门槛、重新定义产品形态,产品本身就是最好的营销。
5.【洞见】80000 家公司的 AI 实践:未来产品是活的,组织架构将消亡(AI炼金术)
微软AI高管的洞见太震撼了!未来的产品不再是冷冰冰的工具,而是会学习进化的活有机体,核心竞争力变成了培养产品的思考能力。大模型竞争的重点也变了,不再盲目追求规模,而是转向精调和强化学习,这才是真正实用的路径。最颠覆的是人机交互方式,图形界面要被代码原生界面取代,用自然语言就能自由组合产品功能,简直像魔法一样。AI代理崛起后,重复性工作将被接管,人类专注创造性任务,组织架构也会从固定职位变成动态工作流,这波变革真的会彻底重塑我们的工作方式。
6.对话 Plaud 莫子皓:你还记得 PMF 的感觉吗?(Founder Park)
Plaud 这家公司真的挺有意思的,他们做的 AI 录音卡片在全球卖出了上百万台,年收入都过亿美金了。最厉害的是他们找到了那种完美的产品市场契合感,不是单纯靠技术,而是把产品定位成用户线下场景的传感器。他们的 AI 能通过一键标记功能捕捉你的意图,然后用大模型的超长记忆和多角度思考能力,从对话里挖出连你自己都没意识到的深层价值。现在他们直接把产品升级成了“工作伙伴”,专门服务那些语言交流多、专业知识深、决策影响大的用户群体。更酷的是,他们还在探索让 Agent 在用户的使用环境中自主进化,甚至允许一些“幻觉”来激发创新。背后支撑这一切的是他们强大的软硬结合能力,毕竟团队有搜狗录音笔和龙旗的背景,对 AI Native 硬件的理解特别独到——就是那种没大模型根本用不了的产品。
7.Nano Banana 核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的 intention(Founder Park)
Nano Banana团队最近有个挺有意思的观点:图像生成质量差不多到天花板了,现在最大的挑战是让AI真正理解我们想要什么。他们发现用户经常面对空白画布不知道从何下手,这其实是个产品设计问题。未来AI图像工具会变得更聪明,能结合语言模型的世界知识来处理复杂需求,甚至变成信息查询工具。最让人期待的是,模型会通过对话了解每个人的审美偏好,实现深度个性化,而不是让所有人都用同一个模板。图像和视频技术也会融合成通用模型,但传统专业工具依然有存在的价值,毕竟精细调整还是需要专业软件。
AI 工程实践
涵盖AI系统技术实现与场景化开发的全流程,包含工程架构、工具链实践、提示工程等核心技术环节
1.适用所有团队研发提效|带你 1 分钟上手基于 Claude Code 的 AI 代码评审实践(阿里云开发者)
最近看到个超实用的AI代码评审方案!直接把Claude Code集成到阿里云AONE平台,让AI自动帮你审代码。以前人工评审太耗时,AI工具又经常误报,现在这个方案把代码变更分成未分析、部分分析和重审三个层次,还能用多个Claude实例并行处理,据说能提效50%以上,长期甚至能达到80%。最棒的是提供了现成的流水线模板,配置一下就能用,团队上手特别快,还能发现人工容易忽略的潜在问题。
2.Networking at the Heart of AI — @Scale: Networking 2025 Recap(Engineering at Meta)
最近参加了一场超硬核的网络技术会议,发现AI的飞速发展背后,网络基础设施正在经历一场革命!各大科技巨头都在分享他们的实战经验——从Meta的吉瓦级集群到跨大西洋光纤,原来AI训练和推理对网络的要求这么苛刻。最让我震撼的是,网络现在扮演着关键抽象层的角色,把复杂的底层硬件包装成一个统一的“超级计算机”,让AI模型能够专注运算而不被基础设施拖累。工程师们强调,必须把网络和AI技术栈深度协同设计,从网卡到路由都要精心调校,才能支撑起混合专家模型、分布式推理这些新兴任务。看来,想要跟上AI的进化速度,网络技术也得持续创新,把高性能计算和分布式系统的优势都融合进来才行。
3.如何将 AI 代码采纳率从 30%提升到 80%?(阿里云开发者)
你有没有遇到过让 AI 写代码,结果生成的东西完全跑偏的情况?这背后其实有深层原因:信息不对称让 AI 搞不清业务背景,任务太复杂它根本处理不了。好消息是,现在有了一套系统性的解决方案!通过建立分层文档体系,AI 能真正理解你的项目上下文;把复杂需求拆解成小任务,AI 就能精准输出可用代码。更关键的是要记住:AI 没有中期记忆,每次都要给它精准的上下文;开发者必须对 AI 生成的代码负责,把它当成结对编程的伙伴来对待。这套方法已经在实践中证明,能把 AI 代码采纳率从 30% 提升到 80%,大幅降低维护成本,让开发效率真正起飞!
4.前端工程化演进之路:从手工作坊到 AI 驱动的智能化开发(阿里云开发者)
前端开发这二十年变化太大了!从最早用记事本写HTML、FTP传文件的原始时代,到现在AI辅助写代码的智能化开发,简直像坐上了火箭。记得jQuery刚出来时大家多兴奋吗?它统一了浏览器API,让前端开发终于有了标准。后来Node.js、Grunt/Gulp这些工具让前端真正进入了工程化时代,再后来Webpack一统江湖,React、Vue这些框架让组件化开发成为主流。现在更厉害了,GitHub Copilot、ChatGPT这些AI工具直接帮我们写代码、设计解决方案,前端开发正在被AI彻底重塑。性能优化也从早期的经验技巧变成了数据驱动的科学方法。整个前端领域从混沌走向秩序,现在又迈向了AI驱动的智能化新阶段,想想都觉得激动!
5.CC&LG 实践|基于 LangGraph 一步步实现 Claude-Code 核心设计(阿里云开发者)
哇,这篇文章真是把Claude-Code的设计精髓给拆解得明明白白!它手把手教你如何用LangGraph从最基础的ReAct Agent开始,一步步搭建出功能完整的简版Claude-Code。LangGraph这个框架确实厉害,通过状态机、图节点和工具的组合,能轻松管理复杂流程,让Agent开发变得模块化又可控。特别欣赏它把规则驱动和LLM驱动融合的设计思路,这样既保持了Agent的自主性,又能确保系统的可靠性。人机协同那块也很实用,中断机制和检查点持久化让用户能随时介入审查,LLM还能动态决定什么时候需要人工帮忙。多Agent架构更是把复杂任务拆解得明明白白,每个SubAgent专注自己的领域,最后智能合成结果,处理多步骤任务简直不要太高效!
6.私域知识工程实战:如何让 AI 一次性写出高质量代码?(阿里云开发者)
你有没有遇到过AI写代码的尴尬时刻?明明功能都实现了,但就是不符合项目规范,还得花大把时间修修改改。这就是典型的‘80分困境’——AI技术很强,但不懂你的业务细节。好消息是,现在有个解决方案叫‘私域知识工程’,就像给AI做入职培训一样,先建立专属知识库教它项目架构和业务规则,再用专家级提示词让它一次性写出符合规范的代码。最棒的是这个知识库还能自动更新维护,让AI越用越聪明。实践数据显示,这套方法不仅让代码质量大幅提升,还能把开发者从反复调教AI的苦差事中解放出来,真正实现甩手掌柜式的智能编程。
7.腾讯混元图像 3.0 正式开源发布!80B,首个工业级原生多模态生图模型(魔搭ModelScope社区)
腾讯刚刚开源了一个重磅产品——混元图像3.0,这可是个80B参数的大家伙,而且是业界首个工业级的原生多模态生图模型!最厉害的是它完全免费开放,效果直接对标那些收费的头部闭源模型。这个模型最特别的地方在于它的’原生多模态’架构,不是简单地把不同功能拼在一起,而是真正在一个统一框架下处理文字、图片、视频和音频,这让它具备了很强的常识推理能力,能深度理解复杂的语义和用户意图。实际用起来效果真的很惊艳,不仅能生成高质量、有美感的图片,还能准确处理长文本指令和图片里的小文字,这在以前可是很多模型的痛点。看看那些月全食漫画、时尚穿搭分解的案例,就能感受到它在内容创作和效率提升上的巨大潜力。现在已经在GitHub、HuggingFace这些平台开源了,还提供了在线体验和提示词手册,对开发者和创作者来说简直是福音,上手门槛大大降低。
8.Video models are zero-shot learners and reasoners(Simon Willison’s Weblog)
最近看到谷歌DeepMind的Veo 3视频模型真的让人眼前一亮!这些生成式视频模型正在成为机器视觉领域的通用基础模型,就像大型语言模型在文本领域那样。最神奇的是它们具备零样本学习能力,能解决从未专门训练过的视觉任务,还通过‘帧链’实现了早期形式的视觉推理——在生成的视频帧中跨时空操纵元素,一步步推理,简直就像给机器装上了视觉思维链条。虽然现在运行成本还比较高,但想想LLM的发展轨迹,价格下降是迟早的事。这波技术进步正在重新定义机器视觉的可能性,感觉我们离真正智能的视觉系统又近了一大步!
9.腾讯混元 3D 开源+2:瞄准游戏建模、3D 打印痛点(腾讯混元)
腾讯刚刚开源了两款超厉害的3D生成模型,感觉要彻底改变3D内容创作的游戏规则了!Hunyuan 3D-Omni被称作3D界的ControlNet,它最酷的地方是能用骨骼、点云、边界框等多种方式输入,让生成的3D模型在几何结构和姿态上都特别精准,再也不怕生成出来的东西歪歪扭扭了。另一个Hunyuan 3D-Part专门解决模型组件拆分的问题,能把复杂的3D模型拆成一个个可编辑的部件,这对游戏建模和3D打印来说简直是神器。最棒的是这两款模型都完全开源免费,开发者们可以随便用,这波操作绝对能大大加速3D生成技术的实际应用落地。
10.Improved Gemini 2.5 Flash and Flash-Lite(Simon Willison’s Weblog)
Google刚刚给Gemini 2.5 Flash和Flash-Lite来了个大升级,这次更新真的挺实在的。Flash-Lite现在更懂人话了,指令执行精准度提升明显,而且输出内容不再啰嗦,直接帮你省下不少token成本,音频转录和图像理解能力也同步增强。Flash版本在复杂应用场景下表现更亮眼,自主使用工具的能力提升了5%,用更少的token就能生成更高质量的结果。最让人惊喜的是推理模式带来的效率飞跃,Flash-Lite输出token直接砍半,速度比之前快了40%,这种实实在在的性能提升对开发者来说太友好了。现在用gemini-flash-latest这样的模型ID就能轻松调用最新版本,Simon Willison的llm-gemini库也已经同步更新,上手就能用。
11.Gemini Robotics 1.5 brings AI agents into the physical world(Google DeepMind Blog)
谷歌DeepMind这次真的把AI带进了现实世界!他们推出的Gemini机器人1.5和ER 1.5就像是给机器人装上了大脑和手脚——ER 1.5负责高级规划和逻辑决策,还能调用Google Search等工具,而1.5则把这些计划变成具体的动作指令。最厉害的是机器人现在学会了‘先思考再行动’,不仅能解释自己的推理过程,还能在不同形态的机器人之间快速转移学到的技能,这简直是机器人学习能力的一大突破。测试结果显示它们在空间理解和具身推理方面表现卓越,而且谷歌还特别强调了安全措施,发布了升级版的ASIMOV基准来确保语义安全。感觉我们离真正智能的通用机器人又近了一大步!
12.YouTube视频转深度博客文章的AI提示词:重塑思想而非搬运文字(宝玉(@dotey))
最近看到一条特别实用的推文,分享了一个专门为AI设计的提示词,能把YouTube视频变成有深度的博客文章。最打动我的是它的核心理念——不是简单搬运视频里的文字,而是真正重塑思想,让AI以独立创作者的口吻来写。这个提示词设计了完整的五步流程:从起个吸引人的标题开始,到开篇引入,再到主体论述、升华提炼,最后来个有力的结尾。特别强调要用流畅的叙事风格,避免枯燥的项目符号,还要对核心思想进行深度挖掘和抽象提炼。感觉这个思路很对,毕竟现在AI生成内容最大的问题就是缺乏灵魂,而这个方法正好解决了这个问题,能产出既易懂又引人深思的高质量内容。
13.腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!(魔搭ModelScope社区)
腾讯这次开源的FastMTP技术真是让人眼前一亮!它巧妙地把投机解码和多Token预测结合起来,专门解决大语言模型生成速度慢的老大难问题。最厉害的是他们做了三项核心优化:用共享权重的单MTP头大幅节省内存,还能让模型学会长距离依赖;通过自蒸馏训练让草稿预测更准确,跟主模型输出高度对齐;再加上语言感知动态词汇压缩,进一步降低计算量。实验结果太惊艳了,推理速度平均提升2.03倍,在数学推理和代码生成这些结构化任务中效果更明显,而且完全不损失输出质量。这意味着我们以后在消费级显卡上也能跑出专业级的性能,对开发者来说简直是雪中送炭!
14.你们催更的模型,云栖大会一口气全发了!(通义大模型)
阿里云栖大会这次真是放大招了!一口气发布了七款通义系列大模型,从文本、图像到语音、视频,几乎把AI能覆盖的场景都包圆了。最让人兴奋的是Qwen MAX这个万亿参数的大家伙,在代码生成和数学推理上直接冲到了国际领先水平,写代码再也不用愁了。还有Qwen3-Omni这个全模态模型,音频识别和图像理解能力全面超越竞品,开车时语音操控导航、看视频自动分析内容都不在话下。最实用的是通义百聆,专门解决企业语音识别的老大难问题,把误识别率从接近八成降到了一成左右,金融客服、在线教育这些场景用起来就靠谱多了。这些模型都已经上线,想用的话直接部署或调用API就行,感觉AI真的要进入普及时代了!
15.AI辅助编程效率实测与软件工程师工作方式变革(宝玉(@dotey))
哇,这篇推文真的把AI编程工具的实际效果讲透了!作者亲测了Codex、GitHub Copilot这些工具,发现它们能让开发效率翻倍——从修小bug到写测试代码,甚至解决复杂算法问题,AI都能帮上大忙。不过想用好这些工具,你得有扎实的代码基础和技术管理经验,还得会写提示词、设计AI友好的代码架构。这让我觉得,未来软件工程师不仅要懂代码,还得学会和AI协作,工作方式真的要彻底改变了。
16.GPT-5-Codex(Simon Willison’s Weblog)
OpenAI终于把GPT-5-Codex的完整API放出来了!之前只能在命令行里用,现在开发者们可以更灵活地集成这个专业编码模型了。最让人兴奋的是缓存输入token能享受90%的折扣,这对需要频繁调用的Agentic工作流程简直是成本救星。这个模型特别有意思,它内置了很多编码最佳实践,所以开发者不需要写冗长的提示词,‘少即是多’才是正确用法。更厉害的是,连它自己的工具支持都是GPT-5 Codex自己生成的,这种自举能力真的很酷。测试结果也让人惊喜,不仅能处理代码,还能准确描述图像内容,比如那个鹈鹕骑自行车的例子,说明它的能力范围比我们想象的更广。
17.Chrome DevTools MCP 协议:AI 智能体实现网页调试新突破(宝玉(@dotey))
太棒了!Chrome DevTools 刚刚发布了模型上下文协议,这可是解决了AI编程助手在网页开发中的一个大痛点。以前AI只能写代码却看不到运行效果,现在通过MCP协议,AI智能体可以直接使用Chrome DevTools进行调试、性能分析、模拟用户操作、诊断网络错误,还能实时检查样式。这意味着网页开发效率会大幅提升,问题定位也更准确了。推文里还贴心地提供了安装方法和具体的使用提示词示例,让人能马上上手体验。最让人兴奋的是,MCP作为开源标准,展现了连接大语言模型和外部工具的无限潜力,这绝对是网页开发工具的一次重大升级!
18.LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!(魔搭ModelScope社区)
美团LongCat团队刚刚发布了全新的LongCat-Flash-Thinking模型,这绝对是开源AI领域的一个重磅消息!这个模型在保持闪电般推理速度的同时,专业能力得到了质的飞跃,在逻辑推理、数学计算、代码编写和智能体任务等多个复杂领域都达到了全球顶尖水平。最令人兴奋的是它融合了深度思考与工具调用、非形式化与形式化推理的独特能力组合,这可是国内首个具备这种全方位推理能力的模型。背后的技术支撑同样硬核,领域并行强化学习让模型能力稳步提升,DORA系统实现了三倍训练加速,还有双路径智能体框架和专家迭代形式化推理框架,这些创新技术共同打造了一个真正能解决复杂问题的AI大脑。在ARC-AGI、HMMT、LiveCodeBench这些权威测试中,它的表现甚至能媲美顶尖闭源模型,现在完全开源,对AI开发者和研究者来说真是个好消息!
19.Alibaba Releases Qwen3-Next-80B-A3B with Enhanced Long-Context Inference(DeepLearning.AI(@DeepLearningAI))
阿里巴巴刚刚发布了重磅开源模型Qwen3-Next-80B-A3B,这可是个800亿参数的大家伙!它采用了混合专家架构,最厉害的是用Gated DeltaNet和门控注意力机制替换了传统注意力层,让长文本处理速度大幅提升。这个模型基于Apache 2.0开放许可,提供了Base、Instruct和Thinking三个版本,训练数据来自Qwen3数据集的15万亿token子集,还用了GSPO进行微调。最让人兴奋的是它支持262,144个token的超长上下文,而且还能通过修改支持更长的输入,这在处理长篇文档或复杂对话时简直太实用了。这次发布绝对是开源大模型领域的一大突破,特别是对那些需要深度理解长文本的应用场景来说,意义重大!
20.Four new releases from Qwen(Simon Willison’s Weblog)
Qwen这次真是火力全开啊!一天之内发布了四个重磅模型,感觉AI应用的门槛又被拉低了一大截。最让人兴奋的是那个300亿参数的Qwen3-Omni,不仅能处理文字,还能直接玩转音频和视频,这种全模态能力简直是为下一代AI应用量身定制的。而且他们还贴心地推出了FP8量化版本,把模型体积直接砍半,从163GB降到82GB,这下普通开发者也能轻松跑起来了。语音合成和图像编辑也都有大升级,特别是图像编辑现在支持多图输入,创作空间更大了。最棒的是这些模型都开源,Apache 2.0许可证让所有人都能自由使用,这种开放态度真的很赞!
21.DeepSeek-V3.1 版本更新(DeepSeek)
DeepSeek-V3.1这次更新真的挺实在的,直接升级到了Terminus版本,重点解决了大家反馈最多的语言一致性问题。现在模型输出中英文混杂和异常字符的情况明显减少了,用起来顺手多了。Code Agent和Search Agent的能力也进一步优化,在代码生成和信息检索方面表现更稳定。好消息是这些更新已经同步到官方App、网页端、小程序和API了,还在HuggingFace和ModelScope上提供了开源下载,想体验新版本的朋友可以直接去试试看。
22.Vol.71|对谈胡渊鸣:AI 走进三维世界,最需要的是什么?(开始连接LinkStart)
这期对谈太精彩了!胡渊鸣从开源编程语言太极到创立Meshy的创业历程,简直就是AI 3D领域的进化史。AI 3D生成技术经历了从多视角重建到稀疏扩散模型的突破性发展,现在用Meshy几分钟就能生成一个3D模型,成本从几千美元降到1美元,这简直是游戏开发者和创意工作者的福音啊!更让人感动的是,这项技术还帮助意外失去建模能力的建模师重拾职业。不过AI原生游戏和世界模型虽然前景诱人,但算力需求和游戏趣味性仍是巨大挑战。胡渊鸣还分享了AI创业团队需要务实坦诚、快速迭代的文化,以及招聘时看重的SMART、HUNGRY、HUMBLE、CLEAR人才特质,这些经验对正在AI领域打拼的团队来说太有参考价值了。
23.Prompt:Transcribes YouTube videos (from a URL) or uploaded local videos into a structured, formatted text complete with speaker labels and timestamps(宝玉的分享)
最近看到一个特别实用的AI提示词,专门用来把YouTube视频或本地视频转成格式工整的文字稿。这个提示词设计得相当细致,要求AI逐字逐句转录,不翻译原文,还要准确识别不同说话人——优先看视频元数据,不行就靠听声音判断。更厉害的是,它会根据视频内容灵活生成章节,输出时严格规范时间戳格式、自动生成目录,章节标题和对话段落都排得清清楚楚。这种高度结构化的转录结果,读起来特别顺畅,也方便后续分析使用。不得不说,这个案例充分展示了精心设计的提示词能让AI完成多么复杂的任务,真是把提示词工程玩出了新高度!
24.组织能力才是 AI 公司真正的壁垒|42 章经(42章经)
最近看到一篇挺有启发的分享,讲的是AI公司怎么打造真正有竞争力的组织能力。核心观点很直接:技术本身可能很快被复制,但高效的组织体系才是真正的护城河。文章详细拆解了三个关键维度——工作流、人才和组织。工作流上,主张默认让AI承担所有研发任务,人类只在AI搞不定时补位,这种思维转变能带来10倍以上的效率提升,还分享了Code Review、代码生成等具体环节的AI提效方法。人才方面,未来工程师的角色会彻底转变,不再是传统技能专精,而是要成为AI的“Context Provider”、快速学习者和动手建造者,核心价值在于提供高质量上下文、快速掌握知识并与AI高效协作。组织形式也要从“按流程分工”转向“按结果分工”,让工程团队对完整业务结果负责,减少中间环节损耗,快速构建60分版本加速产品迭代。更前瞻的是,文章预测未来组织形态可能是“少量核心合伙人+大量灵活合同工”,既留住高价值人才,又保持组织弹性。这些实践不仅适用于初创公司,对大厂转型也有参考价值,确实让人对AI时代的组织进化有了更具体的想象。
25.YouTube Video -> Blog Post Prompt (Gemini Only)(宝玉的分享)
这个提示词设计得真巧妙,它教会AI如何把YouTube视频变成有深度的博客文章。核心思想是让AI不要简单搬运视频内容,而是要真正理解视频的精髓,然后用全新的视角重新组织表达出来。文章结构设计得很讲究,从吸引人的标题开始,到引人入胜的开头,再到逻辑清晰的主体论述,最后还要提炼出核心框架和思维模型,让读者获得认知上的提升。写作风格要求用流畅的散文体,避免使用项目符号,通过优雅的过渡词串联逻辑,读起来就像专业创作者写的一样自然。这种系统化的提示词设计,确实为AI生成高质量内容提供了实用的指导方案。
26.麦肯锡调研了 50 个一线 AI 智能体的项目总结出来的六条经验(宝玉的分享)
麦肯锡这份调研太实用了!他们研究了50多个AI智能体项目后发现,成功的关键根本不是技术本身,而是要把整个工作流程重新设计一遍。智能体不是万能的,得根据任务特点选择合适方案——变化大、标准化低的工作才适合用智能体。最有趣的是要把智能体当新员工培养,持续培训监控,不然很容易产出‘AI垃圾’。他们还建议把常用功能模块化复用,能省下30%-50%的重复开发工作。最后强调人类角色反而更重要了,现在要做的是监督判断和创造性解决问题,实现真正的人机协同。这些经验都是企业避开陷阱、让AI真正创造价值的关键。
27.18 年 SEO 增长经验专家:别再收藏各种 AEO 最佳攻略了,自己动手实验才是做好的关键(Founder Park)
读完这篇来自18年SEO老兵的分享,真是有种豁然开朗的感觉!原来答案引擎优化的核心不是收藏各种攻略,而是自己动手做实验验证。AEO和传统SEO在头部和尾部策略上差异明显:头部需要多渠道提及来增加曝光,尾部则要专注回答那些具体又小众的长尾问题。最让人兴奋的是,优化RAG层居然是见效最快的方式,关键是要提供真正有价值的信息增益,让AI觉得你的内容值得引用。Reddit这类真实社区现在成了AI的重要信息来源,但得用真诚的方式参与,而不是制造垃圾内容。最警醒的是,100%纯AI生成内容真的是死路一条,会导致模型坍塌和群体智慧丧失,未来应该是AI辅助人类创作,而不是完全取代。说到底,做AEO就是要理解底层逻辑,然后不断测试验证,这才是真正的制胜之道。
28.为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”(海外独角兽)
最近发现一个很有意思的平台叫 OpenRouter,它就像是大模型世界的“网关系统”,用一个统一的 API Key 就能调用市面上各种主流模型。这解决了开发者最头疼的几个问题:不用再为不同模型的 API 格式发愁,也不用担心某个供应商突然宕机影响业务,还能根据价格、时延等需求自动选择最合适的模型。更厉害的是,它发布的模型用量报告已经成为行业风向标,连 OpenAI 都偷偷用它来测试 GPT-4.1 这样的新模型。创始人 Alex Atallah 认为大模型市场不会一家独大,开发者应该拥有完全的控制权。未来 OpenRouter 还想成为 Agent 的最佳推理层,集成记忆、网页搜索等功能,让开发者能自由切换模型而不被绑定。这确实是个很实用的基础设施,感觉对做 AI 应用的人来说帮助会很大。
29.当 AI 编程告别「拨号上网」时代,会发生什么?(宝玉的分享)
最近看到一篇挺有意思的分析,把现在用 AI 编程的体验比作当年的拨号上网——慢吞吞还老掉线。原来背后是 AI token 使用量爆炸式增长,把基础设施压得喘不过气,导致服务不稳定,token 生成速度只有 30-60 tok/s,确实挺影响效率的。不过文章也描绘了一个挺让人期待的未来:当 token 生成速度飙升到 2000 tok/s,AI 编程就能进入无监督、并行尝试并自动评估的全新模式,开发者可以同时跑多个实例去试错,复杂任务处理效率会大幅提升。这意味着软件工程师的工作方式要彻底改变了,得从盯着 AI 干活转向更自主的工作流。而且 AI 服务商可能因为算力限制,在高峰期搞错峰定价之类的商业模式。感觉咱们都得保持好奇心,早点适应这些变化才行。
30.AI 炮制的“工作垃圾”,正在摧毁你的生产力(宝玉的分享)
最近发现一个挺扎心的现象:大家兴冲冲地用AI工具想提高效率,结果反而制造出一堆表面光鲜但内容空洞的‘工作垃圾’。这些AI炮制的东西看着挺像样,实际上毫无价值,还逼着同事花额外时间去解读、修改甚至重做。调查显示,40%的员工上个月就收到过这种垃圾,平均每件要浪费近2小时,算下来一个万人大公司每年损失几百万美元。更糟的是,这不仅烧钱,还伤感情——收到垃圾的同事会觉得你能力不行、不靠谱,团队信任直接打折扣。所以文章提醒企业别搞‘一刀切’强制用AI,得制定明确使用规范;鼓励大家像飞行员那样主动驾驭AI,把它当协作工具增强创造力,而不是偷懒的捷径。说到底,AI用对了是神器,用错了就是坑队友啊。
31.AI 真的会写 90% 的代码了(宝玉的分享)
最近看到一篇挺有意思的文章,说AI现在能写90%的代码了,但别慌,这可不是要抢我们饭碗!作者分享了自己的亲身经历,发现AI其实是在帮我们处理那些重复性的琐碎工作,比如写测试代码、修复bug、快速搭建原型什么的。这样一来,我们工程师反而能腾出手来专注于更有价值的设计和架构工作,效率最高能提升120%以上呢!不过要玩转AI编程也不是那么容易,你得有扎实的代码基础,懂得怎么把复杂任务拆解成小步骤,还得学会用清晰的提示词跟AI沟通。现在我们的工作重心正在从手写代码转向管理AI工具、审查AI生成的代码,感觉像是从码农升级成了AI教练,挺有意思的转变。当然,这种效率提升也可能带来一些连锁反应,比如团队招聘需求减少,新人机会可能变少,这些都是我们需要思考的现实问题。
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI讨论、领袖观点
1.陶哲轩论AI时代社会结构失衡与个人困境(宝玉(@dotey))
数学家陶哲轩最近分享了一个挺戳心的观察:AI技术看似让生活更便利,实际上却在悄悄改变社会结构。他发现技术发展对个人能力的提升其实很有限,反而让大公司、大机构变得越来越强大,小组织却逐渐被挤压得没地方站了。这种不平衡虽然带来了物质上的舒适,却让很多人感到孤独、疏离,甚至产生无力感和悲观情绪。更让人担忧的是,大组织试图用那些像’垃圾食品’一样的合成情感产品来填补空白,但这些虚假的亲密感根本解决不了问题。陶哲轩警告说,如果任由AI这样发展下去,这些负面趋势只会越来越严重,这确实该让我们好好思考技术到底该往哪个方向走。
2.颠覆性AI论文解读:通用智能体必然自带“世界模型”(宝玉(@dotey))
最近有篇颠覆性的AI论文提出了一个让人震撼的观点:任何能完成复杂任务的AI智能体,不管有没有被刻意设计,都会在内部自动构建一个环境预测模型,也就是所谓的’世界模型’。研究人员用严谨的数学方法证明了这一点,发现世界模型其实是智能体获得通用能力的必然副产品。这意味着我们过去对’无模型’方法的很多假设可能站不住脚了。更酷的是,这项研究还展示了如何通过’审问’AI来反向推导出它隐藏的世界模型,这为提升AI的安全性和可解释性打开了新的大门。感觉整个AI领域的研究方向都要因此改变了,未来大家可能会更关注如何构建和利用这些必然存在的世界模型。
3.#245. 强化学习之父萨顿:LLM 走错了路,真正的 AGI 要向松鼠学习(跨国串门儿计划)
强化学习之父Richard Sutton这次真的放了个大招!他直接指出当前火爆的大语言模型可能走错了方向——这些模型只是在模仿人类语言,却没有真正理解世界,缺乏明确目标和真实互动能力。Sutton教授坚信强化学习才是通往通用智能的正道,通过‘感觉-行动-奖励’的循环让AI从经验中学习预测和调整,就像松鼠通过试错掌握生存技能那样自然。他还抛出了个震撼观点:AI的崛起标志着宇宙从生物复制时代迈向了智能设计时代,人类应该以开放心态引导AI融入正直等普世价值观。听完这些,你会重新思考什么才是真正的智能。
4.#244.黄仁勋:AI 是新的工业革命,OpenAI 将是下一个万亿级公司,我们的护城河从未如此宽阔(跨国串门儿计划)
黄仁勋这次对话真是信息量爆炸!他把AI定义为新的工业革命,预测推理需求会有十亿倍的增长,这数字听着就让人震撼。英伟达的护城河居然这么宽,连竞争对手免费送芯片都打不过,因为他们的系统每瓦性能优势太明显了。更劲爆的是他首次透露了和OpenAI的千亿美元‘星际之门’合作,要帮OpenAI自建全栈AI基础设施,还大胆预测OpenAI会成为下一个万亿级公司。关于中美竞争,他的观点很务实,认为美国应该在中国市场竞争而不是脱钩,把市场让给对手太傻了。他还提到AI会重塑全球GDP,推动再工业化,创造新工作而不是导致失业,这些观点都让人对AI未来充满期待。
5.喝点 VC|a16z 联合创始人 Ben Horowitz 分享 460 亿美元风投巨头的创业生存法则(Z Potentials)
硅谷顶级投资人Ben Horowitz这次聊得特别实在,把创业那些事儿说得明明白白。他说真正的领导者就得在困难时刻果断拍板,哪怕大家都不理解也要坚持做对的事,这种魄力才是创造价值的关键。创业者们经常被各种错误打击得没信心,但他认为失败太正常了,关键是要学会直面恐惧,把每次失误都当成成长的养分。关于AI投资,他特别强调现在根本不是泡沫,基础设施和应用层都有巨大机会,特别是那些能理解人类复杂行为的AI产品。管理团队方面他有个很犀利的观点:CEO别总想着把普通员工培养成专家,而是要找到那些能让公司真正伟大的人。他还分享了用嘻哈文化建立团队信任的独特方法,这些实战经验对正在创业或带团队的人来说特别有启发。