第一时间捕获有价值的信号
⼤家好,Weekly Gradient第 67 期已送达,本期内容全面分析2025年9月AI行业技术发展、应用渗透和资本动态,涵盖多模态AI竞争、AI Agent重塑生态、开源模型进展及投资泡沫探讨,提供权威行业洞察。
AI 商业化
聚焦AI行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM策略、SaaS转型等商业分析
1.1 个 AI Agent=4 个工厂老师傅?|和王筱圃聊时序大模型和 toB Agent 这门生意(十字路口Crossing)
这期播客太有意思了!疾风科技的王筱圃分享了AI Agent在工业领域的真实应用,原来一个数字工人就能顶替四个老师傅的工作。他们用时序大模型预测未来趋势,让数字工人学会观察、思考和执行,在垃圾焚烧电厂实现了完全无人值守,不仅效率更高还更省钱。最妙的是他们创新的商业模式——像劳务派遣一样,企业按月支付数字工人工资,大大降低了AI应用的入门门槛。这让我们看到AI真的在改变传统工业,把人从重复劳动中解放出来去做更有创意的事情。
2.Vol.72 技术、应用、资本,2025 年 9 月 AI 行业综述---154 页 PPT(屠龙之术)
2025年9月的AI行业真是热闹非凡!OpenAI定义的强化学习范式让AI模型像做题一样快速进化,中美在开源模型和多模态技术上激烈竞争,中国厂商在视频生成领域表现尤其亮眼。AI Agent正在重塑整个互联网生态,建立数据库的速度远超人类,而AI Coding已经成为首批实现产品市场契合的重要方向。不过资本市场有点疯狂,科技巨头疯狂投入基础设施,一级市场项目估值高得吓人,SPV融资泛滥,让人不禁担心是不是存在泡沫。更现实的是,虽然AI应用增长迅猛,但高昂的模型成本让毛利率普遍偏低,大家都在苦苦寻找新的增长点和定价策略。这期154页的PPT把技术、应用、资本三个维度讲得透透的,既有机遇也有挑战,值得好好看看。
3.6000 字复盘:Google AI 变猛记——从 Nano Banna、Genie 3、Veo 3 到 Gemini 2.5 的绝地反击(十字路口Crossing)
Google AI这一年真是打了个漂亮的翻身仗!从被调侃的追赶者摇身一变成了领跑者,Gemini 2.5 Pro在聊天机器人竞技场直接屠榜,还拿了国际数学奥赛金牌,这实力简直让人惊叹。更厉害的是多模态领域,那个代号Nano Banana的图像模型和Veo 3视频生成模型,在视觉理解和长视频生成上完全碾压竞品,把实验室技术快速变成了实实在在的用户体验。DeepMind搞的Genie 3世界模型更是野心勃勃,能生成可探索的3D虚拟环境,明显是在为未来的通用人工智能铺路。背后支撑这一切的是Google大刀阔斧的组织调整——Brain和DeepMind合并,加上Google Labs的创新机制和全面转向AI优先的战略,终于把积累了十几年的技术储备高效转化成了产品竞争力。
4.GLM-4.5 编码套餐:20 元包月,人人畅享全球顶级 Claude Code 编码体验(智谱)
智谱AI这次真的放大招了!推出每月只要20元的GLM编码套餐,直接让顶级AI编程体验变得触手可及。GLM-4.5在多项专业评测中表现超强,不仅和GPT-4.1、Claude这些国际大模型打得有来有回,还在BFCL v4基准测试里拿了全球第一。更厉害的是他们专门搞了个CC-Bench评测体系来测试Agentic Coding能力,结果证明GLM-4.5在复杂编程任务和工具调用方面都特别可靠。现在花Claude Sonnet 4七分之一的价格就能用上同级别的编码助手,还接入了各种主流编程工具,这波性价比简直拉满了。
5.「Vibe Coding(凭感觉编程)」的成功故事,没你想的那么简单(宝玉的分享)
最近有个叫CreatorHunter的产品火了,号称靠‘凭感觉编程’就能轻松赚钱,但真相可没这么美好。创始人Paulius Masalskas的成功其实更多是靠他多年积累的人脉和营销技巧,而不是单纯依赖AI生成代码。那些宣传的几万美元收入,扣除成本和时间投入后,其实并不惊人,而且产品的隐私政策和退款条款还有不一致的地方。‘凭感觉编程’更适合用来快速验证产品原型,真要构建可持续的商业产品,光靠这个可不够。最后提醒大家,别被那些美化过的创业故事忽悠了,保持批判性思维才能在AI时代走得更稳。
6.Founder Mode 主导,按结果付费带来 300%增长,Intercom 的 AI 转型为什么能成?(Founder Park)
Intercom 这家 SaaS 老牌公司曾经陷入增长困境,净新增 ARR 连续下滑,但创始人 Eoghan McCabe 回归后彻底改变了局面。他采取强硬的创始人主导模式,大刀阔斧裁员、砍掉非核心业务,聚焦客服领域,并迅速推出了 AI 客服产品 Fin。最厉害的是他们的定价策略——不再按传统 SaaS 的席位收费,而是按结果付费,99 美分解决一个问题,这种简单透明的模式直接带来了超过 300% 的增长。转型过程中还重塑了企业文化,严控成本,明确战略方向,吸纳 AI 人才,最终打造出高效高凝聚力的团队。AI 正在根本性重塑所有行业,企业必须全力以赴转型,否则就会被淘汰,Intercom 的成功就是最好的证明。
AI 产品设计
探索AI原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent设计等
1.GPT-5 Thinking in ChatGPT (aka Research Goblin) is shockingly good at search(Simon Willison’s Weblog)
哇,GPT-5这次真的让人惊艳!Simon Willison把它当成自己的研究小助手,发现它在搜索方面简直强到离谱,不管是查个小知识还是做复杂调查,都比手动搜索快得多还更全面。它特别擅长调用各种工具,还能像人一样一步步推理,通过多次搜索和思考得出精准答案。最棒的是在手机上也能高效工作,随时随地满足好奇心,再也不用抱着电脑开一堆标签页了。虽然还得保持点警惕,不能完全依赖,但这家伙确实把信息检索带到了新高度,感觉以后做研究会轻松不少呢!
2.AI 是具身智能的胜负手吗?半年融资 3 亿后,VBot 首款产品做得怎么样?|对谈维他动力联创赵哲伦(十字路口Crossing)
维他动力半年融资3亿后推出的首款消费级具身智能机器狗VBot,彻底颠覆了传统遥控机器人的交互方式。通过融合自动驾驶和大模型技术,VBot能自主移动并以肢体动作、音色等非语言方式与人互动,这种自然交互体验让人感觉更像在和一个有生命的伙伴相处。选择四足机器人切入ToC市场是个聪明策略,既利用了相对成熟的本体技术,又能快速实现商业闭环。更厉害的是他们坚持软硬件全栈自研,虽然挑战巨大,但为未来开发更复杂机器人打下了坚实基础。赵哲伦还分享了机器人行业正在进入第三代——AI融合阶段,未来会分化为室外四足和室内轮式机械臂两大方向,共同提升我们的物理世界体验。从理想汽车离职创业的他,对产品化和商业化难题的思考特别实在,没有空谈概念,而是聚焦如何做出用户真正用得起、用得上的产品。
3.#221. 如何打造一款备受喜爱的 AI 产品|对话 Granola CEO(跨国串门儿计划)
Granola 的 CEO Chris Pedregal 分享了他如何打造一款真正受欢迎的 AI 产品。他把 Granola 定位成“思考工具”而不是简单的会议记录器,强调通过 AI 增强人类智能,帮助用户处理更高层次的思考。为了在竞争激烈的市场中脱颖而出,他们大胆砍掉了 50% 的功能,坚持极简设计,打磨出让人惊艳的体验。面对 OpenAI 这样的巨头,Granola 选择聚焦特定用户群体,比如 VC 和创始人,提供深度定制化的极致体验,从而构建自己的竞争壁垒。Chris 还探讨了 AI 对人类工作和思考方式的深远影响,主张 AI 应该作为增强人类能力的工具,而不是导致能力退化。他分享了在伦敦创业却成功打入硅谷市场的经验,以及在产品发布时机、团队构建、技术栈选择和隐私保护等方面的独到见解。这期播客为 AI 创业者和产品人提供了宝贵的实战智慧,展望了 AI 作为“团队第二大脑”和个性化教练的未来潜力。
4.产品经理必读:AI 智能体架构指南——为什么能力强不等于用户爱用?**(宝玉的分享)
你有没有遇到过那种能力超强但就是没人爱用的AI产品?这篇文章简直戳中了痛点!原来问题不在技术多牛,而是架构设计和用户信任没跟上。文章手把手教产品经理怎么从上下文、数据、技能和评估四个层面做决策,还详细拆解了单智能体、基于技能、工作流和协作式四种编排模式的优缺点,告诉你该从简单开始别瞎折腾。最反常识的是,用户居然更信任那些会坦诚承认自己局限的智能体,而不是追求完美的家伙——通过置信度校准、透明推理和优雅转接,哪怕出错也能留住用户的心。这绝对是设计高采纳率AI产品的实用宝典!
5.#218. AI 时代的生存法则:Airtable CEO 亲述如何重塑十年老业务,从 CEO 回归一线码农(跨国串门儿计划)
Airtable的CEO Howie Liu分享了一个超有启发的观点:在AI时代,创始人必须亲自下场写代码、做产品,才能真正抓住AI的潜力。他们公司重组成了‘快思考’和‘慢思考’两个团队,一个疯狂迭代AI功能吸引用户,另一个稳扎稳打构建基础设施。未来的人才不能再局限于单一角色,产品经理、工程师、设计师都得跨界学习,通过‘玩’AI工具来激发创新。Liu还强调,企业要用AI原生的方式重新思考使命,别让过去的成功变成包袱。这简直就是给所有技术从业者的一剂强心针——行动起来,持续学习,成为真正的构建者!
6.想成为一名合格的 AI PM,先抛弃过去那些让你成功的经验(Founder Park)
AI时代的产品经理真得彻底转型了!过去那套功能搬运工的做法完全行不通,现在必须成为系统设计师,构建能够随时间复利的价值系统。核心在于选择数据、分发或信任作为护城河,在模型同质化的背景下通过工作流集成、用户体验框架、领域上下文和社区生态实现差异化。设计时要深度考虑成本问题,选择合适的AI注入节点和产品模式,还得内置防护栏确保安全。部署策略强调从小处着手,控制采用曲线,构建复利反馈循环。领导力层面需要推动PM具备系统思维,争取高层支持,建立结构化实验文化,组建专业团队,让AI战略真正融入组织DNA。文章还提出了实用的‘两周AI冲刺’方法,帮助团队高效验证价值,避免资源浪费。
7.7 天验证产品思路、10 小时找到基础共识:来自谷歌的“Foundation Sprint”完全指南(随机小分队)
如果你正在为AI产品的早期方向头疼,这个来自谷歌的Foundation Sprint方法简直太及时了!它就像是Design Sprint的前传,专门解决团队在客户、问题和竞争优势这些根本性问题上达不成共识的痛点。只需要10小时,通过2x2矩阵和魔镜工具,就能系统化地找到产品的独特优势,做出清晰决策。最打动我的是,在AI工具满天飞的今天,盲目追求开发速度反而容易导致产品同质化,而Foundation Sprint强调的“先思考再行动”恰恰能确保我们在正确的方向上加速。看看Latchet公司的案例就知道,这套方法真的能帮团队快速找到产品与市场的共鸣点,避免走弯路。
AI 工程实践
涵盖AI系统技术实现与场景化开发的全流程,包含工程架构、工具链实践、提示工程等核心技术环节
1.揭秘腾讯内部科研组织 ARC Lab:找最好的人才,做最难的事情(腾讯技术工程)
腾讯ARC Lab这个小而精的团队真是让人眼前一亮!他们坚持找最好的人才做最难的事情,专门攻克多模态理解和生成这些前沿难题。通过独特的‘技术影响力漏斗’机制,从学术到行业再到业务影响力层层递进,SEED、MindOmni这些统一大模型和Crafter视频重生成技术都达到了业界领先水平。更厉害的是,他们用H-Index、开源Star数等量化指标来评估成果,确保技术不仅理论扎实还能实际落地。这种技术影响力和人才吸引力形成的正向循环,为企业内部科研组织提供了超有价值的参考模式。
2.如何让 AI“看懂”网页?拆解 Browser-Use 的三大核心技术模块(阿里云开发者)
Browser-Use这项技术真的让人眼前一亮,它让AI真正学会了‘看懂’网页!传统RPA和爬虫遇到动态网页就头疼,但Browser-Use通过大语言模型的语义理解能力,实现了从规则驱动到认知驱动的跨越。核心在于三大模块:DOM树解析让AI精准识别网页结构和可交互元素,记忆管理模块通过消息截断和压缩解决了长任务执行的Token限制问题,工具注册机制则让AI能灵活执行各种浏览器操作。这种工程实践把AI的智能和浏览器的自动化完美结合,为复杂网页操作提供了全新的解决方案。
3.你的 AI“体检”了吗?开源 AI 红队测试平台,一键自查三大风险(腾讯技术工程)
现在的大语言模型动不动就被越狱攻击,现有的安全护栏和对齐训练都有明显漏洞,真是让人头疼。腾讯朱雀实验室这次开源了个A.I.G平台,专门做AI系统的主动安全测试,能一键检测模型抗越狱能力、扫描基础设施漏洞,还能揪出AI插件里的各种风险。操作特别简单,普通用户也能生成详细体检报告和修复建议,不用等出事了再补救。AI安全本来就是场持久战,这种开源工具正好让整个社区一起参与进来,持续发现和加固风险,确实挺实用的。
4.从 Prompt 到 Context:基于 1400+ 论文的 Context Engineering 系统综述(阿里云开发者)
哇,这篇综述真的把Context Engineering讲透了!原来这不仅仅是Prompt Engineering的延伸,而是LLM OS时代的核心开发实践。就像操作系统一样,我们不需要改动内核,通过精心设计输入和上下文就能‘编程’模型行为。文章还详细分析了Context处理不当会引发的各种问题,比如中毒、干扰、混淆和冲突,这些问题都会严重影响LLM的推理准确性和回应质量。更厉害的是,文章从内容类型和管理过程两个维度进行了系统分类,涵盖了指令、知识、工具、记忆等内容,以及写入、选择、压缩、隔离等处理过程,为开发者提供了非常实用的指导和最佳实践。
5.三重 Reward 驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践(阿里云开发者)
哇,这篇文章真的把AI运维的未来讲透了!现在AIOps面临系统太复杂、SRE人手不够、告警多到爆炸这些头疼问题,现有的解决方案都是零敲碎打不成体系。文章提出了一个超酷的三阶段演进路径:从基础功能到智能闭环,最后达到能自适应学习的高阶智能,实现主动防御。核心在于优化三重Reward——多智能体怎么协同工作、怎么找到模型最喜欢的上下文、怎么用强化学习动态调整模型权重。DeRisk系统通过知识引擎、推理引擎和工具资产的分层架构,把多智能体协同、上下文优化和在线学习完美融合,彻底超越了传统的Workflow模式,这才是真正可持续进化的风险智能系统啊!
6.一位工程师对“好代码”的 7 年思考(阿里云开发者)
一位工程师花了七年时间琢磨什么才是真正的好代码,从最初只关心功能实现,到后来全面考虑稳定性、用户体验、开发效率和成本优化。文章分享了阿里云金码奖的评审标准,教你如何量化评价代码质量,还通过具体案例展示了如何避免魔法值、集合性能问题这些常见坑。掌握设计原则和模式真的很关键,比如开闭原则能让系统更容易扩展,但也要注意别为了抽象而抽象,毕竟代码写得太复杂反而会增加理解成本。说到底,写好代码就像做艺术,需要在各种因素之间找到最佳平衡点。
7.Golang 后台服务性能优化,实用 Tips 梳理大全(腾讯技术工程)
Golang后台服务的性能优化原来有这么多门道!文章从最底层的GC机制讲起,详细拆解了三色标记和混合写屏障这些技术细节,让你明白为什么GC扫描会成为性能瓶颈。更实用的是,它给出了具体的内存管理技巧,比如用结构体和内存池减少堆分配,调整GOGC参数控制扫描频率,这些都能直接应用到项目中。缓存和并发优化部分也很接地气,异步处理、减少锁竞争、协程池都是提升吞吐量的关键。还提醒大家注意编程习惯,避免大日志和反射这些坑。最后用pprof和trace工具教你如何精准定位问题,甚至把性能考量提前到需求阶段,从源头避免性能问题,确实是一份系统又实用的优化指南。
8.RAG 效果不佳?先别急着微调模型,这几个关键节点才是优化重点(阿里云开发者)
如果你正在用RAG技术却总觉得效果不够理想,别急着去折腾模型微调!真正的问题往往藏在文档分块、索引、编码、检索和重排这些关键环节里。试试语义分块或多模态分块来提升检索精度,用混合检索结合关键词和语义匹配来平衡召回率和准确率,最后别忘了用重排序机制确保给大模型的是最相关的上下文。这些实操细节才是让RAG真正发挥威力的核心,赶紧检查一下你的流程吧!
9.量大管饱!让藏师傅疯狂涨粉的 Nano Banana 玩法合集 02(歸藏的AI工具箱)
藏师傅这期 Nano Banana 玩法合集简直太实用了!一口气展示了十几个超酷的应用案例,从把书法变成跳舞小姐姐,到把房屋平面图转成3D网页,再到用剩菜生成菜谱,每个案例都配了详细的提示词和操作步骤。最厉害的是 Nano Banana 和其他 AI 工具配合起来,能保持图像一致性,理解复杂的视觉指令,让创意工作流变得特别顺畅。如果你在做 AIGC 相关的工作或者只是爱好者,这些案例绝对能给你带来很多灵感,覆盖了艺术创作、产品设计、营销内容等超多场景。
10.Claude Code (CC) 专业编程实践指南与高效技巧(宝玉(@dotey))
宝玉老师分享的这份Claude Code实战指南太实用了!他不仅回应了AI生成代码的争议,还给出了具体操作建议:必须配合Git做版本管理,用抽卡模式快速迭代,plan mode规划复杂任务。特别强调代码审查要用VSCode对比视图,单元测试和bug修复时要给AI提供详细错误日志和复现步骤。他还建议选择React、Next.js这些流行技术栈,手动提供文档能显著提升AI理解精度,这些细节对开发者来说都是实实在在的干货。
11.Jina Code Embeddings: 为高质量代码搜索而生的 0.5B/1.5B 向量模型(Jina AI)
Jina AI这次开源的两个代码向量模型真是让人眼前一亮!他们用代码生成大模型做骨干网络,巧妙解决了高质量训练数据稀缺的老大难问题。0.5B和1.5B的参数量虽然不大,但性能直接飙到领域顶尖水平,甚至超过了某些闭源模型。最实用的是原生支持自然语言搜代码、代码相似性搜索等五种核心任务,还能处理15种以上主流编程语言。训练方案也很有讲究,全后训练确保每个参数都用在刀刃上,last-token pooling策略更是把检索性能推到了新高度。还贴心地提供了GGUF量化版本和多种集成方式,Matryoshka动态截断功能让性能与效率可以灵活调节,开发者上手特别方便。
12.吴恩达谈AI时代开发者人才需求与教育变革(宝玉(@dotey))
吴恩达点出了一个挺有意思的现象:企业抢着要会做AI应用的开发者,但计算机专业毕业生反而更难找工作了。他觉得问题出在大学课程没跟上AI工具的节奏,现在编程效率提升太快了。他列了AI工程师该有的几样本事:用AI助手快速开发、玩转提示词工程和RAG这些基础模块、会评估模型、搞AI智能体工作流,还有机器学习也得懂。最厉害的开发者是那些既懂计算机基础知识和软件架构,又能熟练用最新AI工具的老手。说白了,未来拼的就是把基础知识和AI技能结合起来,这才是核心竞争力。
13.Ari Morcos and Datology on the ‘Bitter Lesson’ of Data Quality in ML(Latent.Space(@latentspacepod))
嘿,你知道吗?Ari Morcos在Datology分享了一个超级重要的观点:在机器学习里,数据质量才是真正的王者,比模型架构或那些花哨的归纳偏置重要多了!过去大家总低估数据工作,但现在Datology正用自动化技术改变游戏规则,比如过滤、重新平衡数据,甚至生成安全的合成数据来提升性能。这不仅能帮企业更快训练模型、降低成本,还能让计算效率翻倍——想想看,高质量数据就像给AI加了涡轮增压,太酷了!
14.LangChain & LangGraph 1.0 Alpha Releases Announced, Targeting October Full Release(Harrison Chase(@hwchase17))
好消息!LangChain和LangGraph刚刚发布了1.0 alpha版本,这可是AI开发圈的一件大事。Harrison Chase亲自在推特上宣布了这个消息,团队正在积极收集用户反馈,为10月底的正式版做准备。LangGraph这次定位为一个低级的代理编排框架,专门解决复杂代理系统的持久执行和精细控制问题。而LangChain 1.0则是一个全面升级的版本,它构建在LangGraph之上,专注于中心代理抽象,还带来了LangChain Core中的新标准内容模块和一个全新的文档站点。如果你正在用这些工具做AI项目,现在正是参与测试、给团队提建议的好时机!
15.混元世界模型上新,综合能力问鼎 WorldScore 排行榜(腾讯混元)
腾讯混元刚刚发布了HunyuanWorld-Voyager,这可是业界首个原生支持3D重建的超长漫游世界模型!它把场景深度预测巧妙地融入视频生成过程,彻底解决了传统方法在空间一致性和探索范围上的老大难问题。现在不仅能生成长距离、世界一致的3D场景漫游,还能直接导出3D格式,简直是为虚拟现实、游戏开发和物理仿真量身定制的神器。最厉害的是,这个模型在WorldScore基准测试中拿下了综合能力第一,视频生成和3D重建任务都表现惊艳,妥妥的技术标杆。而且已经开源了,支持视频场景重建和3D物体纹理生成,开发者们可以赶紧上手体验了!
16.Nano Banana 邪修之王最强科研成果!教你自定义生图比例!(歸藏的AI工具箱)
嘿,如果你用过 Nano Banana 生成图片,肯定被它那不可控的输出比例折磨过吧?好消息来了!有人发现了一个超实用的技巧:原来 Nano Banana 在多图输入时会自动采用其中一张图的比例。基于这个原理,只需要准备两张图——你的原始图和一张预设好比例的模板图,再配上特定的英文提示词,就能让 AI 乖乖按你想要的尺寸重绘内容。文章还贴心地提供了各种常见比例的模板图下载,操作步骤也写得明明白白,就算不是技术大佬也能轻松上手。这下做视频或者统一风格的图片可就方便多了,绝对是个能提升生产力的宝藏方法!
17.开发更可控,部署更便捷:AgentScope 迈入 1.0 时代(通义大模型)
通义实验室刚刚发布了AgentScope 1.0,这可是个重磅消息!这个框架彻底解决了智能体开发中的三大痛点:失控、失忆和工具管理复杂。它由三个独立开源项目组成:核心框架就像编程语言,让你能实时控制智能体、智能管理上下文记忆、高效调用各种工具;Runtime相当于操作系统,用容器技术确保安全运行和灵活部署;Studio则是个可视化平台,实时监控性能还带评测系统。现在开发者终于能构建真正可控、可落地、可观测的生产级智能体应用了,开发效率和应用可靠性都大幅提升,绝对是智能体开发领域的一次重大突破!
18.拿下 30 个第 1 名的腾讯混元翻译模型,开源!(腾讯混元)
腾讯混元这次真的放大招了!他们开源的Hunyuan-MT-7B翻译模型在WMT2025国际比赛中横扫31个语种的30个第一名,用仅仅7B的参数就干掉了那些大块头模型。这模型不仅支持33种语言和5种民汉方言,连俚语和古诗都能精准翻译,简直是翻译界的全能选手。更厉害的是他们还推出了业界首个翻译集成模型Chimera-7B,能把多个模型的结果融合成更优质的翻译。最让人惊喜的是它的轻量化设计,配合FP8量化压缩让推理速度提升了30%,部署起来特别友好。现在已经在腾讯会议和企业微信里用上了,大家快去Huggingface和Github下载体验吧!
19.开源 SOTA:阶跃发布端到端语音大模型 Step-Audio 2 mini!(魔搭ModelScope社区)
阶跃星辰刚刚发布了Step-Audio 2 mini这个开源语音大模型,真的让人眼前一亮!它在音频理解、语音识别、跨语种翻译这些任务上都拿到了SOTA成绩,不仅超越了所有开源端到端语音模型,连GPT-4o Audio在大部分任务上都被它比下去了。最厉害的是它采用了真端到端多模态架构,直接从原始音频输入到语音响应输出,跳过了传统的ASR+LLM+TTS三级结构,这样不仅降低了时延,还能更好地理解副语言信息和非人声信号。模型还首次结合了链式思维推理和强化学习进行联合优化,让它在处理情绪、语调这些细节时更加精准,而且原生支持Tool Calling能力,可以直接联网搜索,解决了幻觉问题。从识别自然界声音到处理哲学难题,这个模型展现了惊人的多模态应用潜力,已经在GitHub、Hugging Face这些平台开源了,赶紧去体验一下吧!
20.开源 SOTA:阶跃发布端到端语音大模型 Step-Audio 2 mini!(阶跃星辰)
阶跃星辰刚刚开源了Step-Audio 2 mini语音大模型,这可不是普通的语音助手!它在多个国际基准测试中直接超越了Qwen-Omni、Kimi-Audio甚至大部分GPT-4o Audio的表现,真正做到了综合性能第一。最厉害的是采用了真端到端多模态架构,直接把原始音频转换成语音响应,跳过了传统的三级处理流程,不仅降低了延迟,还能更好地理解背景噪音和非人声信号。更让人惊喜的是,它首次在端到端语音模型中引入了链式思维推理和强化学习优化,结合外部工具调用能力,能精准捕捉说话人的情绪和言外之意,有效解决了AI常见的幻觉问题。现在任何人都可以在GitHub和Hugging Face上免费使用这个强大的模型,语音交互的未来真的来了!
21.推荐文章的提示词(宝玉的分享)
如果你还在为AI生成的推荐序干巴巴像摘要而头疼,这篇文章简直是及时雨!它分享了一段超实用的提示词,手把手教你让AI写出既有深度又吸引人的科技文章推荐。关键是把AI设定成‘科技专栏主笔’,瞄准普通科技爱好者,用平实睿智的风格输出。最厉害的是那个五步流程:先深度剖析原文,再构思吸引人的钩子,搭建逻辑桥梁,把原文金句无缝融入论证,最后升华价值——完全不是简单摘抄,而是独立成篇的精彩推荐。‘引用即融合’这点特别重要,金句要自然嵌入,不能生硬堆砌,这样AI写出来的东西才真实有说服力。直接用这个提示词到Gemini或ChatGPT试试,效果绝对惊艳!
22.A Technical History of Generative Media — with Gorkem and Batuhan from Fal.ai(Latent Space)
Fal.ai这家公司真是走了一条聪明的路!他们没去卷大语言模型的红海,而是早早押注生成式媒体这个赛道,从图像、视频到音频全面布局。最厉害的是他们自己写了100多个CUDA内核来优化推理性能,把生成模型跑得又快又稳。你看他们从Stable Diffusion时代就跟进,到现在支持Sora、Veo3这些顶级视频模型,每一步都踩在技术爆发的节点上。这种深度技术积累加上精准的战略眼光,让他们在生成式AI推理领域建立了真正的护城河。
23.吴恩达:不理解计算机的工作原理,你不可能单靠 Vibe Coding 就走向卓越,基础知识依然至关重要(宝玉的分享)
吴恩达最近聊了个挺扎心的话题:现在AI工具满天飞,但真正厉害的开发者反而更缺了!一边是AI工程师抢破头,另一边传统计算机专业毕业生找工作越来越难——大学教的东西跟市场脱节太严重了。老吴说,光会靠感觉用AI写代码可不行,最顶尖的那波人,都是既懂计算机底层原理、会设计软件架构,又能玩转AI工具的老手。别以为基础知识过时了,恰恰相反,懂计算机怎么工作、能处理复杂权衡的人,才是AI时代真正的香饽饽。
24.中美 Agent 创业者闭门:一线创业者的教训、抉择与机会(Founder Park)
嘿,最近AI Agent领域真是热闹啊!新一代模型能力飙升,直接把那些传统工作流编排给干趴下了,这波‘苦味教训’来得真猛。现在最大的难题是怎么让AI搞懂那些藏在企业里的隐性知识和协作规则,得靠上下文工程来破解。创业者们都在转向垂直深耕,通用Agent留不住用户也赚不到钱,还不如扎进具体场景玩专业。最让人兴奋的是记忆和学习能力要突破了,特别是情景记忆这块空白,主动收集过程数据、深度学习人机协作轨迹,这才是真功夫。技术路线也在分化,Workflow和自主编排会长期共存,但价值明显在往后者倾斜。
25.Temporal:Nvidia、OpenAI 都在用,为什么 Agent 还需要专门的长程任务工具?(海外独角兽)
你知道吗?像Nvidia和OpenAI这样的AI巨头都在用Temporal来解决一个关键问题:AI Agent在执行长时间任务时经常掉链子。传统Agent缺乏持久记忆,一旦程序崩溃或网络中断,任务就得从头再来,简直让人崩溃!Temporal的Durable Execution技术就像给AI装了个超级可靠的记忆系统,确保任务能从中断的地方自动恢复,完全不用开发者操心底层故障。它的架构设计特别巧妙,通过确定性工作流函数和Activity机制隔离不确定性操作,配合Task Queue实现异步通信,让整个系统变得异常鲁棒。更棒的是,开发者可以直接用Java、Go等熟悉语言编写工作流,完全不需要学习复杂的中间形式,大大降低了分布式系统开发的门槛。Temporal还采用了开源+云服务的双轨模式,既保持了技术开放性,又通过托管服务实现商业化,这种平衡真的很聪明。虽然未来可能面临AI Agent自愈能力提升和云厂商竞争的挑战,但Durable Execution在确定性运行时和Agentic应用方面的潜力绝对值得期待!
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI讨论、领袖观点
1.深度|OpenAI 联创:GPT-5 的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置(Z Potentials)
OpenAI联创Greg Brockman这次访谈真的让人大开眼界!GPT-5不再是简单的文本生成工具,它已经在国际数学奥林匹克这种超高难度任务上展现出接近人类顶尖水平的推理能力,真正开始触及深度认知领域。最关键的是,他们发现算力始终是AI发展的根本瓶颈,但通过强化学习和推理-训练循环的新范式,能大幅提升样本效率。更颠覆的是,AGI可能不是单一模型,而是多个优势互补模型组成的智能调度系统,就像GPT-5的路由器设计那样自动分配任务。Brockman还强调,未来AI应该把复杂性内化,让用户无需手动配置就能获得最佳体验,算力访问权将成为社会核心议题。这波AI进化不仅技术突破惊人,更预示着全人类都将迎来前所未有的机遇和挑战。
2.开发速度不是瓶颈(宝玉的分享)
你是不是也经常被催着快点开发新功能?这篇文章直接戳破了开发速度的迷思——原来写代码快慢根本不是产品成败的关键!真正卡住我们的是两件事:搞清楚用户到底要什么(验证),以及团队内部能不能顺畅协作(沟通)。亚马逊和Gmail这些成功产品都不是靠预设路线做出来的,而是不断试错、快速验证的结果。最扎心的是,就算像谷歌这样技术超强的公司,照样有一堆失败产品,说明光有开发速度根本没用。现在AI工具总吹嘘能加速开发,其实是在逃避产品成功的真正难题:你得花时间验证想法是否靠谱,还得确保团队别因为沟通问题反复返工。说到底,慢一点把产品做对,比快速做错要划算得多!
3.高效学习:构建知识的 20 条黄金法则(宝玉的分享)
如果你总觉得学习效率低下,记不住东西,这篇文章简直就是为你量身定制的!Piotr Wozniak博士提出的20条黄金法则,彻底颠覆了传统的学习方式。别再死记硬背了,先理解整体框架再填充细节才是王道。把复杂知识拆分成最小单元,用挖空填空等方法让记忆变得轻松有趣。最实用的是教你如何避开集合和列表的记忆陷阱,通过视觉联想、情感关联和个人经验来强化记忆。这些方法配合间隔重复学习法,能让知识牢牢扎根在脑子里,再也不用担心学完就忘了!