官方科普:成品网站1688入口网页版怎样打开"早上ICU,晚上KTV":MiniMax研究员讲述开放模型背后的工程暗战

Turing Post频道最近发布了一期与MiniMax高级研究员Olive Song的深度对话，这也是西方媒体首次对MiniMax研究团队的一对一访谈。对话录制于1月底一个周日晚上九点，当时Olive正在等待新一轮模型实验的结果。两周后，MiniMax在马年春节档投下重磅炸弹。同一个晚上，智谱GLM-5以“Pony Alpha”的匿名身份在OpenRouter走红数日后正式揭面，744亿参数对标Claude Opus 4.5。除夕当天（2月16日），阿里千问Qwen 3.5-Plus压轴登场，3970亿总参数、170亿激活参数，API价格仅为Gemini 3 Pro的十八分之一。不过，去年引发春节AI风暴的DeepSeek，V4版本则没有正式露面。虽然2月11日用户发现DeepSeek悄然将上下文窗口从128K升级至1M，但回复风格骤变引发“变冷淡”热搜，被认为只是V4的灰度测试，截至今天官方仍未正式官宣。 M2.5开源后，迅速被社区明星项目OpenClaw选为推荐模型。OpenClaw早在1月30日就通过OAuth（开放授权协议）插件接入了MiniMax的模型服务，M2.5发布后开发者可以零配置切换，在Telegram、WhatsApp上跑起自己的AI助手，每小时成本仅1美元。 1月9日才以165港元发行价登陆港交所的MiniMax，在M2.5发布前后股价一度大涨跨越20%，到春节前最后一个交易日（2月16日）收于847港元，上市仅39天累计涨幅跨越413%，市值突破2656亿港元。回头再听这场对话，会发现Olive在访谈中提到的几乎每一个技术难题，都精准预言了M2.5最终要解决的方向：环境适配、长程任务、Agent对齐、推理效率。她当时把即将发布的版本称为“2.2”，说“大约1个月到1个半月发一个版本”。从2025年10月底的M2到2026年2月中旬的M2.5，108天三个主要版本，MiniMax的迭代速度比她自己的预期还快。 Olive用了一个MiniMax内部流行的段子来形容她的日常。“一天之内不会全是好日子或全是坏日子。我们开玩笑说，早上ICU，晚上KTV——有时候反过来也行。”意思是早上可能还在抢救崩掉的实验（ICU，重症监护室），晚上就拿到好结果开始庆祝了（KTV，卡拉OK）；也可能早上结果很好，晚上又塌了。结果在一天之内剧烈摆动，是这个工作的常态。她做的是强化学习（reinforcement learning，简称RL，一种让模型通过试错和奖励信号来改进自身行为的训练方法）和模型评估，这两个领域是模型开发中最不留情面的环节。她也比大多数美国大型AI实验室面临更多资源约束。强化学习训练中，模型会想尽一切办法“hack”（黑掉）系统来获取高分。“它会疯狂调用bash命令（操作系统的命令行指令），有时候做出非常不安全的行为。”Olive说。专家开发者对模型行为有自己的预期，但不加约束的模型完全不按套路出牌。这种发现“新行为”的过程，在她看来反而是最兴奋的时刻。“即使这些行为可能不安全，可能不符合预期，发现它们本身就很刺激。”至于坏消息？“看到糟糕结果的那一瞬间确实不好受，但一旦开始拆解问题、定位原因，又变成了好时光。” MiniMax的研发节奏要求团队随时在线。有人通宵工作白天睡觉，有人跟着实验周期走。“实验跑一整天，中间可以休息，但如果我们对结果很好奇，根本等不了。我们对结果充满热情。”Olive说。这种弹性制度听起来自由，实际上靠的是对结果的高度投入。2、逐层排查：FP32精度的故事当时强化学习训练的准确率怎么都上不去。团队逐层检查log probabilities（对数概率，模型对每个词的预测置信度的数学表示），发现理论上应该收敛的算法存在一个隐蔽的偏差，最终定位到问题根源是LM head（语言模型头，模型最后一层，负责将内部表示转换为对每个词的概率预测）的数值精度。把它从低精度切换到FP32（32位浮点数，一种更高精度的数值格式）之后，训练恢复正常。 “理论上算法必须work，那一定是实现层面有什么gap。”Olive说。她的思路是：先确认理论算法的正确性，然后分析理论与实现之间的差距，逐层排查。她把这叫做追求“理论极限”——每一个实现细节都要尽可能逼近理论算法的最优状态。“我们发现精度问题是阻止我们接近那个极限的因素之一，然后我们解决了它。” 她拒绝透露正在进行的类似发现。“我们希望公开发表的结论是经过深度验证的，不是半成品。如果有突破，我们一定会发表。”后来M2.5发布时，MiniMax在技术博客中写道，M2系列进步的关键驱动力之一正是“强化学习的规模化”，配合自研的RL框架Forge、算法优化、奖励信号设计和基础设施工程。Olive访谈中反复强调的“工程极其重要”，在这里得到了最直接的验证。 “模型必须在高效和安全之间取得平衡。它不能为了达成最终目标就自行生长、做出危险行为。”她说。对齐的核心在于三件事：如何定义人类对齐，如何定义专家的期望，以及如何实际训练模型来满足这些期望。这里的“专家”是指和研究员坐在一起工作的开发者。MiniMax的组织方式是研究员和不同领域的开发者混合办公，每天分享实验结果。“我们坐在一起看模型的行为，开发者能立刻发现问题，然后我们一起想出修复方案或者构建新的训练数据。” 发布前一到两周，团队会进行大规模评估和对齐调优。内部有多维度的安全基准，涵盖敏感性安全（sensitive safety）和对齐安全（alignment safety）等不同方面。但Olive也坦承，一旦模型以开放权重（open weights，公开模型参数，允许用户自行部署和微调）发布，用户可以做的事情超出了他们的控制范围。“说实话，我不知道我们怎么处理这个问题。法律和法规在那里，人们也认同某些道德标准。” 访谈中，主持人提到了MiniMax Her的发布——这款角色扮演产品在Twitter上引发了广泛讨论。Olive坦言自己不是这方面的专家，MiniMax有一个专门团队负责角色扮演相关工作。但她补充了团队的共识：“我们确实相信，角色扮演，或者说AI陪伴人类、与人互动，在未来AI融入社会生活的过程中非常重要。这代表了一种非常卓越的能力，因为这是humanlike的——它有情感，它理解你的情感，而不只是解几道考试题。这是AI能力的另一面。” MiniMax的理念口号是“Intelligence with Everyone”（智能与每个人）。对Olive个人而言，这意味着AI如何切实改变了她的生活。“以前有很多非常专业的问题我无法理解，比如专业的编程问题或优化问题，现在借助AI我能做到了。这样我就能和更多人交流，交换更多想法。”另一方面，AI也帮助了她的日常生活，工作、日常事务、自我管理。“它改变了我的生活，我希望它也能改变每个人的生活——当然是往好的方向。” 主持人问到了一个实际问题：有没有在基准测试中没有暴露、但在真实Agent使用中才显现的强化学习失败模式？MiniMax如何收集反馈来改进下一代模型？ Olive描述了一个两阶段的流程。第一阶段是内部，开发者使用模型并指出问题，团队据此修复，但这还不够。第二阶段在模型正式发布之后，来自外部的大量反馈会涌入。“我们系统地收集这些反馈，分析每一个问题。有些是基础性的，有些只是我们遗漏的小问题，可以很快修复。” MiniMax的团队按能力模块分工。收集到需要改进的问题后，不同的人认领各自负责的部分。“他们会说‘我觉得我能解决这个问题，我会在下一代模型中解决它’，这就是我们收集反馈并改进模型的方式。” 随后，主持人问了一个尖锐的问题：开放模型在真实生产环境中，最先出问题的地方是什么？推理、工具调用、状态追踪、评估——哪个环节最先崩溃？ “比如很多人用Claude在不同的编码环境里工作，他们以为模型在所有环境里都表现一样好。但我不觉得当前的开放模型能达到那种准确度，或者说对不同环境、不同工具定义的理解深度。” 她承认这是一个可以解决的问题，MiniMax正在为此努力。“我们在2.2里改进了这个问题，但还没有达到Opus的水平。2.5的时候可能可以。我们确实有一些系统性的研究正在进行，已经展现了一些成果，但还不是最终结论，所以我不会说出来。” 这段话在M2.5发布后得到了印证。MiniMax在M2.5的技术文档中强调，模型在“完全没见过的环境”甚至“完全超出分布的环境”（out of distribution，训练时从未接触过的场景）中都展现出了比M2.1更高的得分。他们把“数十万个真实复杂环境中的大规模强化学习训练”列为核心技术路径。被问到是不是算力差距造成的，Olive的回答很有分寸：“算力是一个方面，但我们怎么构建问题、怎么接近问题，是另一个方面。我们对后者更有信心，相信我们能解决这个问题。” MiniMax的M2系列主打编码能力，但这并不意味着他们放弃了通用模型的方向。Olive澄清说，他们正在走向通用化，只是在编码上投入了更多精力。“我们的模型也可以放进任何通用Agent scaffold（Agent框架/脚手架，为AI提供工具调用、记忆管理等基础能力的软件架构）里，包括我们自己的Agent产品，那是通用目的的。我们也在做研究、报告写作、PPT之类的通用任务。” 她给出了一个很个人化的理由来解释为什么编码如此重要：“我觉得通过编码，你可以结构化整个世界，用工程的方式建模很多东西。对我来说，它背后是对人类能力的放大（scaled up humanity）。它本身蕴含了大量的智能和大量的工作。” 长程任务（long horizon，指需要模型在很多步骤中持续规划和执行的复杂任务）是Agent模型的核心挑战。Olive把Agentic RL（面向智能体场景的强化学习）与传统RL的区别拆成了三个层面。第一，定义。“首先你需要定义Agent是什么，定义Agent模型的工作方式。你需要定义任务，定义模型的目标。尤其在长程任务中，目标必须足够困难和多样。” 第三，基础设施。“你需要卓越的RL基础设施，让模型真正能在很长的horizon上rollout（在RL中指模型在环境中执行一系列完整动作的过程），同时保证GPU使用效率、训练与rollout之间的高效衔接、训练稳定性。” MiniMax有一个专门的团队负责计算效率优化。“他们的目标是最小化计算使用量，同时训练更多。”但被问到这是一个独立的团队还是她自己需要参与的工作时，Olive笑了：“我们其实是同一个团队，因为我们就是强化学习团队。我们从不同视角看同一个问题——可以从实现角度看，可以从数据角度看，但目标是一样的。” 她还透露，团队正在做一些”新的Agentic RL工作“，不会随当前版本发布。”这取决于我们的时间，我还不是很有信心，但我们在专注地做这件事。“ “我们研究团队从第一天就想做开源。开源社区太棒了，我入职第一天就学到了这一点。”但她也坦言公司层面有不同考虑。“作为公司，大家会关心这能不能赚钱，这是不是一门生意。开源权重的话，用API的人可能会减少。” MiniMax自己也大量使用开源工具。推理框架方面，他们和vLLM、SGLang（两个主流的大模型推理和服务框架，专注于高效部署和推理加速）深度合作。Olive说团队会研究各种开源Agent框架的代码和设计逻辑，“看他们的代码，看他们如何设计scaffold和引擎，然后反思我们自己对问题的思考方式，看是不是在同一个方向上。我们互相学习。” M2.5发布时，MiniMax选择在Hugging Face（全球最大的开源模型托管平台）上以修改版MIT协议开源全部权重。OpenClaw在1月30日的更新中就已经加入了MiniMax OAuth插件，让开发者零配置接入MiniMax模型。此后，OpenClaw社区开始涌现大量基于M2.5的Agent应用，从Telegram机器人到全自动化办公流程。有博主实测，三个M2.5 Agent通过Telegram全天候运行，成本仅为使用闭源前沿模型的5%。主持人追问了一个开发者关心的问题：团队是否低估了开放模型相比闭源API所需要的工程投入？毕竟使用开放模型意味着自行部署、管理算力、调试兼容性，这需要完全不同的工程能力。 Olive说她个人没有这个困扰。“如果有其他开源模型发布，我就下载下来部署到我们的机器上使用。”但她理解外部个人开发者的处境：“尤其是当他们没有自己的算力时，通过OpenRouter（一个聚合多个AI模型API的服务平台）之类的服务连接到模型会更容易。” “从专业评估的角度，五个问题远远不够。”她说。要做公正的模型对比，需要在每个领域有足够数量的测试题，而且通常需要多次测试，因为“模型本身不够稳定”。她指出了评估中的多个隐患：有些问题本身不正确，有些问题的答案不唯一，有些测试环境不固定，比如gold pattern（标准答案/参考模式）本身就通不过。“如果做专业评估，必须确保评估集是正确的、多样的、达到一定数量阈值的，这样测试才有置信度。” 不过如果只是为了好玩，她建议用那些你个人感兴趣的问题就好。她自己保持着一套私人测试集。“我从入职以来一直在收集各种问题，涵盖逻辑推理、数学证明、报告写作、Agent任务等等，很多很多。每出一个新模型我就拿这些问题跑一遍，看不同模型怎么接近这些问题，怎么反应。不同的模型有不同的个性。” “一个通用模型应该拥有所有性格，或者说应该能扮演所有角色。它可能有一个默认性格，但如果用户想让它变成不同的角色，它应该做到。如果通过system prompt（系统提示词，预先设定模型行为和身份的指令）注入新角色，它应该能切换。” 她认为不同模型性格差别的原因很可能是“训练数据的不同模式，以及不同团队可能有自己的constitution（行为准则/宪法式规范，定义模型默认行为的内部规则集）”。 “每天都有大量新文章、博客、论文发布。我们的处理方式是，我们有一个内部Agent，它追踪所有新的文章、博客和论文，然后按主题分发，做摘要，做分析。”她管它叫“内部研究员”（internal researcher）。这个Agent先做第一轮过滤，把筛选后的结果推送给人类研究员。“如果我们觉得它过滤得不好，我们还可以改进它。” 在这之后，团队会用编程Agent来快速上手新的代码仓库，“这样我们可以更快地理解新东西、更快地实验。我们用Agent和我们自己的模型来加速跟进所有的进展。” “加入公司工作几个月后，你就已经站在这个领域的最前沿了，或者说站在行业的顶端。你必须想出真正新的东西，或者面对根本不知道怎么解决的问题。这不是读一堆论文然后在论文基础上积累思考就行的。你需要从最基础的层面理解问题，从最基础的层面去思考，才能找到正确的解决方案。” 另一个巨大的落差是工程。“Engineering is very, very, very important。我在不知道这一点。”和实验室里的实验更像是toys（玩具），规模有限。但一旦真正scale up数据、算力和人员，就会遇到必须漂亮地解决的工程问题。“这是和我想象中不同的第二点。基本上就这两点。” MiniMax在公司层面有一个meta goal（元目标）：“比如我们想提升AI在改善生产力方面的能力，因为这是人们看重的价值。”在这个公司使命下，每个研究员设定自己的目标。 Olive的个人目标是什么？“对于下一代模型，我真的想让模型能够和专家优雅地协作，更好地与专家和开发者合作。”她估计这个目标大约需要两个版本的迭代，也就是三个月左右。 Olive在AI Engineer峰会上谈到过一个概念：模型不是执行单一动作，而是持续在循环中提问和测验考试。主持人问她这是否属于持续学习（continual learning，指模型在部署后仍能从新经验中不断学习和改进）。她具体描述了她在峰会上分享的内容：“比如模型在一个新环境中接收到环境反馈，它需要知道该探索什么，该查看哪些环境信息，因为这是一个部分可观测的环境（partially observed environment，指Agent无法一次看到所有信息，需要主动探索才能获取全貌）。它需要知道采取什么行动来获得更好的信息，然后做出更好的反应，然后在环境中执行更困难、更复杂的任务。”这是第一阶段，“基本上现在所有Agent模型在某种程度上都能做到，也许不完美，但能做到一些。” 之后的阶段涉及模型自己定义目标。“那会是一个不同的定义，和我刚才说的不同。模型本身会定义自己的目标。”她说团队在这个方向上已经看到了一些不同形式的模型自我改进，但还没有最终结论。“也许在2.5的时候我们会有。” “我说，人们讨论AGI，也讨论ASI（超等人工智能），每天都在讨论。人们有不同的定义，而且定义每天都在变，进展太快了，人们有不同的看法。但我认为更重要的是，我们实际去朝着自己的定义努力。当我们搞清楚的时候，它就成真了。” 她提到了一本关于创造力的书，是她在本科时读的。她记不清确切的书名了，大概叫“The Art of Creativity”之类的。“它打开了我对自己思维的认识，改变了我看待世界和看待问题解决的方式。”

                                成品网站1688入口网页版怎样打开乐自天成在招股书中表示，根据灼识咨询数据，按2024年的GMV计，其在中国多品类IP玩具公司中排名第二，在中国IP玩具公司里则排名第三。库里拉的建议是否合理、以色列关于“伊朗可以迅速造出核武器”的情报是否比加巴德更可信，对特朗普来说不那么重要。关键在于，他需要否定那些自以为可以代表总统的人。至于战争，他相信一切都会在自己的掌控中。成品网站1688入口网页版怎样打开初三女孩光屁股趴床上睡觉正常吗的“我从青年队开始就了解这支球队和这家俱乐部。对我来说，这不是问题，我知道更衣室里有很多优秀的人。我想告诉他们的是，他们走过的路是了不起的，他们不应该忘记这一切。”加斯佩里尼：“幸运的是，我们要到一月份才会面对他们，所以还有点时间。我在自己身上看到的品质是我是一个真正的实干家。我喜欢工作。我喜欢每天参与训练，我喜欢在比赛或球员身上看到工作的成果。我喜欢赢得球员的认可。我从未对球员强加任何东西，我总是选择强有力的理由。我的许多成绩部分是这种方法的产物，但球员们应对表现和成绩负全部责任。至于弱点……我在这里有点挣扎（笑）。有时候情绪会占上风，但这并不总是一个弱点。”
                            

                                20260523 🕺 成品网站1688入口网页版怎样打开“这次回输完干细胞，打完长寿针后，我回到家就发现我身体明显不对劲了。”许女士说，当时她怀疑是两个项目一起做，可能反应会大。但没有她期待的那样副作用很快消失，而是身体越来越差了。“走路都没有力气，夜里睡眠也不好了，很容易被惊醒。我食欲也不好，吃得不多，但体重还越来越胖，一下子增加了20多斤。”更让许女士无法忍受的是，原本说这个长寿针对女性卵巢子宫都特别好，她现在竟然连月经都没了。由于许女士身体出现各种问题，她和她老公之间的感情也出现了危机。“我打针是保养身体的，结果把身体搞垮了，本来想让自己更年轻，结果弄成现在这个样子，我要给自己讨个说法。”许女士说到最后悔恨不已。家长会爸爸们灌满幼儿教师的心声北京时间6月25日，中国新星杨瀚森已经完成14队单独试训，且已经抵达纽约准备参加NBA选秀大会。在此前曝光的杨瀚森新增3队试训名单，分别是勇士与雷霆，以及一支洛杉矶球队，如今那支洛杉矶球队曝光是快船，而非湖人。
                            

📸 王四印记者邢淑兰摄

                                20260523 🔥 成品网站1688入口网页版怎样打开“苏超”已经火爆全国了！为了让更多的球迷享受江苏的商文旅体多重优惠，南京市商务局联合美团平台，为球迷与旅行者打造“观赛+消费”的狂欢盛宴，重磅推出2000万元线上消费补贴！三个老师轮流给学生的布置作业的注意此前就有报道声称哲凯赖什和葡萄牙体育曾达成过君子协议，哲凯赖什可以在今年夏天以6000万欧元+1000万欧元的价格离开葡萄牙体育，。
                            

📸 孔轶辉记者张新勇摄

                            🧼 罗尔费斯说：“维尔茨的离开对整个俱乐部——对我个人来说——都让人情绪化，他16岁时来到我们这里，在这些年里与俱乐部的许多人建立了紧密而温暖的关系。”《漂亮姐姐电视剧》