10秒详论!y31成色.232.1.232

近段时间，时不时就有用户抱怨如今的大模型 API 越来越像「薛定谔的猫」：有时候调用 GPT-5 显得极其聪明，有时候却像个智障。我们不禁怀疑大模型到底有没有在后台偷偷降智。现在，一篇来自 CISPA 亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》为我们揭开了一点谜底：那些你花真金白银购买的「第三方 API」，有可能偷偷把前沿大模型换成了廉价的替代品众所周知，受限于高昂的定价、支付壁垒以及特定区域的限制，直接访问 GPT-5 或 Gemini 2.5 等前沿大模型往往困难重重。这种限制催生了一个庞大的第三方代理服务市场。这些服务在学术界被称为「影子 API（Shadow API）」，它们声称可以通过间接访问，提供不受区域限制的官方模型服务。回顾过去，无论是某斯坦福 AI 团队挪用清华系开源大模型 MiniCPM 的风波（参阅报道《斯坦福爆火 Llama3-V 竟剽窃国内开源项目，作者火速删库》），还是市面上各种打着 GPT-4 旗号实际却调用廉价小模型的山寨网站，都让开发者防不胜防。 CISPA 的研究人员详细追踪了17个影子 API 服务，发现它们已经被引用进了187篇学术论文中，并对一部分具有代表性的 API 进行了针对性审计。这些论文里约有 62% 已经被 ACL 、 CVPR 和 ICLR 等顶级会议录用。其中最受欢迎的一个影子 API 已经积累了 5966 次论文引用，与其相关的一个 GitHub 项目更是获得了将近 6 万个星标。深入调查这些服务的合规性时，情况更加令人担忧。在这 17 个服务中，多达 11 个是基于 OneAPI 或 NewAPI 等开源 API 分发系统搭建的。离谱的是，这 17 个提供商中只有一家拥有正规的 ICP 备案，其余绝大多数都是个人运营的黑盒，毫无透明度可言科研结论如果建立在虚假的底层模型上，整个实验的地基就会随之坍塌。为了弄清楚这些影子 API 到底掺了多少水分，研究团队在科学推理领域（如 AIME 2025、GPQA ）和极其敏感的高风险领域（如医疗 MedQA、法律 LegalBench）对具有代表性的API进行了多维度的基准测试。当研究人员通过这些号称「完全一致」的影子 API 进行测试时，准确率直接断崖式下跌到了平均 36.95%。高达 47% 的性能缺口，意味着在一半以上的医疗诊断问题上，该模型可能给出致命的错误建议。高难度的逻辑推理任务往往是假模型的重灾区。在包含竞赛级数学题的 AIME 2025 测试中，某热门影子 API 遭遇了严重的精度滑铁卢，其提供的 Gemini-2.5-pro 准确率暴跌 40.00% ，而 DeepSeek-Reasoner 的准确率也急降了 38.89%。除了智商大打折扣，它们的安全性也处于一种高度不可控的状态。在面临各种代码混淆或恶意提示词的越狱攻击测试中，影子 API 的表现毫无规律可言。它们有时会严重低估有害内容的风险，给出的有害性评分比官方模型低 0.23 ，有时又会把有害性放大近一倍。为了拿到这些黑盒 API 造假的确凿证据，研究人员动用了大模型指纹识别框架 LLMmap以及模型相等性测试（MET）来直接验证模型的真实身份。LLMmap 能够通过分析模型对特定查询的响应，计算出输出结果与参考数据库之间的余弦距离，从而判断它到底是个什么模型。在所有被评估的 24 个具体模型端点中，有 45.83% 的端点直接未能通过指纹验证，另外还有 12.50% 的端点表现出与官方模型存在巨大的余弦距离偏差。这两个数据加起来，意味着跨越半数的服务在底层悄悄替换了模型通过进一步对生成的 token 数量方差以及推理延迟时间进行分析，研究人员发现官方 API 总是呈现出稳定规律的延迟，而影子 API 的延迟经常出现剧烈的抖动，其波动率甚至会跨越官方基准的 2 倍以上。信息溢价：收取高昂的旗舰版费用，却在后台用能力相似但更便宜的模型进行替换。例如某 API 标榜提供 Gemini 2.0 的早期版本，实际却以 7 倍以上的惊人差价提供 2.5 版本。折扣替换：以官方原价收费，但把高端的闭源大模型替换成低成本的开源模型。比如用户高价点名要 GPT-5 ，指纹识别却无情地揭露后台默默运行的其实是 GLM-4-9B。加价倒卖：在官方价格基础上加收服务费，同时依旧在后台替换底层模型以赚取多重差价。经过计算，虽然用户是按照官方标准费率（例如 1000 次请求约 14.84 美元）支付的费用，但实际上得到的有效 token 价值只有 5.70 美元到 7.77 美元。这种做法让供应商仅仅在少量查询中就能赚取过半的暴利利润。如果普通开发者在构建娱乐机器人时买到了假模型，顶多是带来了糟糕的用户体验。一旦学术界大规模将这些掺水接口用于严肃的数据标注、算法评估或文献总结，整个 AI 研究大厦的公信力都会被严重动摇。自 2025 年初 DeepSeek 等前沿大模型相继发布并迅速迭代以来，学术界对调用最新强大模型的需求与日俱增。由于正规渠道受限，大量亟待发表论文的研究人员被迫转向这些缺乏监管的影子 API 。研究者进行了一个保守的估算，即便只有 30% 的受影响论文需要重新运行实验，仅为了修复这 187 篇已知论文中由模型替换带来的数据污染，就需要花费高达 11.5 万至 14 万美元的计算和人工成本。这笔账还没有算上那些引用了这些问题论文的 5966 项后续研究，这些后来者极可能已经在不知不觉中继承并放大了这些底层错误。如果迫于客观条件不得不使用，研究团队在正式收集数据前，必须引入强制性的审核协议。这包括运行至少 24 次指纹探测、进行 500 个样本分布测试以比对 p 值，以及通过多次独立会话来检查延迟和方差是否异常在这个真假难辨的 AI 时代，技术永远在狂飙突进，而商业的阴暗面也同样在疯狂滋长。对于每一位追求严谨的从业者和研究员来说，保持怀疑态度是我们面对黑盒大模型服务时的最后一道防线。

                                y31成色.232.1.232据了解，社媒平台上，虚假不实内容、虚假人设和AIGC造假三类“虚假”信息频发。黑灰产组织批量制造黑灰产账号，通过虚假、重复、低质内容骗取用户流量；养号涨粉后，又会发布虚假、恶意营销内容，或者销售灰色商品，提供灰色服务，甚至从事违法活动，从而实现不当牟利。从建号到养号再到牟利，黑灰产账号进行全链路批量造假，对社区生态和秩序的危害十分巨大。瑞安市公安局禁毒大队民警：这两个人都是自由职业者，且不是广东人，但是有频繁来往广东的记录，而且出手阔绰，所以这两个人十分可疑。y31成色.232.1.232小东西才几天没弄了还能吃吗出于关心和教育的本能，他随口问了一句：“某某，是不是早读后抽烟啦？”这原本只是一句简单的询问，却没想到引发了一场轩然大波。语文老师的本意，或许只是希望提醒学生遵守学校的规定，不要沾染不良习惯。可这位同学却像是被点燃的火药桶，瞬间爆发了。对于埃贝尔为何突然飞回慕尼黑的原因，德国天空体育则表示在萨内的突然离队和尼科的拒绝加盟（选择加盟巴萨）之后，拜仁必须重新调整方向，现在他们在寻找一位高水平左边锋的过程承受着不小的压力。
                            

                                20260611 🔞 y31成色.232.1.232还有一些人则担忧，美国支援以色列的行动将招致伊朗报复美军，并扩大战事。不过，这篇社论提到，伊朗此前就扬言会对以色列的攻击实施报复，迄今为止却未行动——德黑兰方面心知肚明，此类袭击引发的美军反击，将比核设施遭袭更可怕。《亚洲l码和欧洲m码的区别》在世俱杯处子秀里，迈阿密国际与开罗国民互交白卷。补时第6分钟远射被门将封出，让梅西职业生涯首次在世俱杯未能破门。
                            

📸 何品珍记者罗世仁摄

                                20260611 🍆 y31成色.232.1.232篮网队是板上钉钉的薪资空间球队，而活塞队则是可能的薪资空间球队。今年夏天，活塞队有两条可行的路径。如果想维持去年的阵容，他们可以在工资帽之上运作，保留他们对小蒂姆-哈达威、丹尼斯-施罗德和马利克-比斯利的续约权，而且只需支付相应的价钱。比斯利的情况可能会有点棘手，因为活塞队通过非伯德条款只能给他加薪20%，但这是最省事的途径。如果活塞队想看看去年的阵容在经历又一个赛季的磨合和发展后能够做到什么，这就是他们的方针。他们甚至可以利用中产特例来引进一名不错的角色球员。《妈妈的职业4免费观看全集在线播放 》在2025夏季达沃斯论坛期间，世界经济论坛举办了一个私人会议，从私营部门、银行和金融科技公司听取关于人工智能和金融服务情况。从收集的意见看，目前AI发展如此迅速，以至于各行各业的最大挑战是跟上其发展步伐。因此，当下没有一种绝对正确的方式来制定AI战略。
                            

📸 孙文记者黄春友摄

                            ✔ 男二魏大勋，正是青涩年华，演爱国青年，非常合适，后来，他凭借《我的人间烟火》走红，正式在内娱站稳了位置，还在《人生若如初见》里演了站在时代洪流中普通青年杨爱国。《电影《在丈夫面面被欺负》2017年》