九游娱乐平台：大模型顶级排行榜被指系统性“造假”紧急回应

来源：网络更新时间：2025-05-03 17:14:03 点击：

　　AI圈子波澜又起，焦点集中在了大名鼎鼎的Chatbot Arena排行榜上。一篇名为《The Leaderboard Illusion》（排行榜幻觉）的预印本论文横空出世，直接对这个被广泛视为LLM“试金石”的平台提出了系统性质疑，论文更是直接点名Meta Llama 4 刷榜“造假”，连大佬Andrej Karpathy都下场发表了看法

　　先简单科普下，Chatbot Arena由LMSYS（一个研究组织，原名现称lmarena.ai）创建，通过让用户匿名与两个模型对话并投票选出更好的那个，来对大模型进行排名。因其动态、用户驱动的评估方式，能捕捉到传统基准测试之外的真实用户偏好，迅速成为衡量顶级AI系统能力的事实标准，影响力巨大

　　这篇由Cohere、普林斯顿、斯坦福等机构研究人员（其中部分作者也曾向Arena提交过模型）撰写的论文，通过分析大量数据（涉及200多万次对战、243个模型、42家提供商），指出了Chatbot Arena存在的几大核心问题，认为其公平性和可靠性受到了损害：

　　论文声称，少数（主要是大型、专有模型）提供商被允许在Arena上进行大量“私下测试”，可以提交多个模型变体进行评估，但最终只选择性地公开表现最好的那个版本的分数，甚至可以撤回不满意的结果。

　　这种做法被指扭曲了排名，让这些提供商获得了不公平的优势，大白话就是说Meta Llama 4 “造假”

　　由于私下测试、更高的采样率（模型被选中参与对战的频率）以及模型下线（deprecation）策略，专有模型提供商获得了远超开源/开放权重模型的用户反馈数据。论文估计，仅Google和OpenAI就分别获得了Arena总数据的19.2%和20.4%，而83个开放权重模型合计仅获得29.7%。这种数据不对称，让优势方更容易针对Arena进行优化

　　基于这些发现，论文提出了五项紧急建议：禁止撤回分数、限制私有测试数量、公平执行模型移除、实施公平采样算法、公开所有测试模型及移除信息。

　　面对质疑，Chatbot Arena的组织者lmarena.ai迅速做出了回应，主要观点如下：

　　他们承认并欢迎预发布测试，认为这能帮助模型提供商了解社区用户的真实偏好，优化模型，对整个社区有利。用户也喜欢第一时间体验最新模型

　　Arena的排名反映的是数百万真实用户的偏好总和。偏好本身是主观的，但这正是其价值所在，因为模型最终是为人服务的。他们正在研究统计方法分解偏好，并努力扩大用户群多样性

　　lmarena.ai认为论文中的模拟存在缺陷，并指出论文中的一些数据与他们最近发布的实际统计数据不符

　　与其他提供商无异，并强调自身平台和工具的开源性，以及发布了大量开放对话数据

　　特斯拉前AI总监、OpenAI创始成员Andrej Karpathy也分享了他的看法，他更倾向于怀疑Arena的排名：

　　他提到自己曾遇到过排名第一的Gemini模型实际体验不如排名较低的模型（如Claude 3.5）的情况。也注意到一些“不知名”的小模型排名异常高

　　他推测，不同团队可能投入了不同程度的精力专门针对Arena评分进行优化，导致模型更擅长Arena偏好的风格（比如嵌套列表、表情符号），而非整体能力提升

　　新的潜在顶级评估方式——OpenRouter的LLM排名。OpenRouter作为API路由平台，用户（包括企业）基于实际应用需求和成本在不同模型间切换，这种“用脚投票”直接反映了模型在真实场景中的综合价值（能力+成本），可能更难被“游戏化”。

　　感谢karpathy的反馈！表示会持续构建像WebDev Arena这样的新评估平台，以捕捉更高级、更真实的编码用例

　　我最早开始有点儿怀疑这事，是有一次，（大概前段时间吧），某个 Gemini 模型冲到了第一名，而且分数远超第二，但我自己切换过去试用了几天，感觉还不如我之前用习惯了的那个。反过来呢，差不多同一时间，Claude 3.5 在我个人用起来明明是顶级水平，但在 Arena 上的排名却非常低。无论是在网上还是私下聊天，我都听到过类似的反馈。而且，还有不少看着挺随机的模型，有些小的都让人起疑，据我所知也没啥实际应用背景，但它们排名却也相当高。

　　“当数据和（用户的）直觉或经验对不上的时候，往往后者更靠谱。”（这是杰夫·贝索斯最近在一个播客里说的，不过我个人深有同感）。我觉得吧，这些（大模型）团队内部可能把不同的精力都放在了专门针对 LM Arena 分数上，并且基于这个分数来做决策。不幸的是，这样搞出来的可能不是整体上更好的模型，而是更擅长在 LM Arena 上拿高分的模型——不管那到底意味着什么。也许就是那种特别会用嵌套列表、项目符号和表情符号的模型吧。

　　LM Arena（以及那些 LLM 提供商）很可能会继续在这种模式下迭代和改进，但除此之外，我心里还有个新的候选者，有潜力成为新的“顶级评测”方式之一。那就是OpenRouterAI 的 LLM 排名:

　　简单来说，OpenRouter 能让个人或公司在不同 LLM 提供商的 API 之间快速切换。这些用户都有真实的应用场景（不是搞些小测试题或者解谜），他们自己内部也有评估方式，而且都有实实在在的动力去选对模型。所以，当他们选择某个 LLM 而不是另一个时，实际上就是在用脚投票，综合考虑了（模型的）能力和成本。我觉得 OpenRouter 在用户数量和使用场景的多样性上可能还没完全到位，但这种基于实际应用的评估方式，我认为非常有潜力发展成一种非常好的、并且很难被“刷榜”或操纵（game）的评测体系

　　最后给大家贴一下openrouter的大模型综合排行（还有各个领域的排名，涉及编程，市场，角色扮演，技术，科学，翻译，法律，金融，健康，学术等大家可以自行探索）

　　牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

　　斯坦福：2025 斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191 页）

　　Schwab ：2025 未来共生：以集体社会创新破解重大社会挑战研究报告（36 页）

　　IMD：2024 年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214 页）

　　DS 系列专题：DeepSeek 技术溯源及前沿探索，50 页 ppt

　　联合国人居署：2024 全球城市负责任人工智能评估报告：利用 AI 构建以人为本的智慧城市（86 页）

　　TechUK：2025 全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52 页）

　　NAVEX Global：2024 年十大风险与合规趋势报告（42 页）

　　《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

　　Evaluate Pharma：2024 年全球生物制药行业展望报告：增长驱动力分析（29 页）

　　【AAAI2025 教程】基础模型与具身智能体的交汇，350 页 ppt

　　谷歌：2024 人工智能短跑选手（AI Sprinters）：捕捉新兴市场 AI 经济机遇报告（39 页）

　　美国安全与新兴技术中心：2025 CSET 对美国人工智能行动计划的建议（18 页）

　　罗兰贝格：2024 人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11 页）

　　兰德公司：2025 从研究到现实：NHS 的研究和创新是实现十年计划的关键报告（209 页）

　　康桥汇世（Cambridge Associates）：2025 年全球经济展望报告（44 页）

　　威立（Wiley）：2025 全球科研人员人工智能研究报告（38 页）

　　牛津经济研究院：2025 TikTok 对美国就业的量化影响研究报告：470 万岗位（14 页）

　　Workday ：2025 发挥人类潜能：人工智能（AI）技能革命研究报告（20 页）

　　CertiK：Hack3D：2024 年 Web3.0 安全报告（28 页）

　　波士顿咨询：2025 亚太地区生成式 AI 的崛起研究报告：从技术追赶者到全球领导者的跨越（15 页）

　　安联（Allianz）：2025 新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33 页）

　　IMT：2025 具身智能（Embodied AI）概念、核心要素及未来进展：趋势与挑战研究报告（25 页）

　　IEEE：2025 具身智能（Embodied AI）综述：从模拟器到研究任务的调查分析报告（15 页）

　　CCAV：2025 当 AI 接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124 页）

　　全国机器人标准化技术委员会：人形机器人标准化白皮书（2024 版）（96 页）

　　美国国家科学委员会（NSB）：2024 年研究与发展 - 美国趋势及国际比较（51 页）

　　艾昆纬（IQVIA）：2025 骨科手术机器人技术的崛起白皮书：创新及未来方向（17 页）

　　NPL&Beauhurst：2025 英国量子产业洞察报告：私人和公共投资的作用（25 页）

　　IEA PVPS：2024 光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65 页）

　　AGI 智能时代：2025 让 DeepSeek 更有趣更有深度的思考研究分析报告（24 页）

　　2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37 页）

　　欧洲量子产业联盟（QuIC）：2024 年全球量子技术专利态势分析白皮书（34 页）

　　美国能源部：2021 超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60 页）

　　罗马大学：2025 超级高铁（Hyperloop）：第五种新型交通方式 - 技术研发进展、优势及局限性研究报告（72 页）

　　兰德公司：2025 灾难性网络风险保险研究报告：市场趋势与政策选择（93 页）

　　AAAI：2025 人工智能研究的未来报告：17 大关键议题（88 页）

　　安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

　　威达信：2025 全球洪水风险研究报告：现状、趋势及应对措施（22 页）

　　兰德公司：迈向人工智能治理研究报告：2024EqualAI 峰会洞察及建议（19 页）

　　哈佛商业评论：2025 人工智能时代下的现代软件开发实践报告（12 页）

　　德安华：全球航空航天、国防及政府服务研究报告：2024 年回顾及 2025 年展望（27 页）

　　奥雅纳：2024 塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28 页）

　　HSOAC：2025 美国新兴技术与风险评估报告：太空领域和关键基础设施（24 页）

　　Dealroom：2025 欧洲经济与科技创新发展态势、挑战及策略研究报告（76 页）

　　谷歌云（Google Cloud）：2025 年 AI 商业趋势白皮书（49 页）

　　军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态 - 250309（40 页）

　　璞跃（Plug and Play）：2025 未来商业研究报告：六大趋势分析（67 页）

　　国际电工委员会（IEC）：2025 智能水电技术与市场展望报告（90 页）

　　RWS：2025 智驭 AI 冲击波：人机协作的未来研究报告（39 页）

　　国际电工委员会（IEC）：2025 智能水电技术与市场展望报告（90 页）

　　RWS：2025 智驭 AI 冲击波：人机协作的未来研究报告（39 页）

　　中国信息协会低空经济分会：低空经济发展报告（2024 - 2025）（117 页）

　　浙江大学：2025 语言解码双生花：人类经验与 AI 算法的镜像之旅（42 页）

　　人形机器人行业：由 “外” 到 “内” 智能革命 - 250306（51 页）

　　北京大学：2025 年 DeepSeek 原理和落地应用报告（57 页）

　　加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用

　　电子行业：从柔性传感到人形机器人触觉革命 - 250226（35 页）

　　九游娱乐网站九游娱乐官方网址

　　RT 轨道交通：2024 年中国城市轨道交通市场数据报告（188 页）

　　FastMoss：2024 年度 TikTok 生态发展白皮书（122 页）

　　Check Point：2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议（57 页）

　　【AAAI2025 教程】评估大型语言模型：挑战与方法，199 页 ppt

　　沃尔特基金会（Volta Foundation）：2024 年全球电池行业年度报告（518 页）

　　斯坦福：2025 斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191 页）

　　国际科学理事会：2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告（英文版）（118 页）

　　奥纬论坛：2025 塑造未来的城市研究报告：全球 1500 个城市的商业吸引力指数排名（124 页）

　　Future Matters：2024 新兴技术与经济韧性：日本未来发展路径前瞻报告（17 页）

　　皮尤研究中心：2024 美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28 页）

　　空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224（33 页）

　　Gartner：2025 网络安全中的 AI：明确战略方向研究报告（16 页）

　　北京大学：2025 年 DeepSeek 系列报告 - 提示词工程和落地场景（86 页）

　　北京大学：2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用（99 页）

　　CIC 工信安全：2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42 页）

　　AGI 智能时代：2025 年 Grok - 3 大模型：技术突破与未来展望报告（28 页）

　　剽不剽窃不太懂，但是我不明白的是为啥每次不管啥新科技新技术都是国外做出来以后，然后我们国内才遥遥领先，咱们就不能先遥遥领先以后让人家外国再麻吗？

　　同一天，白宫公布的2026财年预算案显示，特朗普政府计划削减1630亿美元非国防支出，同时增加国防支出和国土安全支出。

　　4月30日，美国商务部公布了2025年美国一季度经济数据，美国一季度国内生产总值环比（按年率计算）萎缩0.3%，为三年来首次负增长。糟糕的经济表现拉响了美国经济衰退的警报。按《经济学人》的说法，美国距离巨大的经济冲击还有几周的时间。

　　5月2日，陕西#西安雷雨夜不明黑影疾速掠过，形似游龙时隐时现。目击者：至少有三条，像龙一样在空中盘旋，不像风筝也不像鸟类。

　　5月2日，北京。2025跳水世界杯总决赛女子双人十米台，#全红婵陈芋汐合体夺金。#陈芋汐全红婵合体夺冠

　　今年一季度以来，武汉市公安局按照公安部。“净网2025”专项行动统一部署，持续推进“打击整治网络谣言”专项行动，依法处理了一批编造传播虚假信息。

　　真是祸从天降啊！五一假期本是开开心心去景区旅游，没想到却被从天而降的直升机砸中，惨烈悲剧由此发生，直接命丧当场，这让家人如何能接受得了。据了解，事情发生在5月2日假期第二天，地点在江苏苏州太湖一景区，有网友发布视频称一架直升机从天空坠落，疑似造成了人员伤亡。

九游娱乐网站：最好用的小说软件app推荐

05-04

九游娱乐平台：大模型顶级排行榜被指系统性“造假”紧急回应

05-03

九游娱乐平台：2024年起这些新规将影响你我生活！

05-03

九游娱乐网站：饿狼大叔体力好免费阅读

05-03

九游娱乐平台：2025手机阅读软件排行榜前十-手机阅读app哪个好-乐园

05-03

九游娱乐：最全的小说阅读软件推荐

05-01

九游娱乐平台：安卓读书_书城小说_小说阅读器__免费正版畅快阅读

04-30

九游娱乐平台：努尔网app-努尔网2024最新版

04-29

九游娱乐平台：上海家化发布2024年报和年度可持续发展报告科研筑底推进健康可持续发展

04-28

九游娱乐网站：创青春app-创青春手机版2024

04-27

热门攻略

九游娱乐网站：饿狼大叔体力好免费阅读

九游娱乐平台：2025手机阅读软件排行榜前十-手机阅读app哪个好-乐园 05-03

九游娱乐平台：努尔网app-努尔网2024最新版 04-29

九游娱乐平台：上海家化发布2024年报和年度可持续发展报告科研筑底推进健康可持续发展 04-28

九游娱乐网站：创青春app-创青春手机版2024 04-27

九游娱乐平台：黄色软件推荐MBA智库 04-26

热门资讯

九游娱乐网站：饿狼大叔体力好免费阅读

05-03

九游娱乐平台：2025手机阅读软件排行榜前十-手机阅读app哪个好-乐园

05-03

九游娱乐平台：努尔网app-努尔网2024最新版

04-29

九游娱乐平台：上海家化发布2024年报和年度可持续发展报告科研筑底推进健康可持续发展

04-28

九游娱乐网站：创青春app-创青春手机版2024

04-27

热门游戏

九游娱乐-中国九游最全娱乐游戏官方平台

九游娱乐平台：大模型顶级排行榜被指系统性“造假”紧急回应

九游娱乐网站：最好用的小说软件app推荐

九游娱乐平台：大模型顶级排行榜被指系统性“造假”紧急回应

九游娱乐平台：2024年起这些新规将影响你我生活！

九游娱乐网站：饿狼大叔体力好免费阅读

九游娱乐平台：2025手机阅读软件排行榜前十-手机阅读app哪个好-乐园

九游娱乐：最全的小说阅读软件推荐

九游娱乐平台：安卓读书_书城小说_小说阅读器__免费正版畅快阅读

九游娱乐平台：努尔网app-努尔网2024最新版

九游娱乐平台：上海家化发布2024年报和年度可持续发展报告科研筑底推进健康可持续发展

九游娱乐网站：创青春app-创青春手机版2024

99阅读

有钻石

66阅读

2345星球联盟