排行榜总览
查看所有分类排行榜的最新更新时间和详细信息
📝 Text Arena 排行榜
最后更新: 2025年10月16日 | 总投票数: 4,278,480 | 参与模型: 258
| 排名 | 模型名称 | 评分 | 置信区间 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|---|
| 🥇 1 | gemini-2.5-pro | 1451 | ±4 | 54,087 | Proprietary | |
| 🥇 1 | claude-opus-4-1-20250805-thinking-16k | 1447 | ±5 | 21,306 | Anthropic | Proprietary |
| 🥇 1 | claude-sonnet-4-5-20250929-thinking-32k | 1445 | ±8 | 6,287 | Anthropic | Proprietary |
| 🥇 1 | gpt-4.5-preview-2025-02-27 | 1441 | ±6 | 14,644 | OpenAI | Proprietary |
| 🥈 2 | chatgpt-4o-latest-20250326 | 1440 | ±4 | 40,013 | OpenAI | Proprietary |
| 🥈 2 | o3-2025-04-16 | 1440 | ±4 | 51,293 | OpenAI | Proprietary |
| 🥈 2 | claude-sonnet-4-5-20250929 | 1438 | ±8 | 6,144 | Anthropic | Proprietary |
| 🥈 2 | gpt-5-high | 1437 | ±5 | 23,580 | OpenAI | Proprietary |
| 🥈 2 | claude-opus-4-1-20250805 | 1437 | ±5 | 33,298 | Anthropic | Proprietary |
| 🥉 3 | qwen3-max-preview | 1434 | ±6 | 18,078 | Alibaba | Proprietary |
| 10 | gpt-5-chat | 1425 | ±5 | 21,630 | OpenAI | Proprietary |
| 10 | qwen3-max-2025-09-23 | 1423 | ±7 | 6,919 | Alibaba | Proprietary |
| 10 | glm-4.6 | 1422 | ±9 | 4,401 | Z.ai | MIT |
| 11 | deepseek-v3.1 | 1416 | ±6 | 15,380 | DeepSeek | MIT |
| 11 | deepseek-r1-0528 | 1417 | ±6 | 19,284 | DeepSeek | MIT |
| 11 | kimi-k2-0905-preview | 1417 | ±7 | 10,772 | Moonshot | Modified MIT |
| 11 | deepseek-v3.1-thinking | 1415 | ±7 | 12,098 | DeepSeek | MIT |
| 11 | grok-4-fast | 1420 | ±8 | 7,104 | xAI | Proprietary |
| 12 | grok-4-0709 | 1413 | ±5 | 29,264 | xAI | Proprietary |
| 12 | claude-opus-4-20250514 | 1411 | ±4 | 43,310 | Anthropic | Proprietary |
| 13 | gpt-4.1-2025-04-14 | 1411 | ±4 | 41,918 | OpenAI | Proprietary |
| 14 | grok-3-preview-02-24 | 1409 | ±4 | 34,154 | xAI | Proprietary |
| 18 | gemini-2.5-flash-preview-09-2025 | 1404 | ±7 | 6,730 | Proprietary | |
| 29 | o1-2024-12-17 | 1400 | ±4 | 28,039 | OpenAI | Proprietary |
| 32 | deepseek-r1 | 1394 | ±5 | 18,718 | DeepSeek | MIT |
| 36 | deepseek-v3-0324 | 1391 | ±4 | 44,482 | DeepSeek | MIT |
| 55 | Claude 3.5 Sonnet (10/22) | 1370 | ±3 | 89,889 | Anthropic | Proprietary |
| 63 | deepseek-v3 | 1356 | ±5 | 21,994 | DeepSeek | DeepSeek |
| 72 | gpt-4o-2024-05-13 | 1344 | ±3 | 113,568 | OpenAI | Proprietary |
| 78 | o1-mini | 1334 | ±3 | 52,301 | OpenAI | Proprietary |
| 97 | claude-3-opus-20240229 | 1321 | ±3 | 196,368 | Anthropic | Proprietary |
| 100 | llama-3.3-70b-instruct | 1319 | ±3 | 56,024 | Meta | Llama-3.3 |
| 102 | GPT-4o-mini (07/18) | 1315 | ±3 | 69,290 | OpenAI | Proprietary |
👁️ Vision Arena 排行榜
视觉理解模型综合评测 - 图像识别、场景理解、多模态能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-2.5-pro | 1450+ | ±4 | Proprietary | |
| 🥈 2 | claude-opus-4-1 | 1445+ | ±5 | Anthropic | Proprietary |
| 🥉 3 | gpt-4.5-vision | 1440+ | ±4 | OpenAI | Proprietary |
| 4 | qwen3-vl-235b | 1420+ | ±8 | Alibaba | Apache 2.0 |
| 5 | glm-4.5v | 1350+ | ±8 | Z.ai | MIT |
| 6 | llava-next-34b | 1335+ | ±9 | LLaVA Team | Apache 2.0 |
| 7 | internvl-2.5-78b | 1320+ | ±8 | OpenGVLab | MIT |
| 8 | pixtral-12b | 1310+ | ±7 | Mistral AI | Apache 2.0 |
| 9 | cogvlm-2-plus | 1300+ | ±9 | Tsinghua University | Apache 2.0 |
| 10 | idefics-3-8b | 1290+ | ±10 | Hugging Face | Apache 2.0 |
🎨 Text-to-Image Arena 排行榜
最后更新: 2025年10月12日 | 总投票数: 3,239,761 | 参与模型: 27
| 排名 | 模型名称 | 评分 | 置信区间 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|---|
| 🥇 1 | hunyuan-image-3.0 | 1161 | ±6 | 14,414 | Tencent | Hunyuan |
| 🥇 1 | gemini-2.5-flash-image-preview | 1154 | ±3 | 526,205 | Proprietary | |
| � 3 | imagen-4.0-ultra-generate-preview | 1145 | ±3 | 447,731 | Proprietary | |
| 🥉 3 | seedream-4-2k | 1144 | ±6 | 14,582 | Bytedance | Proprietary |
| 4 | seedream-4-high-res-fal | 1134 | ±5 | 20,954 | Bytedance | Proprietary |
| 5 | imagen-4.0-generate-preview | 1131 | ±3 | 448,875 | Proprietary | |
| 7 | gpt-image-1 | 1123 | ±3 | 204,686 | OpenAI | Proprietary |
| 7 | seedream-4-fal | 1118 | ±6 | 13,513 | Bytedance | Proprietary |
| 9 | mai-image-1 | 1096 | ±9 | 4,091 | Microsoft AI | Proprietary |
| 9 | seedream-3 | 1082 | ±5 | 36,678 | Bytedance | Proprietary |
| 10 | flux-1-kontext-max | 1079 | ±3 | 72,764 | Black Forest Labs | Proprietary |
| 12 | qwen-image-prompt-extend | 1072 | ±2 | 571,973 | Alibaba | Apache 2.0 |
| 13 | imagen-3.0-generate-002 | 1062 | ±3 | 418,478 | Proprietary | |
| 13 | flux-1-kontext-pro | 1062 | ±3 | 333,142 | Black Forest Labs | Proprietary |
| 13 | qwen-image | 1061 | ±2 | 106,803 | Alibaba | Apache 2.0 |
| 16 | ideogram-v3-quality | 1049 | ±5 | 36,941 | Ideogram | Proprietary |
| 17 | lucid-origin | 1025 | ±3 | 277,597 | Leonardo AI | Proprietary |
| 17 | photon | 1020 | ±5 | 56,961 | Luma AI | Proprietary |
| 18 | recraft-v3 | 1017 | ±4 | 107,683 | Recraft | Proprietary |
| 18 | flux-1.1-pro | 1013 | ±3 | 71,781 | Black Forest Labs | Proprietary |
| 19 | ideogram-v2 | 1012 | ±3 | 73,285 | Ideogram | Proprietary |
| 22 | gemini-2.0-flash-preview-image-generation | 987 | ±3 | 285,249 | Proprietary | |
| 23 | dall-e-3 | 978 | ±4 | 266,633 | OpenAI | Proprietary |
| 24 | flux-1-dev-fp8 | 966 | ±4 | 49,919 | Black Forest Labs | Open |
| 24 | flux-1-kontext-dev | 963 | ±3 | 214,478 | Black Forest Labs | Proprietary |
| 26 | stable-diffusion-v35-large | 936 | ±4 | 23,764 | Stability AI | Open |
| 27 | bagel | 913 | ±5 | 11,646 | Bytedance | Apache 2.0 |
💻 WebDev Arena 排行榜
Web开发能力评测 - 代码生成、前端开发、调试能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | claude-opus-4-1-thinking | 1450+ | ±5 | Anthropic | Proprietary |
| 🥈 2 | gpt-4.5-preview | 1440+ | ±6 | OpenAI | Proprietary |
| 🥉 3 | gemini-2.5-pro | 1435+ | ±4 | Proprietary | |
| 4 | deepseek-v3.1 | 1410+ | ±6 | DeepSeek | MIT |
| 5 | qwen3-coder-480b | 1395+ | ±5 | Alibaba | Apache 2.0 |
| 6 | codestral-25-01 | 1385+ | ±6 | Mistral AI | Proprietary |
| 7 | codegemma-7b-it | 1370+ | ±7 | Apache 2.0 | |
| 8 | starcoder2-15b | 1360+ | ±6 | BigCode | Apache 2.0 |
| 9 | wizardcoder-python-34b | 1350+ | ±7 | WizardLM | Apache 2.0 |
| 10 | phi-3.5-mini-instruct | 1345+ | ±8 | Microsoft | MIT |
👁️ Vision Arena 排行榜
视觉理解模型综合评测 - 图像识别、场景理解、多模态能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-2.5-pro | 1450+ | ±4 | Proprietary | |
| 🥈 2 | claude-opus-4-1 | 1445+ | ±5 | Anthropic | Proprietary |
| 🥉 3 | gpt-4.5-vision | 1440+ | ±4 | OpenAI | Proprietary |
| 4 | qwen3-vl-235b | 1420+ | ±8 | Alibaba | Apache 2.0 |
| 5 | glm-4.5v | 1350+ | ±8 | Z.ai | MIT |
| 6 | llava-next-34b | 1335+ | ±9 | LLaVA Team | Apache 2.0 |
| 7 | internvl-2.5-78b | 1320+ | ±8 | OpenGVLab | MIT |
| 8 | pixtral-12b | 1310+ | ±7 | Mistral AI | Apache 2.0 |
| 9 | cogvlm-2-plus | 1300+ | ±9 | Tsinghua University | Apache 2.0 |
| 10 | idefics-3-8b | 1290+ | ±10 | Hugging Face | Apache 2.0 |
🔍 Search Arena 排行榜
搜索增强模型评测 - 联网搜索、信息检索、实时更新能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gpt-4.5-search | 1440+ | ±5 | OpenAI | Proprietary |
| 🥈 2 | claude-opus-4-search | 1435+ | ±6 | Anthropic | Proprietary |
| 🥉 3 | gemini-2.5-pro-search | 1430+ | ±4 | Proprietary | |
| 4 | perplexity-pro | 1410+ | ±7 | Perplexity AI | Proprietary |
| 5 | you.com-search-gpt | 1395+ | ±8 | You.com | Proprietary |
| 6 | bing-chat-enterprise | 1380+ | ±6 | Microsoft | Proprietary |
| 7 | kagi-search-ai | 1370+ | ±9 | Kagi | Proprietary |
| 8 | phind-v10 | 1360+ | ±8 | Phind | Proprietary |
| 9 | brave-search-ai | 1350+ | ±10 | Brave | Proprietary |
| 10 | metaphor-search | 1340+ | ±9 | Metaphor | Proprietary |
🎬 Text-to-Video Arena 排行榜
文生视频模型评测 - 视频生成质量、动作连贯性、创意表现
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | Sora | 1st | OpenAI | 最长60秒 | 1080p | 高度连贯 |
| 🥈 2 | Runway Gen-3 Alpha | 2nd | Runway | 多风格 | 商业可用 | 快速生成 |
| 🥉 3 | Pika 2.0 | 3rd | Pika | 易用性高 | 效果自然 | 快速迭代 |
| 4 | Kling AI | 4th | Kuaishou | 高质量 | 支持中文 | 物理准确 |
| 5 | Dream Machine | 5th | Luma AI | 120帧 | 平滑动作 | 创意十足 |
| 6 | HaiLuo AI | 6th | MiniMax | 6秒视频 | 免费使用 | 效果优秀 |
| 7 | Stable Video Diffusion | 7th | Stability AI | 开源 | 可定制 | 社区活跃 |
| 8 | ModelScope T2V | 8th | Alibaba | 开源 | 中文优化 | 效果稳定 |
| 9 | CogVideoX | 9th | Tsinghua University | 开源 | 6秒视频 | 多风格 |
| 10 | AnimateDiff | 10th | Community | 开源 | 动画生成 | 可控性强 |
🎞️ Image-to-Video Arena 排行榜
图生视频模型评测 - 静态图像转视频能力、动画生成质量
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| � 1 | Runway Gen-3 Image-to-Video | 1st | Runway | 高质量 | 动作流畅 | 保持风格 |
| 🥈 2 | Pika 2.0 I2V | 2nd | Pika | 精确控制 | 自然过渡 | 易于使用 |
| 🥉 3 | Stable Video Diffusion | 3rd | Stability AI | 开源 | 可定制 | 社区活跃 |
| 4 | Kling Image-to-Video | 4th | Kuaishou | 物理准确 | 细节丰富 | 运动自然 |
| 5 | Dream Machine I2V | 5th | Luma AI | 平滑动画 | 高帧率 | 保真度高 |
| 6 | AnimateAnyone | 6th | Alibaba | 人物动画 | 姿态控制 | 表情自然 |
| 7 | DynamiCrafter | 7th | Tencent | 开源 | 高质量 | 可定制 |
| 8 | I2VGen-XL | 8th | ModelScope | 开源 | 长视频 | 多场景 |
| 9 | MotionCtrl | 9th | ByteDance | 精确控制 | 摄像机路径 | 开源 |
| 10 | PhotoMaker Video | 10th | TencentARC | 人脸一致性 | 风格保持 | 开源 |
✏️ Image Edit Arena 排行榜
图像编辑模型评测 - AI图像修改、优化和风格转换能力
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | DALL-E 3 Edit | 1st | OpenAI | 精确编辑 | 保持风格 | 智能填充 |
| 🥈 2 | Midjourney Vary | 2nd | Midjourney | 艺术性强 | 多样变化 | 高质量 |
| 🥉 3 | Adobe Firefly | 3rd | Adobe | 专业工具 | 商业可用 | 精确控制 |
| 4 | Stable Diffusion Inpaint | 4th | Stability AI | 开源 | 可定制 | 本地运行 |
| 5 | FLUX Edit | 5th | Black Forest Labs | 精确修改 | 高质量 | 细节保留 |
| 6 | Ideogram Edit | 6th | Ideogram | 文字编辑 | 智能修复 | 风格统一 |
| 7 | Recraft Edit | 7th | Recraft | 矢量编辑 | 品牌设计 | 精确控制 |
| 8 | ControlNet Inpaint | 8th | Community | 开源 | 精确控制 | 多条件 |
| 9 | InstantID Edit | 9th | InstantX | 人脸编辑 | 身份保持 | 开源 |
| 10 | IP-Adapter Edit | 10th | TencentARC | 风格迁移 | 图像融合 | 开源 |
🤖 Copilot Arena 排行榜
代码助手模型评测 - 编程辅助、代码补全、智能提示能力
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | GitHub Copilot++ | 1st | GitHub/OpenAI | 多语言 | 上下文理解 | IDE集成 |
| 🥈 2 | Claude Code | 2nd | Anthropic | 长上下文 | 精确补全 | 代码理解 |
| 🥉 3 | DeepSeek Coder V2 | 3rd | DeepSeek | 开源 | 高性能 | 多语言支持 |
| 4 | Amazon CodeWhisperer | 4th | Amazon | AWS集成 | 安全扫描 | 免费使用 |
| 5 | Cursor AI | 5th | Cursor | 智能补全 | 代码生成 | 重构建议 |
| 6 | Tabnine | 6th | Tabnine | 本地模型 | 隐私保护 | 多IDE支持 |
| 7 | Codeium | 7th | Codeium | 免费使用 | 快速响应 | 多语言 |
| 8 | CodeGeeX | 8th | Tsinghua University | 开源 | 中文优化 | 免费商用 |
| 9 | Replit Ghostwriter | 9th | Replit | 云端IDE | 即时补全 | 协作编程 |
| 10 | JetBrains AI | 10th | JetBrains | IDE集成 | 代码分析 | 重构建议 |
关于 LMArena
全球最权威的AI模型评测平台 - LMArena Leaderboard
什么是 LMArena?
LMArena(Language Model Arena)是全球领先的开放式AI模型评测平台,由LMSYS组织开发和维护。通过创新的盲测对比机制,LMArena让用户在不知道模型身份的情况下进行真实评测,确保了排行榜的公正性和权威性。
自2023年推出以来,LMArena已经收集了超过420万次真实用户投票,涵盖258个主流AI模型,成为全球开发者和研究者评估AI模型性能的重要参考标准。
Elo评分系统
采用国际象棋级别的Elo评分算法,通过大规模用户对战数据计算模型真实实力,每次对比都会动态调整排名,确保排行榜始终反映最新的模型性能。
多维度评测
LMArena提供9大评测分类:文本对话、代码生成、视觉理解、图像生成、视频生成、图像编辑、搜索增强、图生视频、AI编程助手,全方位评测AI模型能力。
真实用户投票
每天有超过10万活跃用户参与LMArena的模型对比测试,通过盲测机制消除品牌偏见,让数据说话,用户的每一票都在塑造最真实的AI排行榜。
实时更新排名
LMArena排行榜实时反映最新评测数据,新模型上线后立即加入对比测试,确保开发者和用户随时掌握AI领域最前沿的模型表现和技术趋势。
开源透明
LMArena的评测方法、数据集和排名算法完全开源,任何人都可以查看和验证评测过程,确保排行榜的可信度和学术价值。
行业标准
LMArena已成为AI行业公认的模型评测标准,OpenAI、Google、Anthropic、Meta等顶级AI公司都将LMArena排名作为衡量模型性能的重要指标。