返回
Meta-analysis of large language models: benchmarking DeepSeek-R1 against ChatGPT, Gemini, Qwen, and LLaMA
10.1186/s40537-025-01330-3
2025-12-19
0
OA
PDF
AI
摘要
En 中文
大型语言模型(LLMs)、GPT-4 Turbo、Google Gemini、Qwen、Meta的LLaMA 3.1以及DeepSeek-R1的快速发展,重新定义了人工智能的格局。在本研究中,我们开展了一项混合元分析,整合公开可用的基准测试、模型卡片、技术报告和开源仓库,以评估LLMs在性能和运营两个维度的表现。定量数据从标准化任务中聚合,如MMLU(推理)、HumanEval(代码生成)、FLORES-200(翻译)和TyDiQA(多语言问答),并辅以效率指标,包括FLOPs、GPU小时数、推理延迟和订阅成本。采用大数据驱动的KPI框架,涵盖可扩展性指数、数据吞吐速率、每token能耗和训练成本效率,以实现标准化、跨模型的比较。结果表明,DeepSeek-R1在编码和多语言效率方面表现强劲,ChatGPT-4 Turbo在推理准确性上领先,Gemini Ultra在多模态推理方面表现优异,Qwen在中文任务中具有竞争力,而LLaMA 3.1仍然是适应性最强的开源选项。在跨数据集比较中,DeepSeek-R1在HumanEval上达到80.2 ± 1.5%,在MMLU上达到78.5 ± 1.8%,而ChatGPT-4 Turbo在HumanEval上达到86.5 ± 1.9%;这些差距在观察到的异质性范围内(I2 = 14.6%)。研究结果表明,准确性、可扩展性和成本效率之间存在权衡,强调了需要透明、可持续和多模态的LLM发展。
关键词:
DeepSeek
LLM
ChatGPT
Gemini
Qwen
LLaMA
AR
Ethics
AI总结
对已上传原文的论文进行重点信息的提取,主要内容包括:简要概述、研究摘要、背景介绍、关键亮点、图文解析、展望与总结。
期刊
IF:
6.4
论文数: 1.3K
・
被引数: 1.1W
学者
S
Shafique Ahmed Awan
H 指数:
0
论文数: 1
・
被引数: 0
M
Muazzam Ali Khan Khattak
H 指数:
0
论文数: 1
・
被引数: 0
A
Abdullah Ayub Khan
H 指数:
0
论文数: 6
・
被引数: 0
A
Anwar Ali Sathio
H 指数:
0
论文数: 1
・
被引数: 0
J
Jamil Abedalrahim Jamil Alsayaydeh
H 指数:
0
论文数: 1
・
被引数: 0
机构
D
department of general education and foundation
学者数:
1
论文数: 1
・
被引数: 0
D
department of cs
学者数:
9
论文数: 4
・
被引数: 0
F
faculty of engineering
学者数:
3.1K
论文数: 1.7K
・
被引数: 1
D
Department of Engineering Technology
学者数:
12
论文数: 9
・
被引数: 0
D
Department of Computer Science
学者数:
1.7K
论文数: 998
・
被引数: 8


