Meta-analysis of large language models: benchmarking DeepSeek-R1 against ChatGPT, Gemini, Qwen, and LLaMA

Shafique Ahmed Awan

doi:10.1186/s40537-025-01330-3

Meta-analysis of large language models: benchmarking DeepSeek-R1 against ChatGPT, Gemini, Qwen, and LLaMA

10.1186/s40537-025-01330-3

2025-12-19

0

OA

PDF

AI

原文链接

查看原文

摘要

En 中文

大型语言模型（LLMs）、GPT-4 Turbo、Google Gemini、Qwen、Meta的LLaMA 3.1以及DeepSeek-R1的快速发展，重新定义了人工智能的格局。在本研究中，我们开展了一项混合元分析，整合公开可用的基准测试、模型卡片、技术报告和开源仓库，以评估LLMs在性能和运营两个维度的表现。定量数据从标准化任务中聚合，如MMLU（推理）、HumanEval（代码生成）、FLORES-200（翻译）和TyDiQA（多语言问答），并辅以效率指标，包括FLOPs、GPU小时数、推理延迟和订阅成本。采用大数据驱动的KPI框架，涵盖可扩展性指数、数据吞吐速率、每token能耗和训练成本效率，以实现标准化、跨模型的比较。结果表明，DeepSeek-R1在编码和多语言效率方面表现强劲，ChatGPT-4 Turbo在推理准确性上领先，Gemini Ultra在多模态推理方面表现优异，Qwen在中文任务中具有竞争力，而LLaMA 3.1仍然是适应性最强的开源选项。在跨数据集比较中，DeepSeek-R1在HumanEval上达到80.2 ± 1.5%，在MMLU上达到78.5 ± 1.8%，而ChatGPT-4 Turbo在HumanEval上达到86.5 ± 1.9%；这些差距在观察到的异质性范围内（I2 = 14.6%）。研究结果表明，准确性、可扩展性和成本效率之间存在权衡，强调了需要透明、可持续和多模态的LLM发展。

关键词:

DeepSeek

LLM

ChatGPT

Gemini

Qwen

LLaMA

AR

Ethics

Meta-analysis of large language models: benchmarking DeepSeek-R1 against ChatGPT, Gemini, Qwen, and LLaMA

摘要

AI总结

期刊

学者

机构

引用论文

被引论文