• Phone FeatureAndroid客户端
  • Phone FeatureIOS客户端
  • Phone Feature微信小程序
  • Phone FeatureH5页面
  • 1
    返回

    Meta-analysis of large language models: benchmarking DeepSeek-R1 against ChatGPT, Gemini, Qwen, and LLaMA

    10.1186/s40537-025-01330-3
    2025-12-19
    0
    OA
    PDF
    AI
    收藏
    分享
    原文链接
    查看原文
    摘要

    摘要

    En 中文
    大型语言模型(LLMs)、GPT-4 Turbo、Google Gemini、Qwen、Meta的LLaMA 3.1以及DeepSeek-R1的快速发展,重新定义了人工智能的格局。在本研究中,我们开展了一项混合元分析,整合公开可用的基准测试、模型卡片、技术报告和开源仓库,以评估LLMs在性能和运营两个维度的表现。定量数据从标准化任务中聚合,如MMLU(推理)、HumanEval(代码生成)、FLORES-200(翻译)和TyDiQA(多语言问答),并辅以效率指标,包括FLOPs、GPU小时数、推理延迟和订阅成本。采用大数据驱动的KPI框架,涵盖可扩展性指数、数据吞吐速率、每token能耗和训练成本效率,以实现标准化、跨模型的比较。结果表明,DeepSeek-R1在编码和多语言效率方面表现强劲,ChatGPT-4 Turbo在推理准确性上领先,Gemini Ultra在多模态推理方面表现优异,Qwen在中文任务中具有竞争力,而LLaMA 3.1仍然是适应性最强的开源选项。在跨数据集比较中,DeepSeek-R1在HumanEval上达到80.2 ± 1.5%,在MMLU上达到78.5 ± 1.8%,而ChatGPT-4 Turbo在HumanEval上达到86.5 ± 1.9%;这些差距在观察到的异质性范围内(I2 = 14.6%)。研究结果表明,准确性、可扩展性和成本效率之间存在权衡,强调了需要透明、可持续和多模态的LLM发展。
    关键词:
    DeepSeek
    LLM
    ChatGPT
    Gemini
    Qwen
    LLaMA
    AR
    Ethics
    AI总结

    AI总结

    对已上传原文的论文进行重点信息的提取,主要内容包括:简要概述、研究摘要、背景介绍、关键亮点、图文解析、展望与总结。

    期刊

    期刊

    Journal of Big Data 封面图
    IF:
    6.4
    论文数: 1.3K
    被引数: 1.1W
    学者

    学者

    S
    Shafique Ahmed Awan
    H 指数:
    0
    论文数: 1
    被引数: 0
    M
    Muazzam Ali Khan Khattak
    H 指数:
    0
    论文数: 1
    被引数: 0
    A
    Abdullah Ayub Khan
    H 指数:
    0
    论文数: 6
    被引数: 0
    A
    Anwar Ali Sathio
    H 指数:
    0
    论文数: 1
    被引数: 0
    J
    Jamil Abedalrahim Jamil Alsayaydeh
    H 指数:
    0
    论文数: 1
    被引数: 0
    学者 查看更多内容
    机构

    机构

    D
    department of general education and foundation
    学者数:
    1
    论文数: 1
    被引数: 0
    D
    department of cs
    学者数:
    9
    论文数: 4
    被引数: 0
    F
    faculty of engineering
    学者数:
    3.1K
    论文数: 1.7K
    被引数: 1
    D
    Department of Engineering Technology
    学者数:
    12
    论文数: 9
    被引数: 0
    D
    Department of Computer Science
    学者数:
    1.7K
    论文数: 998
    被引数: 8
    引用论文

    引用论文

    被引论文

    被引论文