目录
0 引言1 通用-总排行榜闭源 + 开源开源U 重要开源大语言模型简介Qwen2K 大模型评测榜单MMLUHELMHumanEvalSuperCLUEOpenCompass/司南X 参考文献Y 推荐文献
回到顶部(Back to Top)
0 引言
通过排行榜,能快速了解各模型/产品的技术竞争力、综合竞争力。
![[AI/NLP] 大语言模型排行榜 | 2024.06](https://m.tuanci.com/blogimg/20240915/35fcdb11568d453990132f38d6ccfa35.png)
回到顶部(Back to Top)
1 通用-总排行榜
SuperCLUE总排行榜 | 2024.06
闭源 + 开源
| 排名 | 模型 | 机构 | 总分 | 理科得分 | 文科得分 | Hard得分 | 使用方式 | 国内/国外 | 备注 | 
|---|---|---|---|---|---|---|---|---|---|
| 1 | GPT-4o | OpenAI | 81 | 81 | 76 | 85 | API | 国外 | |
| 2 | Claude-3.5-Sonnet-200k | Anthropic | 77 | 75 | 72 | 84 | API | 国外 | |
| 2 | Qwen2-72B-Instruct | 阿里巴巴 | 77 | 76 | 76 | 79 | 模型 | 国内 | 开源 | 
| 3 | DeepSeek-V2 | 深度求索 | 76 | 74 | 76 | 78 | API | 国内 | |
| 3 | GLM-4-0520 | 清华&智谱AI | 76 | 74 | 74 | 79 | API | 国内 | |
| 3 | SenseChat5.0 | 商汤 | 76 | 73 | 75 | 78 | API | 国内 | |
| 4 | AndesGPT | OPPO | 75 | 76 | 76 | 72 | API | 国内 | |
| 4 | GPT-4-Turbo-0409 | OpenAI | 75 | 77 | 75 | 74 | API | 国外 | |
| 5 | GPT-4(官网) | OpenAI | 73 | 75 | 74 | 70 | 网页 | 国外 | |
| 6 | Baichuan4 | 百川智能 | 72 | 71 | 74 | 70 | API | 国内 | |
| 6 | Doubao-pro-32k-0615 | 字节跳动 | 72 | 73 | 74 | 69 | API | 国内 | |
| 6 | Moonshot(kimi) | 月之暗面 | 72 | 67 | 74 | 75 | 网页 | 国内 | |
| 6 | 山海大模型4.0 | 云知声 | 72 | 76 | 75 | 65 | API | 国内 | |
| 6 | 360gpt2-pro | 360 | 72 | 72 | 75 | 69 | API | 国内 | |
| 7 | MiniMax-abab6.5 | 稀宇科技 | 71 | 70 | 74 | 68 | API | 国内 | |
| 7 | 通义千问2.5 | 阿里巴巴 | 71 | 72 | 76 | 63 | API | 国内 | |
| 8 | 文心一言4.0 | 百度 | 69 | 74 | 73 | 60 | API | 国内 | |
| 8 | Llama-3-70B-Instruct | Meta | 69 | 68 | 67 | 72 | POE | 国外 | |
| 9 | Gemini-1.5-Pro | 68 | 72 | 71 | 62 | API | 国外 | ||
| 9 | 阶跃星辰step-1-32k | 阶跃星辰 | 68 | 69 | 73 | 62 | API | 国内 | |
| 10 | 讯飞星火V4.0 | 科大讯飞 | 67 | 71 | 70 | 60 | API | 国内 | |
| 11 | GPT-3.5-Turbo-0125 | OpenAI | 64 | 64 | 69 | 59 | API | 国外 | |
| 12 | Yi-1.5-34B-Chat-16K | 零一万物 | 63 | 66 | 71 | 52 | 模型 | 国内 | 开源 | 
| 13 | qwen2-7b-instruct | 阿里巴巴 | 62 | 63 | 72 | 51 | 模型 | 国内 | 开源 | 
| 14 | XVERSE-65B-2-32K | 元象科技 | 60 | 58 | 72 | 49 | API | 国内 | 开源 | 
| 15 | qwen1.5-32b-chat | 阿里巴巴 | 57 | 61 | 74 | 35 | 模型 | 国内 | 开源 | 
| 16 | Llama-3-8B-Instruct | Meta | 54 | 54 | 61 | 47 | 模型 | 国外 | 开源 | 
| 17 | Baichuan2-13B-Chat-v2 | 百川智能 | 53 | 47 | 66 | 45 | 模型 | 国内 | 开源 | 
| 17 | Yi-1.5-6B-Chat | 零一万物 | 53 | 55 | 64 | 39 | 模型 | 国内 | 开源 | 
| 18 | Phi-3-mini-128k-instruct | 微软 | 40 | 49 | 49 | 22 | 模型 | 国外 | 开源 | 
| 19 | gemma-7b-it | 38 | 28 | 57 | 29 | 模型 | 国外 | 开源 | |
| 19 | qwen2-1.5b-instruct | 阿里巴巴 | 38 | 34 | 61 | 18 | 模型 | 国内 | 开源 | 
| 20 | Llama-2-13b-chat | Meta | 35 | 34 | 48 | 21 | 模型 | 国外 | 开源 | 
开源
| 排名 | 模型 | 机构 | 总分 | 理科得分 | 文科得分 | Hard得分 | 使用方式 | 国内/国外 | 
|---|---|---|---|---|---|---|---|---|
| 1 | Qwen2-72B-Instruct | 阿里巴巴 | 77 | 76 | 76 | 79 | 模型 | 国内 | 
| 2 | Llama-3-70B-Instruct | Meta | 69 | 68 | 67 | 72 | POE | 国外 | 
| 3 | Yi-1.5-34B-Chat-16K | 零一万物 | 63 | 66 | 71 | 52 | 模型 | 国内 | 
| 4 | qwen2-7b-instruct | 阿里巴巴 | 62 | 63 | 72 | 51 | 模型 | 国内 | 
| 5 | XVERSE-65B-2-32K | 元象科技 | 60 | 58 | 72 | 49 | API | 国内 | 
| 6 | qwen1.5-32b-chat | 阿里巴巴 | 57 | 61 | 74 | 35 | 模型 | 国内 | 
| 7 | Llama-3-8B-Instruct | Meta | 54 | 54 | 61 | 47 | 模型 | 国外 | 
| 8 | Baichuan2-13B-Chat-v2 | 百川智能 | 53 | 47 | 66 | 45 | 模型 | 国内 | 
| 8 | Yi-1.5-6B-Chat | 零一万物 | 53 | 55 | 64 | 39 | 模型 | 国内 | 
| 9 | Phi-3-mini-128k-instruct | 微软 | 40 | 49 | 49 | 22 | 模型 | 国外 | 
| 10 | gemma-7b-it | 38 | 28 | 57 | 29 | 模型 | 国外 | |
| 10 | qwen2-1.5b-instruct | 阿里巴巴 | 38 | 34 | 61 | 18 | 模型 | 国内 | 
| 11 | Llama-2-13b-chat | Meta | 35 | 34 | 48 | 21 | 模型 | 国外 | 
回到顶部(Back to Top)
U 重要开源大语言模型简介
Qwen2
Qwen2 URL
https://qwenlm.github.io/blog/qwen2/
简介
Qwen2系列模型除了技术性能上的提升,还展现了更多的应用潜力。
其多语言处理、长文本处理、代码生成、数学和逻辑推理等能力,已经在MMLU、GPQA、HumanEval等国际测评中得到了验证。
![[AI/NLP] 大语言模型排行榜 | 2024.06](https://m.tuanci.com/blogimg/20240915/35c07ee79a1d4800b6baea1d85b4594c.png)
代码及数学能力也得到了显著提升
依赖项
Python >= 3.8
PyTorch
CUDA
Python第三方库
swanlab : 监控整个训练过程,并评估最终的模型效果
modelscope/魔搭 : 阿里机器学习模型平台、模型下载平台(Qwen2-1.5B-Instruct等)
transformers
datasets
peft
accelerate
pandas
一键安装
pip install swanlab modelscope transformers datasets peft pandas accelerate
ModelScope/魔搭社区模型下载URL
Qwen2-72B
https://modelscope.cn/models/qwen/Qwen2-72B
Qwen2-72B-Instruct
https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
相关报道
阿里Qwen2正式开源,性能全方位包围Llama-3 – Baidu/机器之心Pro 2024.06.17
全球最强开源模型Qwen2发布,阿里云为开闭源之争画下休止符 – Zhihu/硅星人 2024.06.07
教程资源
Qwen2大模型微调入门实战(完整代码) – CSDN
回到顶部(Back to Top)
K 大模型评测榜单
MMLU
URL
https://paperswithcode.com/
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu
简介
MMLU,全称Massive Multitask Language Understanding(大规模多任务语言理解)是人工智能领域最有影响力的大模型测评基准之一。
MMLU)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等57项任务,用以测试大模型的世界知识和问题解决能力。
但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。
HELM
URL
https://crfm.stanford.edu/helm/lite/latest/
![[AI/NLP] 大语言模型排行榜 | 2024.06](https://m.tuanci.com/blogimg/20240915/378d328b51f84f3fb8b78ccd56236d62.png)
简介
斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于HELM框架,对不同模型在MMLU上的评估结果进行标准化和透明化处理,从而克服现有MMLU评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的5个示例进行情境学习,等等。
![[AI/NLP] 大语言模型排行榜 | 2024.06](https://m.tuanci.com/blogimg/20240915/03722d361ac4481a85e0ebab99cc6d55.png)
HumanEval
URL
https://github.com/openai/human-eval
简介
这是论文“评估代码训练的大型语言模型”中描述的 HumanEval 问题解决数据集的评估工具。
SuperCLUE
URL
https://www.superclueai.com
OpenCompass/司南
URL
https://rank.opencompass.org.cn
https://rank.opencompass.org.cn/leaderboard-llm
回到顶部(Back to Top)
X 参考文献
SuperCLUE总排行榜 | 2024.06
https://www.superclueai.com
回到顶部(Back to Top)
Y 推荐文献
2024人工智能指数报告(二):技术性能 – 36氪
 
                             
                         
                             
               
                             
                         赣公网安备36020002000448号
 赣公网安备36020002000448号