[AI/NLP] 大语言模型排行榜 | 2024.06

随笔1年前 (2024)发布烟台姜丽平

160 0 0

0 引言1 通用-总排行榜闭源 + 开源开源U 重要开源大语言模型简介Qwen2K 大模型评测榜单MMLUHELMHumanEvalSuperCLUEOpenCompass/司南X 参考文献Y 推荐文献

回到顶部(Back to Top)

0 引言

通过排行榜，能快速了解各模型/产品的技术竞争力、综合竞争力。

[AI/NLP] 大语言模型排行榜 | 2024.06

回到顶部(Back to Top)

1 通用-总排行榜

SuperCLUE总排行榜 | 2024.06

闭源 + 开源

排名	模型	机构	总分	理科得分	文科得分	Hard得分	使用方式	国内/国外	备注
1	GPT-4o	OpenAI	81	81	76	85	API	国外
2	Claude-3.5-Sonnet-200k	Anthropic	77	75	72	84	API	国外
2	Qwen2-72B-Instruct	阿里巴巴	77	76	76	79	模型	国内	开源
3	DeepSeek-V2	深度求索	76	74	76	78	API	国内
3	GLM-4-0520	清华&智谱AI	76	74	74	79	API	国内
3	SenseChat5.0	商汤	76	73	75	78	API	国内
4	AndesGPT	OPPO	75	76	76	72	API	国内
4	GPT-4-Turbo-0409	OpenAI	75	77	75	74	API	国外
5	GPT-4(官网)	OpenAI	73	75	74	70	网页	国外
6	Baichuan4	百川智能	72	71	74	70	API	国内
6	Doubao-pro-32k-0615	字节跳动	72	73	74	69	API	国内
6	Moonshot(kimi)	月之暗面	72	67	74	75	网页	国内
6	山海大模型4.0	云知声	72	76	75	65	API	国内
6	360gpt2-pro	360	72	72	75	69	API	国内
7	MiniMax-abab6.5	稀宇科技	71	70	74	68	API	国内
7	通义千问2.5	阿里巴巴	71	72	76	63	API	国内
8	文心一言4.0	百度	69	74	73	60	API	国内
8	Llama-3-70B-Instruct	Meta	69	68	67	72	POE	国外
9	Gemini-1.5-Pro	Google	68	72	71	62	API	国外
9	阶跃星辰step-1-32k	阶跃星辰	68	69	73	62	API	国内
10	讯飞星火V4.0	科大讯飞	67	71	70	60	API	国内
11	GPT-3.5-Turbo-0125	OpenAI	64	64	69	59	API	国外
12	Yi-1.5-34B-Chat-16K	零一万物	63	66	71	52	模型	国内	开源
13	qwen2-7b-instruct	阿里巴巴	62	63	72	51	模型	国内	开源
14	XVERSE-65B-2-32K	元象科技	60	58	72	49	API	国内	开源
15	qwen1.5-32b-chat	阿里巴巴	57	61	74	35	模型	国内	开源
16	Llama-3-8B-Instruct	Meta	54	54	61	47	模型	国外	开源
17	Baichuan2-13B-Chat-v2	百川智能	53	47	66	45	模型	国内	开源
17	Yi-1.5-6B-Chat	零一万物	53	55	64	39	模型	国内	开源
18	Phi-3-mini-128k-instruct	微软	40	49	49	22	模型	国外	开源
19	gemma-7b-it	Google	38	28	57	29	模型	国外	开源
19	qwen2-1.5b-instruct	阿里巴巴	38	34	61	18	模型	国内	开源
20	Llama-2-13b-chat	Meta	35	34	48	21	模型	国外	开源

开源

排名	模型	机构	总分	理科得分	文科得分	Hard得分	使用方式	国内/国外
1	Qwen2-72B-Instruct	阿里巴巴	77	76	76	79	模型	国内
2	Llama-3-70B-Instruct	Meta	69	68	67	72	POE	国外
3	Yi-1.5-34B-Chat-16K	零一万物	63	66	71	52	模型	国内
4	qwen2-7b-instruct	阿里巴巴	62	63	72	51	模型	国内
5	XVERSE-65B-2-32K	元象科技	60	58	72	49	API	国内
6	qwen1.5-32b-chat	阿里巴巴	57	61	74	35	模型	国内
7	Llama-3-8B-Instruct	Meta	54	54	61	47	模型	国外
8	Baichuan2-13B-Chat-v2	百川智能	53	47	66	45	模型	国内
8	Yi-1.5-6B-Chat	零一万物	53	55	64	39	模型	国内
9	Phi-3-mini-128k-instruct	微软	40	49	49	22	模型	国外
10	gemma-7b-it	Google	38	28	57	29	模型	国外
10	qwen2-1.5b-instruct	阿里巴巴	38	34	61	18	模型	国内
11	Llama-2-13b-chat	Meta	35	34	48	21	模型	国外

回到顶部(Back to Top)

U 重要开源大语言模型简介

Qwen2

Qwen2 URL

https://qwenlm.github.io/blog/qwen2/

简介

Qwen2系列模型除了技术性能上的提升，还展现了更多的应用潜力。
其多语言处理、长文本处理、代码生成、数学和逻辑推理等能力，已经在MMLU、GPQA、HumanEval等国际测评中得到了验证。

[AI/NLP] 大语言模型排行榜 | 2024.06

代码及数学能力也得到了显著提升

依赖项

Python >= 3.8
PyTorch
CUDA
Python第三方库

swanlab : 监控整个训练过程，并评估最终的模型效果
modelscope/魔搭 : 阿里机器学习模型平台、模型下载平台(Qwen2-1.5B-Instruct等)
transformers
datasets
peft
accelerate
pandas

一键安装

pip install swanlab modelscope transformers datasets peft pandas accelerate

ModelScope/魔搭社区模型下载URL

Qwen2-72B

https://modelscope.cn/models/qwen/Qwen2-72B

Qwen2-72B-Instruct

https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

K 大模型评测榜单

MMLU

URL

https://paperswithcode.com/
https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

简介

MMLU，全称Massive Multitask Language Understanding（大规模多任务语言理解）是人工智能领域最有影响力的大模型测评基准之一。
MMLU）是业界最有影响力的大模型测评基准之一，涵盖了基础数学、计算机科学、法律、历史等57项任务，用以测试大模型的世界知识和问题解决能力。
但在现实测评中，不同参评模型的测评结果有时缺乏一致性、可比性，原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。

HELM

URL

https://crfm.stanford.edu/helm/lite/latest/

[AI/NLP] 大语言模型排行榜 | 2024.06

简介

斯坦福大学基础模型研究中心（CRFM，Center for Research on Foundation Models）提出的基础模型评估框架HELM（A holistic framework for evaluating foundation models），旨在创造一种透明、可复现的评估方法。该方法基于HELM框架，对不同模型在MMLU上的评估结果进行标准化和透明化处理，从而克服现有MMLU评估中存在的问题。比如，针对所有参评模型，都采用相同的提示词；针对每项测试主题，都给模型提供同样的5个示例进行情境学习，等等。

[AI/NLP] 大语言模型排行榜 | 2024.06