阿里发布的大模型主要有以下几种:
Qwen2.5-Max
- 发布时间:2025年1月29日凌晨。
- 技术特点:是阿里云通义团队对MoE(混合专家)模型的最新探索成果,预训练数据超过20万亿tokens,采用超大规模MoE架构,展现出极强劲的综合性能。
- 性能表现:在多项公开主流模型评测基准上录得高分,在所有11项基准测试中超越了DeepSeek V3、Llama-3.1-405B等对比模型,在测试大学水平知识的MMLU-Pro、评估编程能力的LiveCodeBench、综合能力评估的LiveBench以及近似人类偏好的Arena-Hard等多个权威评测中,与DeepSeek V3、GPT-4和Claude-3.5-Sonnet比肩,甚至领先。
Qwen2.5-VL
- 发布时间:2025年1月28日。
- 技术特点:推出了3B、7B、72B三个尺寸版本,是视觉理解模型。
- 性能表现:旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。
Qwen2系列
- 发布时间:2024年6月7日。
- 技术特点:涵盖5个尺寸的预训练和指令微调模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B为混合专家模型(MoE)。所有尺寸模型都使用了GQA(分组查询注意力)机制,增加了27种语言相关的高质量数据,上下文长度支持进一步扩展,最高达128k tokens。
- 性能表现:在斯坦福大学的大模型测评榜单HELM MMLU中,Qwen2-72B是排名第一的开源大模型,也是排名最高的中国大模型。
本文作者可以追加内容哦 !