Mixtral 8x22B
Mixtral 8x22B 是 Mistral AI 发布的一个新的开源大语言模型(LLM)。Mixtral 8x22B 被描述为一个稀疏专家混合模型,具有 141B 参数,其中 39B 是活跃参数。
能力
Mixtral 8x22B 被训练为一个具有成本效益的模型,具有多语言理解、数学推理、代码生成、本地函数调用支持和受限输出支持等能力。该模型支持 64K tokens 的上下文窗口大小,从而在处理大文档时实现高效的信息回忆。
Mistral AI 声称,Mixtral 8x22B 提供了社区模型中最佳的性能与成本比,并且由于其稀疏激活特性,速度显著加快。
结果
根据 官方报告的结果 (opens in a new tab),Mixtral 8x22B(具有 39B 活跃参数)在多个推理和知识基准测试上,如 MMLU、HellaS、TriQA、NaturalQA 等,优于最先进的开源模型如 Command R + 和 Llama 2 70B。
Mixtral 8x22B 在代码和数学任务上的表现优于所有开源模型,在 GSM8K、HumanEval 和 Math 等基准测试中表现尤为突出。据报道,Mixtral 8x22B Instruct 在 GSM8K(maj@8)上取得了 90% 的得分。
更多关于 Mixtral 8x22B 的信息及使用方法,请访问: https://docs.mistral.ai/getting-started/open_weight_models/#operation/listModels (opens in a new tab)
该模型以 Apache 2.0 许可证发布。