剪枝技术
去除模型中不重要的部分,包括深度剪枝和宽度剪枝
模型蒸馏
从大模型转移知识到小模型,包括SGD训练和经典知识蒸馏
高效训练
训练数据量比从头训练减少40倍
卓越性能
在MMLU基准测试中提高16%性能
Llama3
18B参数
中间版本
8B参数
Minitron4B
4B参数
指令跟随
角色扮演
检索增强生成(RAG)
函数调用
高效训练与部署
显著性能提升
开放商业使用
@AIbase