小米AI大模型MiLM-6B首次曝光：64亿参数量，此前称不单独做ChatGPT

今天小编分享的互联网经验：小米AI大模型MiLM-6B首次曝光：64亿参数量，此前称不单独做ChatGPT，欢迎阅读。

小米总部园区

在小米公司 CEO 雷军演讲前夕，其研发的人工智能（AI）大模型产品悄然现身。

钛媒体 App 获悉，8 月 11 日，小米公司开发的大规模预训练语言模型 MiLM-6B/1.3B 登陆代码托管平台 GitHub，参数规模最高达 64 亿，而且现身在 C-Eval、CMMLU 基准评测榜单。

截至当前，小米大模型 MiLM-6B 在 C-Eval 总榜单排名第 10、同参数量级排名第 1，平均分为 60.2 分，超过了阿里云 Qwen-7B、OpenAI 研发的 ChatGPT（今年 5 月数据）等，而 MiLM-1.3B 排行第 30 名，平均分 45.8 分，接近谷歌投资的 Anthropic 公司的 Claude 1.0 版本大模型。

这是小米大模型产品的首次曝光，也是小米史上首个 GPT 大模型产品亮相。

事实上，随着 ChatGPT 风靡全球，今年 4 月 14 日，小米公司宣布成立小米 AI 实验室大模型团队，由栾剑带队向王斌汇报。据悉，AI 实验室是小米 AI 战略的核心部门，而大模型负责人王斌曾在中科院从事了 20 多年 NLP（自然语言处理）相关的研究和开发工作，2018 年加入小米，2019 年起负责 AI 实验室。

小米 CEO 雷军当时表示，公司正在研发一些技术和产品，等打磨好了再给大家演示。小米集团总裁卢伟冰称，小米目前拥有超过 1200 人的 AI 团队，会积极拥抱大模型，与业务深度结合，但不会像 OpenAI 一样。

今年 6 月，王斌对外透露，小米会去自研通用语言大模型，但不会单独发布一款类 ChatGPT 产品。他表示，小米第一步的目标基座模型参数在几百亿，而且小米大模型将会落地小爱同学、loT、自动驾驶、机器人等现有场景中，并利用丰富的应用场景反哺大模型能力。

成立仅仅四个月后的今天，小米公布了大模型产品—— MiLM-6B，并在 C-Eval 和 CMMLU 基准评测上均取得同尺寸较好效果。

其中，在 C-Eval 评估中，MiLM-6B 的平均得分为 60.2，在不同学科和难度级别（如 STEM、社会科学、人文学科等）得分从 42 分到 71.7 分不等。在 CMMLU 评估中，MiLM-6B 在零样本和五样本测试中的平均得分分别为 60.37 分和 57.17 分，表现出良好的知识和推理能力。

据悉，C-Eval 榜单是清华大学、上海交通大学和爱丁堡大学共同构建的综合汉语模型评估套件，而 CMMLU 则是综合汉语模型基准。

预计小米将会于 8 月 14 日举行 2023 雷军年度演讲，但目前雷军暂未透露是否会发布 MiLM-6B 大模型技术。

钛媒体 App 向团队询问关于 MiLM-6B/1.3B 是否开源、产品是否已经落地内测等问题，截至发稿前暂未得到小米官方回复。（本文首发钛媒体 App，作者｜林志佳）