重磅!斯坦福 团队被曝抄袭中国大模型开源成果 AI 推特舆论开始发酵 (斯坦福llm)

过去一年,中国大模型一直被贴上「追赶美国」的标签,但近日,推特上却有人曝出:

美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果,模型架构与代码完全相同。

舆论已经开始发酵,引起了圈内人士的广泛讨论。

根据 AI 科技评论整理,事情的经过大致如下:

5 月 29 日,斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型,号称只要 500 美元(约等于人民币 3650 元)就能训练出一个 SOTA 多模态模型,且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。

由于该团队的作者(Mustafa Aljaddery、Aksh Garg、Siddharth Sharma)来自斯坦福,又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关背景经历,很快该模型发布的推特帖子浏览量就已经超过 30 万,转发 300+次,并迅速冲到了 Hugging Face 首页:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

但很快,没过几天,推特与 Hugging Face 上就开始出现怀疑的声音,质疑 Llama3V 套壳面壁智能在 5 月中旬发布的 8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何「致敬」或「感谢」 MiniCPM-Llama3-V 2.5 的声音。

对此,Llama3V 团队回复,他们「只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」。

紧接着,6 月 2 日,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友被激怒暴走,跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。

随后,面壁团队通过测试 ,发现 Llama3V 与 MiniCPM-Llama3-V 2.5 在「胎记」般案例上的表现 100% 雷同,「不仅正确的地方一模一样,连错误的地方也一模一样」。

至此,推特舆论开始发酵,「斯坦福抄袭中国大模型」一事不胫而走。

1、「套壳」证据实锤,斯坦福团队百口莫辩

最开始,用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5 开源模型时,Llama3V 作者团队并不承认,而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称他们「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

不过,好心网友对 Llama3V 作者团队的回应并不买单,而是在 Llama3V 的 Github Issue 上发布了一系列质疑,列举具体 4 点证据,但很快被 Llama3V 的团队删除。幸好作者事先截了图保留:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

面对网友的质疑,Llama3V 作者只是避重就轻地回复,称他们只是使用了 MiniCPM 的配置来解决 Llama3V 的推理 bug,并称「MiniCPM 的架构是来自 Idéfics,SigLIP也来自 Idéfics,他们也只是追随 Idéfics 的工作」而非 MiniCPM 的工作,因为「MiniCPM 的视觉部分也是来自 Idéfics 的」——

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

并且将原来 readme 里引用致谢 「MiniCPM-Llama3 」改为了「致谢 MiniCPM」:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

但根据网友的复盘、梳理,Llama3V 并非只是简单的借鉴,而是有 4 点证据能充分表明其「套壳」了 MiniCPM-Llama3-V 2.5。

证据 1:

Llama3V 项目使用了与 MiniCPM-Llama3-V 2.5 项目完全相同的模型结构和代码实现。

Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5 完全相同,只是变量名不同。

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

Llama3-V 的代码是通过对 MiniCPM-Llama3-V 2.5 的代码进行格式调整和变量重命名得到的,包括但不限于图像切片方式、tokenizer、重采样器和数据加载:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

证据 2:

Llama3V 团队称其「引用了 LLaVA-UHD 作为架构」,但事实是 Llama3V 与 MiniCPM-Llama3-V 2.5 结构完全相同,但在空间模式等多方面却与 LLaVA-UHD 有较大差异。

Llama3-V 具有与 MiniCPM-Llama3V 2.5 相同的标记器(tokenizer),包括 MiniCPM-Llama3-V 2.5 新定义的特殊标记:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

证据 3:

Llama3V 作者曾在 Hugging Face 上直接导入了 MiniCPM-V 的代码,后改名为 Llama3V。事件发酵后,AI 科技评论打开 Hugging Face 页面发现已经「404」:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

作者回应删除 Hugging Face 仓库的原因是「修复模型的推理问题」,并称他们「尝试使用 MiniCPM-Llama3 的配置,但并没有用」:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

戏剧效果拉满的是,该网友随后贴出了如何使用 MiniCPM-Llama3-V 的代码,跑通 Llama3V 模型推理的详细步骤。

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

当 Llama3V 的作者被询问如何能在 MinicPM-Llama3-V2.5 发布之前就使用它的 tokenizer 时(因为其一开始称他们在 MinicPM-Llama3-V2.5 发布前就已经开始了 Llama3V 的研究),Llama3V 的作者开始撒谎,称是从已经发布的上一代 MinicPM-V-2 项目里拿的tokenizer:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

但事实是,据 AI 科技评论向面壁团队了解,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在Huggingface 里是两个文件,「既不是同一个 tokenizer 件,文件大小也完全不同」。

MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成,MiniCPM-v2 因为在 Llama3 开源之前就发布,所以不会有 Llama3 的 tokenizer :

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵 重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

证据 4:

Llama3V 的作者删除了 GitHub 上的相关 issue,并似乎不完全理解 MinicPM-Llama3-V2.5 的架构或 Llama3V 自己的代码。

Perceiver重采样器是一个单层的交叉注意力机制,而不是两层自注意力机制。SigLIP 的 Sigmoid 激活函数并未用于训练多模态大型语言模型,而仅用于 SigLIP 的预训练。

但 Llama3V 在论文中的介绍却说其采用了两层自注意力机制:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

而 MiniCPM-Llama3-V 2.5 和 Llama3V 代码如下,体现的却是单层交叉注意力机制:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

MiniCPM-Llama3-V 2.5:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

且视觉特征提取不需要激活 sigmoid:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

2、推特舆论发酵,面壁回应

6 月 2 日下午,该事件开始在推特上发酵,MiniCPM-V 的作者亲自发帖,表示「震惊」,因为斯坦福的 Llama3V 模型居然也能识别「清华简」。

据 AI 科技评论向面壁团队了解,「清华简」是清华大学于 2008 年 7 月收藏的一批战国竹简的简称;识别清华简是 MiniCPM-V 的「胎记」特征。该训练数据的采集和标注均由面壁智能和清华大学自然语言处理实验室团队内部完成,相关数据尚未对外公开。

斯坦福的 Llama3V 模型表现与 MiniCPM-Llama3-V 2.5 检查点的加噪版本高度相似:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

以下是面壁团队成果与 Llama3V 对「清华简」的识别对比。结果显示,两个模型不仅正确的地方一模一样、错误的地方也雷同:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

Q:请识别图像中的竹简字?

MiniCPM-Llama3-V 2.5:民

Llama3-V:民

GT:民

错误识别示例:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

Q:请识别图像中的竹简字?

MiniCPM-Llama3-V 2.5:君子

Llama3-V:君子

GT:甬

以下是在 1000 个清华简字体上的识别效果:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

可以看到,Llama3V 与 MiniCPM-Llama3-V 2.5 的重叠高达 87%,且两个模型的错误分布律高度相似:Llama3V 的错误率为 236,MiniCPM-Llama3-V 2.5 的错误率是 194,两个模型在 182 个错误识别上相同。

同时,两个模型在清华简上的高斯噪声也同样高度相似:

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

此外,Llama3V 的 OCR 识别能力在中文字上也与 MiniCPM-Llama3-V 2.5 高度相似。对此,面壁团队表示,他们很好奇斯坦福团队是如何只用「500 美元就能训练出这么高深的模型性能」。

根据公开信息显示,Llama3V 的两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生,曾发表过多篇机器学习领域的论文。

其中,Siddharth Sharma 曾在牛津大学访问、在亚马逊实习;Aksh Garg 也曾在 SpaceX 实习。

这件事反映出,AI 研究的投机分子不分国度。

同时,也反映出,中国科研团队的开源大模型实力已经冲出国门,逐渐被越来越多国际知名的机构与开发者所关注、学习。

中国大模型不仅在追赶世界顶尖机构,也正在成为被世界顶尖机构学习的对象。

由此可见,今后看客们审视国内外的大模型技术实力对比,应该多一份民族自信、少一点崇洋媚外,将关注度多聚焦在国内的原创技术上。

最后,一句话总结:投机不可取,永争创新一。

原创文章,未经授权禁止转载。详情见 转载须知 。

重磅!斯坦福 AI 团队被曝中国大模型开源成果,推特舆论开始发酵

全局中部横幅
【官网】

闪剪是国内领先的AI数字人口播视频在线创作平台,同时拥有移动端APP版本,平台有丰富的数字人视频模板,你只需输入关键词,AI自动创作文案一键生成数字人视频,还可在线定制专属数字人形象及声音;内含200+国际化数字人模特、24+国家AI配音、AI文案创作、智能成片、照片数字人、直播快剪、视频订阅号等功能,让企业团队轻松实现矩阵营销引流,降本增效。

360导航

360导航--一个主页,整个世界,为用户提供门户、新闻、视频、游戏、小说、彩票等各种分类的优秀内容和网站入口,提供简单便捷的上网导航服务。安全上网,从360导航开始。

国际注册会计师ACCA备考资料下载

高顿ACCA资料下载汇总中心,提供最新最全的特许公认会计师(ACCA)专业备考资料,包括各科考纲白皮书、历年真题以及真题解析等,帮助考生提高备考效率。

中国人民解放军总医院

解放军总医院,301医院,解放军医学院,百项优势,中国人民解放军总医院

三国杀online

《4399三国杀》是一款卡牌游戏,4399三国杀官网提供三国杀网页版,三国杀online,无需下载,最新推出火包,标准版、风包、军争篇,提供身份局、3v3、1v1等多种游戏模式.

花百科

花百科,陪伴您的养花生活。达人和花友每日分享专业的养花知识、技巧和图片。让您30天成为养花达人!

青岛迈威微波化学设备有限公司

青岛迈威微波化学设备有限公司是一家专业从事微波技术在化学和化工领域应用的科技型企业,产品和服务内容涵盖各类微波化学反应器和合成仪,微波化工加热和反应设备,大型微波化工工程项目等三大类。联系电话:13853294138

77句子

77句子为大家提供关于语录,句子大全,诗句,唯美句子,短句,伤感句子,名言,早安心语,感悟等,欢迎大家一起阅读。

作文素材网

作文素材网整理了中小学所有的教学作文,包括教材单元作文,考试作文,竞赛作文,获奖作文、优秀作文、英语作文,为你在作文写作的时候提供全方位参考!

域名注册

新网域名是中国入选全球TOP15的域名注册服务商,.com域名注册位居行业之首.包括中文域名、英文域名及顶级域名注册,域名查询,域名申请,域名购买及域名解析等服务

首页

合肥市第四人民医院(安徽省精神卫生中心、安徽医科大学附属心理医院)是一所三级甲等精神专科医院,建院于1953年,前身为安徽省立精神病医院,承担全省精神、心理疾病的预防、治疗、康复、教学、科研、司法鉴定等工作,担负指导全省精神卫生工作的发展和人才培养的重任。

IP属地

IP归属地查询是一个iP地址查询网站,通过IP查询出具体的归属地、运营商、网络类型等数据,IP属地查询支持ipV4和ipV6各类ip地址查询。

全局底部横幅