曩昔一年,我国大模型一向被贴上「追逐美国」的标签,但近来,推特上却有人曝出:
美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家我国大模型公司的开源作用,模型架构与代码完全相同。雷峰网(大众号:雷峰网)
5 月 29 日,斯坦福大学的一个研讨团队发布了一个名为「Llama3V」的模型,声称只需 500 美元(约等于人民币 3650 元)就能练习出一个 SOTA 多模态模型,且作用比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。
由于该团队的作者(Mustafa Aljaddery、Aksh Garg、Siddharth Sharma)来自斯坦福,又集齐了特斯拉、SpaceX、亚马逊与牛津大学等组织的相关布景阅历,很快该模型发布的推特帖子浏览量就已逾越 30 万,转发 300+次,并敏捷冲到了 Hugging Face 主页:
紧接着,6 月 2 日,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删去。为此,提出质疑的网友被激怒暴走,跑到了 MiniCPM-V 的 Github 页面进行事情复原,提示面壁智能团队重视此事。
随后,面壁团队经过测验 ,发现 Llama3V 与 MiniCPM-Llama3-V 2.5 在「胎记」般事例上的体现 100% 相同,「不只正确的当地如出一辙,连过错的当地也如出一辙」。
不过,好意网友对 Llama3V 作者团队的回应并不买单,而是在 Llama3V 的 Github Issue 上发布了一系列质疑,罗列具体 4 点依据,但很快被 Llama3V 的团队删去。幸亏作者事前截了图保存:
但依据网友的复盘、整理,Llama3V 并非仅仅简略的学习,而是有 4 点依据能充沛标明其「套壳」了 MiniCPM-Llama3-V 2.5。
Llama3-V 的代码是经过对 MiniCPM-Llama3-V 2.5 的代码进行格局调整和变量重命名得到的,包含但不限于图画切片方法、tokenizer、重采样器和数据加载:
作者回应删去 Hugging Face 库房的原因是「修正模型的推理问题」,并称他们「测验运用 MiniCPM-Llama3 的装备,但并没有用」:
戏曲作用拉满的是,该网友随后贴出了怎么样去运用 MiniCPM-Llama3-V 的代码,跑通 Llama3V 模型推理的具体过程。
Perceiver重采样器是一个单层的穿插注意力机制,而不是两层自注意力机制。SigLIP 的 Sigmoid 激活函数并未用于练习多模态大型言语模型,而仅用于 SigLIP 的预练习。
6 月 2 日下午,该事情开端在推特上发酵,MiniCPM-V 的作者亲身发帖,表明「震动」,由于斯坦福的 Llama3V 模型竟然也能辨认「清华简」。
据 AI 科技谈论向面壁团队了解,「清华简」是清华大学于 2008 年 7 月保藏的一批战国竹简的简称;辨认清华简是 MiniCPM-V 的「胎记」特征。该练习数据的收集和标示均由面壁智能和清华大学自然言语处理实验室团队内部完结,有关数据没有对外揭露。
以下是面壁团队作用与 Llama3V 对「清华简」的辨认比照。成果显现,两个模型不只正确的当地如出一辙、过错的当地也相同:
此外,Llama3V 的 OCR 辨认才能在中文字上也与 MiniCPM-Llama3-V 2.5 高度类似。对此,面壁团队表明,他们很猎奇斯坦福团队是怎么只用「500 美元就能练习出这么深邃的模型功能」。
依据揭露信息数据显现,Llama3V 的两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生,曾宣布过多篇机器学习范畴的论文。
一起,也反映出,我国科研团队的开源大模型实力现已冲出国门,逐步被渐渐的变多世界闻名的组织与开发者所重视、学习。
由此可见,往后看客们审视国内外的大模型技能实力比照,应该多一份民族自傲、少一点崇洋,将重视度多聚集在国内的原创技能上。雷峰网