最新模型对“得分刷”训练进行了质疑。梅塔承
作者:bat365在线平台官网 发布时间:2025-04-12 23:31
这位科技巨头元数据回答了有关该公司最新的开放资源AI(人工智能),Llama 4的问题,否认该模型在培训集中被欺骗。 4月7日,当地时间,Meta上生物AI的负责人艾哈迈德·达勒(Ahmad al-Dahle)在社会平台上发表了一篇长文章,该文章回答了有关骆驼4的问题。艾哈迈德(Ahmad)说,自从发行时发行了Llama 4的发行时,该模型在开发时很快就发布了,该模型“表达了不同的服务的不均匀质量”,该公司很快就会调整弱点。同时,艾哈迈德(Ahmad)否认了骆驼4(Llama 4)在训练场上的“标记”中作弊的说法。两天前,4月5日,Meta推出了最受欢迎的模型系列Llama的最新一代模型,包括较小的Scout模型和Hustalg Maverick Model。此外,元数据还展示了Llama 4庞然大物模型的预览,被称为“今天最强大,最明智”。据报道,Llama 4模型是Llama系列模型中采用混合专家(MOE)体系结构的第一款模型,在多模式性能方面具有出色的性能。其中,最先进的骆驼4庞然大物的总参数为2万亿,是其他模型的“老师”。 Scout和Maverick的活动参数为170亿,侦察兵主要针对文档和大规模编码任务的摘要,而Maverick则专注于多模式功能。作为一种本地的多模型模型,Llama 4采用了早期集成技术,使用大量文本,没有标记,图片和视频视频来预训练该模型,以无缝将令牌和视觉令牌与统一模型大纲相结合。此外,Llama 4还取得了长期文字功能的突破。 Scout模型支持上下文Windows,具有多达1000万个令牌,而Maverick模型则支持100万个令牌上下文Windows。但是,一旦释放,骆驼4就被询问。元版接口显示,Scout和Maverick在LiveCodeBench测试集上表现良好,该测试集评估了聊天机器人代码和竞技场的功能。但是许多开发人员发现这些模型已经执行了小基准。例如,一些网民指出,在一个名为Aider Polyglot的基准测试中,该测试允许该模型完成225个编程活动,仅实现了Llama 4 Maverick的16%,该活动比以前类似大小的模型(例如Gemini 2.5 Pro,Claude 2.7 Pro,Claude 3.7 Sonnet and DeepSeek -V3)少。在小型测试组中,骆驼4小牛没有正确地完成。资料来源:Andriy是X平台Burkov上的AI工程师和技术作家X Meta X Meta说,Llama 4 Scout的背景有1000万个令牌,这实际上是一个“错误的建议”:“实际上,任何模型实际上会练习超过256,000个代币的直接单词,即使您寄出了很多时间。测试集Meta为此测试集创建了Llama 4的“特殊版本”。例如,AI2(艾伦人工智能研究所)的前Manmeta和现任高级研究员内森·兰伯特(Nathan Lambert)在比较测试后指示,在大型竞技场模型中实现了不同的结果,在大型竞技场模型中实现了不同的公开发布该公司版本,该版本是“传达的”版本。此外,在Llama 4发行前几天,AI Research的总监Joelle Pineau在Meta工作了8年,他宣布辞职。与Llama 4的表现有关,网民对骆驼的“盲盒操作”的怀疑。在国内社会平台上,一些网民说,内部元员工说“骆驼4存在严重问题”,并向公司提出了辞职的申请。出于同样的原因,删除AI研究主管也是如此。网民说:“经过训练后,perf内部模型的Ormance仍然无法达到开放的SOTA资源(该模型在研究工作中表现最佳),而且远非如此。公司领导建议在后支持过程中将每个基准的测试集混合在一起。当然,Llama 4的最初发行并没有给AI社区带来很大的积极回应。目前,面对中国AI模型的快速发展,Meta渴望通过开放资源来加强Llama系列的领先地位。今年2月,下载阿里巴巴·汤蒂(Alibaba Tongyi Qianwen)系列的数量达到了1.8亿,衍生型号的总数达到90,000。衍生模型的数量已超过Meta Llama系列,并已成为世界上最大的开放源源模型系列。 In7,Meta(NASDAQ:META)股价上涨了2.28%,收盘价为516.25美元,总市场价值为1.31万亿美元。
上一篇:海尔XQG100
下一篇:没有了
电话
020-66888888