最新模型对“得分刷”训练进行了质疑。梅塔承_米乐M6官方网站

最新模型对“得分刷”训练进行了质疑。梅塔承

作者：bat365在线平台官网发布时间：2025-04-12 23:31

这位科技巨头元数据回答了有关该公司最新的开放资源AI（人工智能），Llama 4的问题，否认该模型在培训集中被欺骗。 4月7日，当地时间，Meta上生物AI的负责人艾哈迈德·达勒（Ahmad al-Dahle）在社会平台上发表了一篇长文章，该文章回答了有关骆驼4的问题。艾哈迈德（Ahmad）说，自从发行时发行了Llama 4的发行时，该模型在开发时很快就发布了，该模型“表达了不同的服务的不均匀质量”，该公司很快就会调整弱点。同时，艾哈迈德（Ahmad）否认了骆驼4（Llama 4）在训练场上的“标记”中作弊的说法。两天前，4月5日，Meta推出了最受欢迎的模型系列Llama的最新一代模型，包括较小的Scout模型和Hustalg Maverick Model。此外，元数据还展示了Llama 4庞然大物模型的预览，被称为“今天最强大，最明智”。据报道，Llama 4模型是Llama系列模型中采用混合专家（MOE）体系结构的第一款模型，在多模式性能方面具有出色的性能。其中，最先进的骆驼4庞然大物的总参数为2万亿，是其他模型的“老师”。 Scout和Maverick的活动参数为170亿，侦察兵主要针对文档和大规模编码任务的摘要，而Maverick则专注于多模式功能。作为一种本地的多模型模型，Llama 4采用了早期集成技术，使用大量文本，没有标记，图片和视频视频来预训练该模型，以无缝将令牌和视觉令牌与统一模型大纲相结合。此外，Llama 4还取得了长期文字功能的突破。 Scout模型支持上下文Windows，具有多达1000万个令牌，而Maverick模型则支持100万个令牌上下文Windows。但是，一旦释放，骆驼4就被询问。元版接口显示，Scout和Maverick在LiveCodeBench测试集上表现良好，该测试集评估了聊天机器人代码和竞技场的功能。但是许多开发人员发现这些模型已经执行了小基准。例如，一些网民指出，在一个名为Aider Polyglot的基准测试中，该测试允许该模型完成225个编程活动，仅实现了Llama 4 Maverick的16％，该活动比以前类似大小的模型（例如Gemini 2.5 Pro，Claude 2.7 Pro，Claude 3.7 Sonnet and DeepSeek -V3）少。在小型测试组中，骆驼4小牛没有正确地完成。资料来源：Andriy是X平台Burkov上的AI工程师和技术作家X Meta X Meta说，Llama 4 Scout的背景有1000万个令牌，这实际上是一个“错误的建议”：“实际上，任何模型实际上会练习超过256,000个代币的直接单词，即使您寄出了很多时间。测试集Meta为此测试集创建了Llama 4的“特殊版本”。例如，AI2（艾伦人工智能研究所）的前Manmeta和现任高级研究员内森·兰伯特（Nathan Lambert）在比较测试后指示，在大型竞技场模型中实现了不同的结果，在大型竞技场模型中实现了不同的公开发布该公司版本，该版本是“传达的”版本。此外，在Llama 4发行前几天，AI Research的总监Joelle Pineau在Meta工作了8年，他宣布辞职。与Llama 4的表现有关，网民对骆驼的“盲盒操作”的怀疑。在国内社会平台上，一些网民说，内部元员工说“骆驼4存在严重问题”，并向公司提出了辞职的申请。出于同样的原因，删除AI研究主管也是如此。网民说：“经过训练后，perf内部模型的Ormance仍然无法达到开放的SOTA资源（该模型在研究工作中表现最佳），而且远非如此。公司领导建议在后支持过程中将每个基准的测试集混合在一起。当然，Llama 4的最初发行并没有给AI社区带来很大的积极回应。目前，面对中国AI模型的快速发展，Meta渴望通过开放资源来加强Llama系列的领先地位。今年2月，下载阿里巴巴·汤蒂（Alibaba Tongyi Qianwen）系列的数量达到了1.8亿，衍生型号的总数达到90,000。衍生模型的数量已超过Meta Llama系列，并已成为世界上最大的开放源源模型系列。 In7，Meta（NASDAQ：META）股价上涨了2.28％，收盘价为516.25美元，总市场价值为1.31万亿美元。

上一篇：海尔XQG100

下一篇：没有了