Bitget App
交易“智”变
行情交易合约跟单BOT理财Web3
新的开源AI模型与DeepSeek的表现相媲美 - 培训数据少得多

新的开源AI模型与DeepSeek的表现相媲美 - 培训数据少得多

币界网币界网2025/02/14 01:29
作者:币界网

Openthinker-32B仅使用中国竞争对手所需的数据的14%获得了基准测试结果,这标志着开源AI的胜利

一支来自领先的学术机构和科技公司的国际研究人员团队在周三的AI推理景观上颠覆了中国最复杂的AI系统:DeepSeek的新模型,并有时超过了。

Openthinker-32b,由开放的想法财团在Math500基准中获得了90.6%的精度得分,超过了DeepSeek的89.4%。

该模型还表现出对一般问题解决任务的深度表现,与DeepSeek的57.6相比,在GPQA钻石基准中得分为61.6。在LCBV2基准测试中,它达到了68.9的稳定,在各种测试方案中表现出强劲的性能。

换句话说,它比一般科学知识(GPQA-Diamond)的类似大小的DeepSeek R1版本要好。它在AIME基准测试时也击败了Math500的DeepSeek,两者都试图衡量数学水平。

它在编码方面也比DeepSeek差一些,得分为68.9分与71.2,但是由于该模型是开源的,因此,一旦人们开始进步,所有这些分数就会大大变得更好。

这项成就与众不同的是它的效率:Openthinker仅需要114,000个培训示例才能达到这些结果,而DeepSeek则使用了80万。

Openhouthts-114k数据集包含每个问题的详细元数据:地面真相解决方案,用于代码问题的测试用例,需要的启动器代码以及特定于域的信息。

其自定义策展人框架验证了针对测试用例的代码解决方案,而AI法官处理了数学验证。

该团队报告说,它使用了配备了八个H100 GPU的四个节点,大约在90小时内完成。一个单独的数据集,带有137,000个未经验证的样品在意大利的莱昂纳多超级计算机上接受培训,在短短30小时内烧毁了11,520 A100小时。

团队在文档中指出:“验证可维持质量,同时扩大培训提示的多样性和规模。”研究表明,即使未验证的版本也表现良好,尽管它们与经过验证的模型的峰值结果不符。

该模型建立在阿里巴巴的QWEN2.5-32B-INSTRUCT LLM之上,并支持一个适度的16,000个to语上下文窗口 - 可以处理复杂的数学证明和冗长的编码问题,但要比当前标准少得多。

该版本在AI推理能力的加剧竞争中到来,这似乎以思维速度发生。 Openai宣布2月12日,GPT-5之后的所有模型都将具有推理功能。一天后,埃隆·马斯克(Elon Musk)大肆宣传Xai的Grok-3增强了解决问题的能力,保证这将是迄今为止最好的推理模式,而仅在几个小时前,NOUS Research发布了另一种开源推理模型,深色,基于Meta的Llama 3.1。

在DeepSeek表现出与Openai的O1相当的表现之后,该领域获得了动力以大幅降低成本。 DeepSeek R1可以免费下载,使用和修改,并揭示了培训技术。

但是,与决定开放所有内容的开放思想不同,DeepSeek开发团队将其培训数据私有。

此关键差异意味着开发人员可能会比DeepSeek更容易理解Openthinker并从头开始复制其结果,因为他们可以访问所有难题。

对于更广泛的AI社区,该版本再次证明了建立竞争模型而没有大量专有数据集的可行性。同样,对于仍然不确定使用中国模型的西方开发人员而言,这可能是一个更值得信赖的竞争对手。

Openthinker可下载拥抱面。一个较小,功能较小的爱Pemter模型也可用于低端设备。

开放思想的团队将来自美国不同大学的研究人员与德国的Juelich SuperComputing Center一起汇集了包括斯坦福大学,伯克利和加州大学洛杉矶分校在内的研究人员。总部位于美国的丰田研究所和欧盟AI场景中的其他参与者也支持它。

编辑乔什·奎特纳(Josh Quittner)塞巴斯蒂安·辛克莱(Sebastian Sinclair)

0

免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。

PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!

你也可能喜欢

XRP鲸鱼继续积累狂欢,增加了2000万

XRP鲸鱼积累了20M令牌,这加剧了人们对潜在价格转移的猜测。鲸鱼在48小时内收购了150m XRP,这表明了看涨的情绪。分析师预测…

币界网2025/02/19 20:10

Polkadot价格预测:$ 3.74是Dot看涨逆转的关键吗?

波尔卡多(Polkadot)以3.74美元的支持的价格行动将影响其下一个潜在的举动。

币界网2025/02/19 19:53

摩根大通(JPMorgan Chase)在Chase,America和Wells Fargo客户的一年中损失了456,000,000美元的骗局,以推出新的Zelle限制

摩根大通(JPMorgan Chase)正在对客户使用付款服务Zelle的方式进行重大更改。从下个月开始,该银行表示将开始阻止Zelle付款,这些Zelle付款似乎与社交媒体联系和在线市场相关。 “为了保护您免受欺诈和骗局的侵害,应使用Zelle服务[…]

币界网2025/02/19 19:49