你的位置:文爱app > 家有小女 >

西野翔qvod MM-Eureka:少量数据杀青多模态推理的R1-Zero时间

发布日期:2025-03-18 13:14    点击次数:116

西野翔qvod MM-Eureka:少量数据杀青多模态推理的R1-Zero时间

起头:机器之心Pro西野翔qvod

尽管 DeepSeek-R1 在单模态推理中取得了权贵收效,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未透顶复现其中枢特征。

举例,R1-V 仅在浅易计数任务上进展出跳跃,未能杀青回应长度的增长和顿悟时间;R1-Multimodal-Journey 则在考试经过中回应长度反而缩短;LMM-R1 固然有所跳跃,但尚未在大畛域图文数据考试中得到考证。而 Kimi 1.5 尽管进展凸起,但并未开源其模子或数据。

论文标题:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING代码地址:https://github.com/ModalMinds/MM-EUREKA技巧论说:https://arxiv.org/pdf/2503.07365模子地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38Bhttps://huggingface.co/FanqingM/MM-Eureka-8B数据集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset

咱们这篇使命聚焦于一个中枢问题:如安在多模态环境中复现 DeepSeek-R1 的关节特质,包括褂讪的回应长度增长、准确率奖励以及 Visual aha-moment?

为了解答这一问题,来自上海东谈主工智能现实室、上海创智学院、上海交通大学和香港大学的磋磨东谈主员建议了多模态学科推理模子 MM-Eureka。

咱们的探索

开心五月

开源框架:咱们基于 OpenRLHF 配置了一个高效可推广的多模态大畛域强化学习框架,营救 InternVL 等多种模子和 RL 算法。比较 R1-V 等已有框架,咱们的决策收效考试了 InternVL 2.5-38B 等大型模子。

褂讪考试:咱们配置了两个模子——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B)西野翔qvod,均收效复现了褂讪的 accuracy reward、response length 增长以及 Visual aha-moment。

极大的数据效劳:仅使用 54K 图文数据进行限定型 RL 考试,平均性能卓越使用 1M 数据的 MPO 模子;合座基准准确率与使用 12M 数据进行 CoT SFT 考试的模子相等!MM-Eureka-Zero 仅使用 8K 图文数学推理数据(教唆模子的 0.05%),在咱们自建的 K12 基准测试上超越教唆模子 8.2%,在 MathVerse 上进展相等。

要紧发现

极简的 RL 缱绻足以取得出色效果。在 instruct 模子上现及时,添加 KL 散度会甩掉模子探索,导致无法不雅测到 response length 的提高。

数据遴荐关于褂讪 RL 考试很要紧!基于难度的数据过滤战术对 RL 考试褂讪性至关要紧。在 8B-instruct 模子上进行 RL 考试时,若不进行数据过滤,考试经过极其不褂讪。

模子在 RL 考试中展现雷同 DeepSeek-R1 的 aha-moment,终点是模子不仅学会反念念和回溯,还学会从头注目图像中的关节信息,咱们以为这是 Visual aha-moment 的关节特征。

咱们的效劳

无论在 Instruct 也曾 Pretrained Model 上,咱们均在极简 RL 缱绻以及数据筛选战术下杀青了褂讪的 Accuracy Reward 普及和 Response Length 普及。

在 Instruct 模子上,险些一都使用开源数据(50K),便在扫数多模态数学推理基准上取得褂讪普及。比较其他后考试战术,比如 MPO(1M 数据)和 CoT SFT(12M 数据),咱们发现浅易的 rule-based RL 具备极强的数据高效性,使用几十分之一的数据,平均性能卓越 MPO,与 CoT SFT 相等。

在 Pretrained 模子上进一步挖掘 RL 后劲,仅需 8K 多模态数学推理数据,即可在奥林匹克数学测试集(部分)和 K12 数学推理测试集上,卓越使用 16.3M 数据进行 SFT 的教唆模子。在 MathVerse 上,两种模子进展也相似。咱们仅使用了教唆模子数据量的 0.05%,突显了强化学习的重大后劲!

其他尝试与反念念

咱们在复现经过中进行了很多其他的尝试,在此共享一些咱们以为有匡助,但并未收效考证的操作。咱们以为这并不代表这些智力有问题,而是需要进一步探索。

Curriculum Learning:尽管咱们基于难度差别数据并尝试从易到难考试,但未不雅察到明显性能普及。咱们以为浅易问题的学习难以径直泛化到不毛,如何更灵验地组织课程学习数据仍需探索。

Online Data Filter:咱们将事前基于难度的数据筛选战术记为 Offline Data Filter。这种决策固然不错匡助 RL 进行褂讪考试,但其数据运用率缩短了,因此咱们但愿在模子考试经过中动态进行基于难度的数据筛选(雷同 PRIME)。关系词,咱们发现考试终结不如 offline data filter 褂讪,咱们以为这是因为每次更新时的数据量不同,导致梯度不褂讪。

Model Size:尽管现在一些使命,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的进展,但咱们在多模态推理场景下,难以通过 8B 的 InternVL Pretrained 进行收效复现。咱们以为这受制于多模态推理数据质地以及多模态预考试数据中很少存在 long CoT 数据。

咱们的守望

咱们开源了全套数据(包括自助收罗的高质地多模态 K12 数据集)、代码和模子,并发布了戒备的技巧论说,涵盖扫数复现经过及未收效的尝试。但愿咱们的使命能匡助社区共同鞭策多模态推理的发展!咱们相似在抓续鞭策模子考试西野翔qvod,请赓续温雅!