Resume RL #1386

hhaAndroid · 2025-12-23T12:30:48Z

支持 RL Resume

用法 1-常规用法

trainer = RLTrainerConfig(
    hf_interval=5,
    hf_max_keep=1,
    checkpoint_interval=2,
    checkpoint_maxkeep=2,
    auto_resume=True
)

会自动保存 dcp 和 model 以及 hf 权重、dataload 相关状态。 auto_resume 可以确保自动 resume 所有状态

用法 2-不保存 dcp

load_checkpoint_cfg = LoadCheckpointConfig(load_optimizer_states=False, load_optimizer_args=False)
trainer = RLTrainerConfig(
    hf_interval=5,
    hf_max_keep=1,
    checkpoint_interval=2,
    checkpoint_maxkeep=2,
    checkpoint_no_save_optimizer=True,
    load_checkpoint_cfg=load_checkpoint_cfg,
    auto_resume=True
)

除了 optimizer 不恢复外其余全恢复。

注意:

在 resume 模式下 checkpoint_interval 必须要设置，默认是 -1 表示不支持任何 resume
暂时没有考虑 partial rollout 以及 ReplayBufferStorage 状态的恢复

xtuner/v1/ray/dataflow/flow.py

xtuner/v1/train/rl_trainer.py

xtuner/v1/ray/dataflow/replay_buffer.py

hhaAndroid added 4 commits December 23, 2025 14:47

support resume of RL

ad1022d

fix

26ccc7d

fix

9679063

support no save optimizer

cea4221

hhaAndroid changed the title ~~[WIP] Resume RL~~ Dec 23, 2025

hhaAndroid requested review from YanhuiDua and jayhenry December 23, 2025 12:43

hhaAndroid added 2 commits December 24, 2025 11:04

support no save optimizer

4e86bc1

add test

8098a72

jayhenry reviewed Dec 24, 2025

View reviewed changes

fix comments

8d615b0

hhaAndroid requested a review from jayhenry December 24, 2025 06:51

jayhenry approved these changes Dec 24, 2025

View reviewed changes

hhaAndroid merged commit 0ab6bf8 into InternLM:main Dec 24, 2025
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Resume RL #1386

Resume RL #1386

Uh oh!

hhaAndroid commented Dec 23, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Labels

2 participants

Resume RL #1386

Resume RL #1386

Uh oh!

Conversation

hhaAndroid commented Dec 23, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

支持 RL Resume

用法 1-常规用法

用法 2-不保存 dcp

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Labels

2 participants

hhaAndroid commented Dec 23, 2025 •

edited

Loading