add sft training with RL #1403

hhaAndroid · 2025-12-30T07:40:45Z

         dataset_config = []
        _data_cfg = {"dataset": DatasetConfig(name='apach',
                                              anno_path=ALPACA_PATH),
                     "tokenize_fn": OpenaiTokenizeFunctionConfig(
                         chat_template='qwen3',
                         max_length=32768
                     )
                     }
        dataset_config.append(_data_cfg)

        sft_dataloader_cfg = DataloaderConfig(
            dataset_config_list=dataset_config,
            pack_max_length=32768,
            pack_to_max_length=True,
            num_workers=0,
        )
        sft_global_batch_size = 8
        loss_reduction = "square"
        sft_loss_cfg = CELossConfig(mode="chunk", chunk_size=1024, loss_reduction=loss_reduction)

        worker_cfg: WorkerConfig = WorkerConfig(
            sft_dataloader_cfg=sft_dataloader_cfg,
            sft_global_batch_size=sft_global_batch_size,
            sft_loss_cfg=sft_loss_cfg,
            seed=42,
            ...
        )

xtuner/v1/rl/base/worker.py

xtuner/v1/rl/base/controller.py

xtuner/v1/rl/base/worker.py

hhaAndroid added 4 commits December 30, 2025 15:40

add sft trainging with RL

274eb3a

fix lint

977d5c2

update

3a5d905

refine

77ef8f1

jayhenry reviewed Dec 30, 2025

View reviewed changes

hhaAndroid added 2 commits December 31, 2025 10:41

fix comment

1900a66

add ci

a921446

hhaAndroid changed the title ~~add sft trainging with RL~~ Dec 31, 2025

jayhenry approved these changes Dec 31, 2025

View reviewed changes

hhaAndroid merged commit 8dae899 into InternLM:main Dec 31, 2025
3 of 4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

add sft training with RL #1403

add sft training with RL #1403

hhaAndroid commented Dec 30, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Labels

2 participants

add sft training with RL #1403

add sft training with RL #1403

Conversation

hhaAndroid commented Dec 30, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Labels

2 participants

hhaAndroid commented Dec 30, 2025 •

edited

Loading