mmsegmentation/mmseg/apis/train.py

# Copyright (c) OpenMMLab. All rights reserved.
import random
import warnings

import mmcv
import numpy as np
import torch
import torch.distributed as dist
from mmcv.parallel import MMDataParallel, MMDistributedDataParallel
from mmcv.runner import (HOOKS, DistSamplerSeedHook, EpochBasedRunner,
                         build_optimizer, build_runner, get_dist_info)
from mmcv.utils import build_from_cfg

from mmseg import digit_version
from mmseg.core import DistEvalHook, EvalHook
from mmseg.datasets import build_dataloader, build_dataset
from mmseg.utils import find_latest_checkpoint, get_root_logger


def init_random_seed(seed=None, device='cuda'):
    """Initialize random seed.

    If the seed is not set, the seed will be automatically randomized,
    and then broadcast to all processes to prevent some potential bugs.
    Args:
        seed (int, Optional): The seed. Default to None.
        device (str): The device where the seed will be put on.
            Default to 'cuda'.
    Returns:
        int: Seed to be used.
    """
    if seed is not None:
        return seed

    # Make sure all ranks share the same random seed to prevent
    # some potential bugs. Please refer to
    # https://github.com/open-mmlab/mmdetection/issues/6339
    rank, world_size = get_dist_info()
    seed = np.random.randint(2**31)
    if world_size == 1:
        return seed

    if rank == 0:
        random_num = torch.tensor(seed, dtype=torch.int32, device=device)
    else:
        random_num = torch.tensor(0, dtype=torch.int32, device=device)
    dist.broadcast(random_num, src=0)
    return random_num.item()


def set_random_seed(seed, deterministic=False):
    """Set random seed.

    Args:
        seed (int): Seed to be used.
        deterministic (bool): Whether to set the deterministic option for
            CUDNN backend, i.e., set `torch.backends.cudnn.deterministic`
            to True and `torch.backends.cudnn.benchmark` to False.
            Default: False.
    """
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    if deterministic:
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False


def train_segmentor(model,
                    dataset,
                    cfg,
                    distributed=False,
                    validate=False,
                    timestamp=None,
                    meta=None):
    """Launch segmentor training."""
    logger = get_root_logger(cfg.log_level)

    # prepare data loaders
    dataset = dataset if isinstance(dataset, (list, tuple)) else [dataset]
    # The default loader config
    loader_cfg = dict(
        # cfg.gpus will be ignored if distributed
        num_gpus=len(cfg.gpu_ids),
        dist=distributed,
        seed=cfg.seed,
        drop_last=True)
    # The overall dataloader settings
    loader_cfg.update({
        k: v
        for k, v in cfg.data.items() if k not in [
            'train', 'val', 'test', 'train_dataloader', 'val_dataloader',
            'test_dataloader'
        ]
    })

    # The specific dataloader settings
    train_loader_cfg = {**loader_cfg, **cfg.data.get('train_dataloader', {})}
    data_loaders = [build_dataloader(ds, **train_loader_cfg) for ds in dataset]

    # put model on gpus
    if distributed:
        find_unused_parameters = cfg.get('find_unused_parameters', False)
        # Sets the `find_unused_parameters` parameter in
        # torch.nn.parallel.DistributedDataParallel
        model = MMDistributedDataParallel(
            model.cuda(),
            device_ids=[torch.cuda.current_device()],
            broadcast_buffers=False,
            find_unused_parameters=find_unused_parameters)
    else:
        if not torch.cuda.is_available():
            assert digit_version(mmcv.__version__) >= digit_version('1.4.4'), \
                'Please use MMCV >= 1.4.4 for CPU training!'
        model = MMDataParallel(model, device_ids=cfg.gpu_ids)
    # build runner
    optimizer = build_optimizer(model, cfg.optimizer)

    if cfg.get('runner') is None:
        cfg.runner = {'type': 'IterBasedRunner', 'max_iters': cfg.total_iters}
        warnings.warn(
            'config is now expected to have a `runner` section, '
            'please set `runner` in your config.', UserWarning)

    runner = build_runner(
        cfg.runner,
        default_args=dict(
            model=model,
            batch_processor=None,
            optimizer=optimizer,
            work_dir=cfg.work_dir,
            logger=logger,
            meta=meta))

    # register hooks
    runner.register_training_hooks(cfg.lr_config, cfg.optimizer_config,
                                   cfg.checkpoint_config, cfg.log_config,
                                   cfg.get('momentum_config', None))
    if distributed:
        # when distributed training by epoch, using`DistSamplerSeedHook` to set
        # the different seed to distributed sampler for each epoch, it will
        # shuffle dataset at each epoch and avoid overfitting.
        if isinstance(runner, EpochBasedRunner):
            runner.register_hook(DistSamplerSeedHook())

    # an ugly walkaround to make the .log and .log.json filenames the same
    runner.timestamp = timestamp

    # register eval hooks
    if validate:
        val_dataset = build_dataset(cfg.data.val, dict(test_mode=True))
        # The specific dataloader settings
        val_loader_cfg = {
            **loader_cfg,
            'samples_per_gpu': 1,
            'shuffle': False,  # Not shuffle by default
            **cfg.data.get('val_dataloader', {}),
        }
        val_dataloader = build_dataloader(val_dataset, **val_loader_cfg)
        eval_cfg = cfg.get('evaluation', {})
        eval_cfg['by_epoch'] = cfg.runner['type'] != 'IterBasedRunner'
        eval_hook = DistEvalHook if distributed else EvalHook
        # In this PR (https://github.com/open-mmlab/mmcv/pull/1193), the
        # priority of IterTimerHook has been modified from 'NORMAL' to 'LOW'.
        runner.register_hook(
            eval_hook(val_dataloader, **eval_cfg), priority='LOW')

    # user-defined hooks
    if cfg.get('custom_hooks', None):
        custom_hooks = cfg.custom_hooks
        assert isinstance(custom_hooks, list), \
            f'custom_hooks expect list type, but got {type(custom_hooks)}'
        for hook_cfg in cfg.custom_hooks:
            assert isinstance(hook_cfg, dict), \
                'Each item in custom_hooks expects dict type, but got ' \
                f'{type(hook_cfg)}'
            hook_cfg = hook_cfg.copy()
            priority = hook_cfg.pop('priority', 'NORMAL')
            hook = build_from_cfg(hook_cfg, HOOKS)
            runner.register_hook(hook, priority=priority)

    if cfg.resume_from is None and cfg.get('auto_resume'):
        resume_from = find_latest_checkpoint(cfg.work_dir)
        if resume_from is not None:
            cfg.resume_from = resume_from
    if cfg.resume_from:
        runner.resume(cfg.resume_from)
    elif cfg.load_from:
        runner.load_checkpoint(cfg.load_from)
    runner.run(data_loaders, cfg.workflow)
[Dcos] Add header for files (#796) * Add header for files * Delete header in config files 2021-08-17 14:16:55 +08:00			`# Copyright (c) OpenMMLab. All rights reserved.`
init commit 2020-07-07 20:52:19 +08:00			`import random`
Add runner type (#118) * Add runner_type option * pre-commit * Fix max_iters * Add by_epoch to EvalHook * Add test_eval_hook for epoch runner * Remove runner-type arg from tools/train * Add missing every_n_iters check for epoch mode * Bump mmcv min version * Use build_runner * Use interval in tests * Update test_eval_hook.py * Use every_n_epochs instead of every_n_iters. Update DistEvalHook * Add test_dist_eval_hook_epoch * Fix tests * Add DeprecationWarning * Update docs * Replace DeprecationWarning with UserWarning 2020-10-26 06:18:46 +08:00			`import warnings`
init commit 2020-07-07 20:52:19 +08:00
[Enhance] New-style CPU training and inference. (#1251) * [Enhance] New-style CPU training and inference. * assert mmcv version * SyncBN to BN in training and testing * SyncBN to BN in training and testing * upload untracked files to this branch * delete gpu_ids * fix bugs * assert args.gpu_id in train.py * use cfg.gpu_ids = [args.gpu_id] * use cfg.gpu_ids = [args.gpu_id] * fix typo * fix typo * fix typos 2022-01-28 23:03:01 +08:00			`import mmcv`
init commit 2020-07-07 20:52:19 +08:00			`import numpy as np`
			`import torch`
[Enchance] Set a random seed when the user does not set a seed. (#1039) 2021-11-26 10:55:15 +08:00			`import torch.distributed as dist`
init commit 2020-07-07 20:52:19 +08:00			`from mmcv.parallel import MMDataParallel, MMDistributedDataParallel`
Add DistSamplerSeedHook for when runner is EpochBasedRunner (#1449) * Add DistSamplerSeedHook for when runner is EpochBasedRunner * add comment 2022-04-06 22:04:11 +08:00			`from mmcv.runner import (HOOKS, DistSamplerSeedHook, EpochBasedRunner,`
			`build_optimizer, build_runner, get_dist_info)`
Update train.py (#428) * Update train.py Add user-defined hooks. * Update train.py * Update train.py 2021-10-30 03:13:40 +08:00			`from mmcv.utils import build_from_cfg`
init commit 2020-07-07 20:52:19 +08:00
[Enhance] New-style CPU training and inference. (#1251) * [Enhance] New-style CPU training and inference. * assert mmcv version * SyncBN to BN in training and testing * SyncBN to BN in training and testing * upload untracked files to this branch * delete gpu_ids * fix bugs * assert args.gpu_id in train.py * use cfg.gpu_ids = [args.gpu_id] * use cfg.gpu_ids = [args.gpu_id] * fix typo * fix typo * fix typos 2022-01-28 23:03:01 +08:00			`from mmseg import digit_version`
init commit 2020-07-07 20:52:19 +08:00			`from mmseg.core import DistEvalHook, EvalHook`
			`from mmseg.datasets import build_dataloader, build_dataset`
[Feature] add auto resume (#1172) * [Feature] add auto resume * Update mmseg/utils/find_latest_checkpoint.py Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> * Update mmseg/utils/find_latest_checkpoint.py Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> * modify docstring * Update mmseg/utils/find_latest_checkpoint.py Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> * add copyright Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> 2022-01-11 12:27:24 +08:00			`from mmseg.utils import find_latest_checkpoint, get_root_logger`
init commit 2020-07-07 20:52:19 +08:00

[Enchance] Set a random seed when the user does not set a seed. (#1039) 2021-11-26 10:55:15 +08:00			`def init_random_seed(seed=None, device='cuda'):`
			`"""Initialize random seed.`

			`If the seed is not set, the seed will be automatically randomized,`
			`and then broadcast to all processes to prevent some potential bugs.`
			`Args:`
			`seed (int, Optional): The seed. Default to None.`
			`device (str): The device where the seed will be put on.`
			`Default to 'cuda'.`
			`Returns:`
			`int: Seed to be used.`
			`"""`
			`if seed is not None:`
			`return seed`

			`# Make sure all ranks share the same random seed to prevent`
			`# some potential bugs. Please refer to`
			`# https://github.com/open-mmlab/mmdetection/issues/6339`
			`rank, world_size = get_dist_info()`
			`seed = np.random.randint(2**31)`
			`if world_size == 1:`
			`return seed`

			`if rank == 0:`
			`random_num = torch.tensor(seed, dtype=torch.int32, device=device)`
			`else:`
			`random_num = torch.tensor(0, dtype=torch.int32, device=device)`
			`dist.broadcast(random_num, src=0)`
			`return random_num.item()`


init commit 2020-07-07 20:52:19 +08:00			`def set_random_seed(seed, deterministic=False):`
			`"""Set random seed.`

			`Args:`
			`seed (int): Seed to be used.`
			`deterministic (bool): Whether to set the deterministic option for`
			CUDNN backend, i.e., set `torch.backends.cudnn.deterministic`
			to True and `torch.backends.cudnn.benchmark` to False.
			`Default: False.`
			`"""`
			`random.seed(seed)`
			`np.random.seed(seed)`
			`torch.manual_seed(seed)`
			`torch.cuda.manual_seed_all(seed)`
			`if deterministic:`
			`torch.backends.cudnn.deterministic = True`
			`torch.backends.cudnn.benchmark = False`


			`def train_segmentor(model,`
			`dataset,`
			`cfg,`
			`distributed=False,`
			`validate=False,`
			`timestamp=None,`
			`meta=None):`
			`"""Launch segmentor training."""`
			`logger = get_root_logger(cfg.log_level)`

			`# prepare data loaders`
			`dataset = dataset if isinstance(dataset, (list, tuple)) else [dataset]`
[Enhance] Add extra dataloader settings in configs (#1435) * [Enhance] Add extra dataloader settings in configs * val default samples * val default samples * del unuse * del unused 2022-04-13 13:30:10 +08:00			`# The default loader config`
			`loader_cfg = dict(`
			`# cfg.gpus will be ignored if distributed`
			`num_gpus=len(cfg.gpu_ids),`
			`dist=distributed,`
			`seed=cfg.seed,`
			`drop_last=True)`
			`# The overall dataloader settings`
			`loader_cfg.update({`
			`k: v`
			`for k, v in cfg.data.items() if k not in [`
			`'train', 'val', 'test', 'train_dataloader', 'val_dataloader',`
			`'test_dataloader'`
			`]`
			`})`

			`# The specific dataloader settings`
			`train_loader_cfg = {loader_cfg, cfg.data.get('train_dataloader', {})}`
			`data_loaders = [build_dataloader(ds, **train_loader_cfg) for ds in dataset]`
init commit 2020-07-07 20:52:19 +08:00
			`# put model on gpus`
			`if distributed:`
			`find_unused_parameters = cfg.get('find_unused_parameters', False)`
			# Sets the `find_unused_parameters` parameter in
			`# torch.nn.parallel.DistributedDataParallel`
			`model = MMDistributedDataParallel(`
			`model.cuda(),`
			`device_ids=[torch.cuda.current_device()],`
			`broadcast_buffers=False,`
			`find_unused_parameters=find_unused_parameters)`
			`else:`
[Enhance] New-style CPU training and inference. (#1251) * [Enhance] New-style CPU training and inference. * assert mmcv version * SyncBN to BN in training and testing * SyncBN to BN in training and testing * upload untracked files to this branch * delete gpu_ids * fix bugs * assert args.gpu_id in train.py * use cfg.gpu_ids = [args.gpu_id] * use cfg.gpu_ids = [args.gpu_id] * fix typo * fix typo * fix typos 2022-01-28 23:03:01 +08:00			`if not torch.cuda.is_available():`
			`assert digit_version(mmcv.__version__) >= digit_version('1.4.4'), \`
			`'Please use MMCV >= 1.4.4 for CPU training!'`
			`model = MMDataParallel(model, device_ids=cfg.gpu_ids)`
init commit 2020-07-07 20:52:19 +08:00			`# build runner`
			`optimizer = build_optimizer(model, cfg.optimizer)`

Add runner type (#118) * Add runner_type option * pre-commit * Fix max_iters * Add by_epoch to EvalHook * Add test_eval_hook for epoch runner * Remove runner-type arg from tools/train * Add missing every_n_iters check for epoch mode * Bump mmcv min version * Use build_runner * Use interval in tests * Update test_eval_hook.py * Use every_n_epochs instead of every_n_iters. Update DistEvalHook * Add test_dist_eval_hook_epoch * Fix tests * Add DeprecationWarning * Update docs * Replace DeprecationWarning with UserWarning 2020-10-26 06:18:46 +08:00			`if cfg.get('runner') is None:`
			`cfg.runner = {'type': 'IterBasedRunner', 'max_iters': cfg.total_iters}`
			`warnings.warn(`
			'config is now expected to have a `runner` section, '
			'please set `runner` in your config.', UserWarning)

			`runner = build_runner(`
			`cfg.runner,`
			`default_args=dict(`
			`model=model,`
			`batch_processor=None,`
			`optimizer=optimizer,`
			`work_dir=cfg.work_dir,`
			`logger=logger,`
			`meta=meta))`
init commit 2020-07-07 20:52:19 +08:00
			`# register hooks`
			`runner.register_training_hooks(cfg.lr_config, cfg.optimizer_config,`
			`cfg.checkpoint_config, cfg.log_config,`
			`cfg.get('momentum_config', None))`
Add DistSamplerSeedHook for when runner is EpochBasedRunner (#1449) * Add DistSamplerSeedHook for when runner is EpochBasedRunner * add comment 2022-04-06 22:04:11 +08:00			`if distributed:`
			# when distributed training by epoch, using`DistSamplerSeedHook` to set
			`# the different seed to distributed sampler for each epoch, it will`
			`# shuffle dataset at each epoch and avoid overfitting.`
			`if isinstance(runner, EpochBasedRunner):`
			`runner.register_hook(DistSamplerSeedHook())`
init commit 2020-07-07 20:52:19 +08:00
			`# an ugly walkaround to make the .log and .log.json filenames the same`
			`runner.timestamp = timestamp`

			`# register eval hooks`
			`if validate:`
			`val_dataset = build_dataset(cfg.data.val, dict(test_mode=True))`
[Enhance] Add extra dataloader settings in configs (#1435) * [Enhance] Add extra dataloader settings in configs * val default samples * val default samples * del unuse * del unused 2022-04-13 13:30:10 +08:00			`# The specific dataloader settings`
			`val_loader_cfg = {`
			`**loader_cfg,`
			`'samples_per_gpu': 1,`
			`'shuffle': False, # Not shuffle by default`
			`**cfg.data.get('val_dataloader', {}),`
			`}`
			`val_dataloader = build_dataloader(val_dataset, **val_loader_cfg)`
init commit 2020-07-07 20:52:19 +08:00			`eval_cfg = cfg.get('evaluation', {})`
Add runner type (#118) * Add runner_type option * pre-commit * Fix max_iters * Add by_epoch to EvalHook * Add test_eval_hook for epoch runner * Remove runner-type arg from tools/train * Add missing every_n_iters check for epoch mode * Bump mmcv min version * Use build_runner * Use interval in tests * Update test_eval_hook.py * Use every_n_epochs instead of every_n_iters. Update DistEvalHook * Add test_dist_eval_hook_epoch * Fix tests * Add DeprecationWarning * Update docs * Replace DeprecationWarning with UserWarning 2020-10-26 06:18:46 +08:00			`eval_cfg['by_epoch'] = cfg.runner['type'] != 'IterBasedRunner'`
init commit 2020-07-07 20:52:19 +08:00			`eval_hook = DistEvalHook if distributed else EvalHook`
[Fix] Fix the log error (#766) * set the priority of EvalHook to LOW * add comment for priority change * fix comment 2021-08-10 08:20:02 +08:00			`# In this PR (https://github.com/open-mmlab/mmcv/pull/1193), the`
			`# priority of IterTimerHook has been modified from 'NORMAL' to 'LOW'.`
			`runner.register_hook(`
			`eval_hook(val_dataloader, **eval_cfg), priority='LOW')`
init commit 2020-07-07 20:52:19 +08:00
Update train.py (#428) * Update train.py Add user-defined hooks. * Update train.py * Update train.py 2021-10-30 03:13:40 +08:00			`# user-defined hooks`
			`if cfg.get('custom_hooks', None):`
			`custom_hooks = cfg.custom_hooks`
			`assert isinstance(custom_hooks, list), \`
			`f'custom_hooks expect list type, but got {type(custom_hooks)}'`
			`for hook_cfg in cfg.custom_hooks:`
			`assert isinstance(hook_cfg, dict), \`
			`'Each item in custom_hooks expects dict type, but got ' \`
			`f'{type(hook_cfg)}'`
			`hook_cfg = hook_cfg.copy()`
			`priority = hook_cfg.pop('priority', 'NORMAL')`
			`hook = build_from_cfg(hook_cfg, HOOKS)`
			`runner.register_hook(hook, priority=priority)`

[Feature] add auto resume (#1172) * [Feature] add auto resume * Update mmseg/utils/find_latest_checkpoint.py Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> * Update mmseg/utils/find_latest_checkpoint.py Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> * modify docstring * Update mmseg/utils/find_latest_checkpoint.py Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> * add copyright Co-authored-by: Miao Zheng <76149310+MeowZheng@users.noreply.github.com> 2022-01-11 12:27:24 +08:00			`if cfg.resume_from is None and cfg.get('auto_resume'):`
			`resume_from = find_latest_checkpoint(cfg.work_dir)`
			`if resume_from is not None:`
			`cfg.resume_from = resume_from`
init commit 2020-07-07 20:52:19 +08:00			`if cfg.resume_from:`
			`runner.resume(cfg.resume_from)`
			`elif cfg.load_from:`
			`runner.load_checkpoint(cfg.load_from)`
Add runner type (#118) * Add runner_type option * pre-commit * Fix max_iters * Add by_epoch to EvalHook * Add test_eval_hook for epoch runner * Remove runner-type arg from tools/train * Add missing every_n_iters check for epoch mode * Bump mmcv min version * Use build_runner * Use interval in tests * Update test_eval_hook.py * Use every_n_epochs instead of every_n_iters. Update DistEvalHook * Add test_dist_eval_hook_epoch * Fix tests * Add DeprecationWarning * Update docs * Replace DeprecationWarning with UserWarning 2020-10-26 06:18:46 +08:00			`runner.run(data_loaders, cfg.workflow)`