mmpretrain/mmcls/apis/train.py

# Copyright (c) OpenMMLab. All rights reserved.
import random
import warnings

import numpy as np
import torch
from mmcv.parallel import MMDataParallel, MMDistributedDataParallel
from mmcv.runner import DistSamplerSeedHook, build_optimizer, build_runner

from mmcls.core import DistOptimizerHook
from mmcls.datasets import build_dataloader, build_dataset
from mmcls.utils import get_root_logger

# TODO import eval hooks from mmcv and delete them from mmcls
try:
    from mmcv.runner.hooks import EvalHook, DistEvalHook
except ImportError:
    warnings.warn('DeprecationWarning: EvalHook and DistEvalHook from mmcls '
                  'will be deprecated.'
                  'Please install mmcv through master branch.')
    from mmcls.core import EvalHook, DistEvalHook

# TODO import optimizer hook from mmcv and delete them from mmcls
try:
    from mmcv.runner import Fp16OptimizerHook
except ImportError:
    warnings.warn('DeprecationWarning: FP16OptimizerHook from mmcls will be '
                  'deprecated. Please install mmcv>=1.1.4.')
    from mmcls.core import Fp16OptimizerHook


def set_random_seed(seed, deterministic=False):
    """Set random seed.

    Args:
        seed (int): Seed to be used.
        deterministic (bool): Whether to set the deterministic option for
            CUDNN backend, i.e., set `torch.backends.cudnn.deterministic`
            to True and `torch.backends.cudnn.benchmark` to False.
            Default: False.
    """
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    if deterministic:
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False


def train_model(model,
                dataset,
                cfg,
                distributed=False,
                validate=False,
                timestamp=None,
                device='cuda',
                meta=None):
    logger = get_root_logger(cfg.log_level)

    # prepare data loaders
    dataset = dataset if isinstance(dataset, (list, tuple)) else [dataset]

    data_loaders = [
        build_dataloader(
            ds,
            cfg.data.samples_per_gpu,
            cfg.data.workers_per_gpu,
            # cfg.gpus will be ignored if distributed
            num_gpus=len(cfg.gpu_ids),
            dist=distributed,
            round_up=True,
            seed=cfg.seed) for ds in dataset
    ]

    # put model on gpus
    if distributed:
        find_unused_parameters = cfg.get('find_unused_parameters', False)
        # Sets the `find_unused_parameters` parameter in
        # torch.nn.parallel.DistributedDataParallel
        model = MMDistributedDataParallel(
            model.cuda(),
            device_ids=[torch.cuda.current_device()],
            broadcast_buffers=False,
            find_unused_parameters=find_unused_parameters)
    else:
        if device == 'cuda':
            model = MMDataParallel(
                model.cuda(cfg.gpu_ids[0]), device_ids=cfg.gpu_ids)
        elif device == 'cpu':
            model = model.cpu()
        else:
            raise ValueError(F'unsupported device name {device}.')

    # build runner
    optimizer = build_optimizer(model, cfg.optimizer)

    if cfg.get('runner') is None:
        cfg.runner = {
            'type': 'EpochBasedRunner',
            'max_epochs': cfg.total_epochs
        }
        warnings.warn(
            'config is now expected to have a `runner` section, '
            'please set `runner` in your config.', UserWarning)

    runner = build_runner(
        cfg.runner,
        default_args=dict(
            model=model,
            batch_processor=None,
            optimizer=optimizer,
            work_dir=cfg.work_dir,
            logger=logger,
            meta=meta))

    # an ugly walkaround to make the .log and .log.json filenames the same
    runner.timestamp = timestamp

    # fp16 setting
    fp16_cfg = cfg.get('fp16', None)
    if fp16_cfg is not None:
        optimizer_config = Fp16OptimizerHook(
            **cfg.optimizer_config, **fp16_cfg, distributed=distributed)
    elif distributed and 'type' not in cfg.optimizer_config:
        optimizer_config = DistOptimizerHook(**cfg.optimizer_config)
    else:
        optimizer_config = cfg.optimizer_config

    # register hooks
    runner.register_training_hooks(
        cfg.lr_config,
        optimizer_config,
        cfg.checkpoint_config,
        cfg.log_config,
        cfg.get('momentum_config', None),
        custom_hooks_config=cfg.get('custom_hooks', None))
    if distributed:
        runner.register_hook(DistSamplerSeedHook())

    # register eval hooks
    if validate:
        val_dataset = build_dataset(cfg.data.val, dict(test_mode=True))
        val_dataloader = build_dataloader(
            val_dataset,
            samples_per_gpu=cfg.data.samples_per_gpu,
            workers_per_gpu=cfg.data.workers_per_gpu,
            dist=distributed,
            shuffle=False,
            round_up=True)
        eval_cfg = cfg.get('evaluation', {})
        eval_cfg['by_epoch'] = cfg.runner['type'] != 'IterBasedRunner'
        eval_hook = DistEvalHook if distributed else EvalHook
        runner.register_hook(eval_hook(val_dataloader, **eval_cfg))

    if cfg.resume_from:
        runner.resume(cfg.resume_from)
    elif cfg.load_from:
        runner.load_checkpoint(cfg.load_from)
    runner.run(data_loaders, cfg.workflow)
[Docs] Add Copyright information. (#413) 2021-08-17 19:52:42 +08:00			`# Copyright (c) OpenMMLab. All rights reserved.`
init commit 2020-05-21 21:21:43 +08:00			`import random`
Use build_runner (#54) * Use build_runner in train api * Support iter in eval_hook * Add runner section * Add test_eval_hook * Pin mmcv version in install docs * Replace max_iters with max_epochs * Set by_epoch=True as default * Remove trailing space * Replace DeprecationWarning with UserWarning * pre-commit * Fix tests 2020-10-15 21:12:50 +08:00			`import warnings`
init commit 2020-05-21 21:21:43 +08:00
			`import numpy as np`
			`import torch`
			`from mmcv.parallel import MMDataParallel, MMDistributedDataParallel`
Use build_runner (#54) * Use build_runner in train api * Support iter in eval_hook * Add runner section * Add test_eval_hook * Pin mmcv version in install docs * Replace max_iters with max_epochs * Set by_epoch=True as default * Remove trailing space * Replace DeprecationWarning with UserWarning * pre-commit * Fix tests 2020-10-15 21:12:50 +08:00			`from mmcv.runner import DistSamplerSeedHook, build_optimizer, build_runner`
init commit 2020-05-21 21:21:43 +08:00
[Fix] Use MMCV's EvalHook in MMClassification (#182) * use eval_hook in mmcv * minor fix 2021-03-25 17:38:51 +08:00			`from mmcls.core import DistOptimizerHook`
init commit 2020-05-21 21:21:43 +08:00			`from mmcls.datasets import build_dataloader, build_dataset`
			`from mmcls.utils import get_root_logger`

[Fix] Use MMCV's EvalHook in MMClassification (#182) * use eval_hook in mmcv * minor fix 2021-03-25 17:38:51 +08:00			`# TODO import eval hooks from mmcv and delete them from mmcls`
			`try:`
			`from mmcv.runner.hooks import EvalHook, DistEvalHook`
			`except ImportError:`
			`warnings.warn('DeprecationWarning: EvalHook and DistEvalHook from mmcls '`
			`'will be deprecated.'`
			`'Please install mmcv through master branch.')`
			`from mmcls.core import EvalHook, DistEvalHook`

[Feature] Support fp16 training (#178) * change mmcls fp16 to mmcv hook * support fp16 * clean unnessary stuff 2021-03-17 15:53:55 +08:00			`# TODO import optimizer hook from mmcv and delete them from mmcls`
			`try:`
			`from mmcv.runner import Fp16OptimizerHook`
			`except ImportError:`
[Fix] Use MMCV's EvalHook in MMClassification (#182) * use eval_hook in mmcv * minor fix 2021-03-25 17:38:51 +08:00			`warnings.warn('DeprecationWarning: FP16OptimizerHook from mmcls will be '`
			`'deprecated. Please install mmcv>=1.1.4.')`
[Feature] Support fp16 training (#178) * change mmcls fp16 to mmcv hook * support fp16 * clean unnessary stuff 2021-03-17 15:53:55 +08:00			`from mmcls.core import Fp16OptimizerHook`

init commit 2020-05-21 21:21:43 +08:00
			`def set_random_seed(seed, deterministic=False):`
			`"""Set random seed.`
Add classifiers, heads, necks and losses 2020-07-07 19:32:06 +08:00
init commit 2020-05-21 21:21:43 +08:00			`Args:`
			`seed (int): Seed to be used.`
			`deterministic (bool): Whether to set the deterministic option for`
			CUDNN backend, i.e., set `torch.backends.cudnn.deterministic`
			to True and `torch.backends.cudnn.benchmark` to False.
			`Default: False.`
			`"""`
			`random.seed(seed)`
			`np.random.seed(seed)`
			`torch.manual_seed(seed)`
			`torch.cuda.manual_seed_all(seed)`
			`if deterministic:`
			`torch.backends.cudnn.deterministic = True`
			`torch.backends.cudnn.benchmark = False`


			`def train_model(model,`
			`dataset,`
			`cfg,`
			`distributed=False,`
			`validate=False,`
			`timestamp=None,`
Support training on CPU (#219) * draft * add parameter for training tools * Update .pre-commit-config.yaml 2021-04-26 13:56:45 +08:00			`device='cuda',`
init commit 2020-05-21 21:21:43 +08:00			`meta=None):`
			`logger = get_root_logger(cfg.log_level)`

			`# prepare data loaders`
			`dataset = dataset if isinstance(dataset, (list, tuple)) else [dataset]`

			`data_loaders = [`
			`build_dataloader(`
			`ds,`
			`cfg.data.samples_per_gpu,`
			`cfg.data.workers_per_gpu,`
			`# cfg.gpus will be ignored if distributed`
Add classifiers, heads, necks and losses 2020-07-07 19:32:06 +08:00			`num_gpus=len(cfg.gpu_ids),`
init commit 2020-05-21 21:21:43 +08:00			`dist=distributed,`
Add classifiers, heads, necks and losses 2020-07-07 19:32:06 +08:00			`round_up=True,`
init commit 2020-05-21 21:21:43 +08:00			`seed=cfg.seed) for ds in dataset`
			`]`

			`# put model on gpus`
			`if distributed:`
			`find_unused_parameters = cfg.get('find_unused_parameters', False)`
			# Sets the `find_unused_parameters` parameter in
			`# torch.nn.parallel.DistributedDataParallel`
			`model = MMDistributedDataParallel(`
			`model.cuda(),`
			`device_ids=[torch.cuda.current_device()],`
			`broadcast_buffers=False,`
			`find_unused_parameters=find_unused_parameters)`
			`else:`
Support training on CPU (#219) * draft * add parameter for training tools * Update .pre-commit-config.yaml 2021-04-26 13:56:45 +08:00			`if device == 'cuda':`
			`model = MMDataParallel(`
			`model.cuda(cfg.gpu_ids[0]), device_ids=cfg.gpu_ids)`
			`elif device == 'cpu':`
Fix bug for CPU training (#286) * remove MMDataParallel when using cpu * support cpu testing * fix lint 2021-06-12 22:26:33 +08:00			`model = model.cpu()`
Support training on CPU (#219) * draft * add parameter for training tools * Update .pre-commit-config.yaml 2021-04-26 13:56:45 +08:00			`else:`
			`raise ValueError(F'unsupported device name {device}.')`
init commit 2020-05-21 21:21:43 +08:00
			`# build runner`
			`optimizer = build_optimizer(model, cfg.optimizer)`
Use build_runner (#54) * Use build_runner in train api * Support iter in eval_hook * Add runner section * Add test_eval_hook * Pin mmcv version in install docs * Replace max_iters with max_epochs * Set by_epoch=True as default * Remove trailing space * Replace DeprecationWarning with UserWarning * pre-commit * Fix tests 2020-10-15 21:12:50 +08:00
			`if cfg.get('runner') is None:`
			`cfg.runner = {`
			`'type': 'EpochBasedRunner',`
			`'max_epochs': cfg.total_epochs`
			`}`
			`warnings.warn(`
			'config is now expected to have a `runner` section, '
			'please set `runner` in your config.', UserWarning)

			`runner = build_runner(`
			`cfg.runner,`
			`default_args=dict(`
			`model=model,`
			`batch_processor=None,`
			`optimizer=optimizer,`
			`work_dir=cfg.work_dir,`
			`logger=logger,`
			`meta=meta))`

init commit 2020-05-21 21:21:43 +08:00			`# an ugly walkaround to make the .log and .log.json filenames the same`
			`runner.timestamp = timestamp`

			`# fp16 setting`
			`fp16_cfg = cfg.get('fp16', None)`
			`if fp16_cfg is not None:`
			`optimizer_config = Fp16OptimizerHook(`
			`cfg.optimizer_config, fp16_cfg, distributed=distributed)`
			`elif distributed and 'type' not in cfg.optimizer_config:`
			`optimizer_config = DistOptimizerHook(**cfg.optimizer_config)`
			`else:`
			`optimizer_config = cfg.optimizer_config`

			`# register hooks`
[Feature]Support custom hooks (#305) * add mytrain.py for test * test before layers * test attr in layers * test classifier * delete mytrain.py * register custom_hooks in runner * set custom_hooks_config to cfg.get(custom_hooks, None) 2021-06-15 21:09:58 +08:00			`runner.register_training_hooks(`
			`cfg.lr_config,`
			`optimizer_config,`
			`cfg.checkpoint_config,`
			`cfg.log_config,`
			`cfg.get('momentum_config', None),`
			`custom_hooks_config=cfg.get('custom_hooks', None))`
init commit 2020-05-21 21:21:43 +08:00			`if distributed:`
			`runner.register_hook(DistSamplerSeedHook())`

			`# register eval hooks`
			`if validate:`
			`val_dataset = build_dataset(cfg.data.val, dict(test_mode=True))`
			`val_dataloader = build_dataloader(`
			`val_dataset,`
Add classifiers, heads, necks and losses 2020-07-07 19:32:06 +08:00			`samples_per_gpu=cfg.data.samples_per_gpu,`
init commit 2020-05-21 21:21:43 +08:00			`workers_per_gpu=cfg.data.workers_per_gpu,`
			`dist=distributed,`
Add classifiers, heads, necks and losses 2020-07-07 19:32:06 +08:00			`shuffle=False,`
Fix slurm evaluation error during training (#69) * visualize results on image demo * set round_up to True during test 2020-10-20 15:04:39 +08:00			`round_up=True)`
init commit 2020-05-21 21:21:43 +08:00			`eval_cfg = cfg.get('evaluation', {})`
Use build_runner (#54) * Use build_runner in train api * Support iter in eval_hook * Add runner section * Add test_eval_hook * Pin mmcv version in install docs * Replace max_iters with max_epochs * Set by_epoch=True as default * Remove trailing space * Replace DeprecationWarning with UserWarning * pre-commit * Fix tests 2020-10-15 21:12:50 +08:00			`eval_cfg['by_epoch'] = cfg.runner['type'] != 'IterBasedRunner'`
init commit 2020-05-21 21:21:43 +08:00			`eval_hook = DistEvalHook if distributed else EvalHook`
			`runner.register_hook(eval_hook(val_dataloader, **eval_cfg))`

			`if cfg.resume_from:`
			`runner.resume(cfg.resume_from)`
			`elif cfg.load_from:`
			`runner.load_checkpoint(cfg.load_from)`
Use build_runner (#54) * Use build_runner in train api * Support iter in eval_hook * Add runner section * Add test_eval_hook * Pin mmcv version in install docs * Replace max_iters with max_epochs * Set by_epoch=True as default * Remove trailing space * Replace DeprecationWarning with UserWarning * pre-commit * Fix tests 2020-10-15 21:12:50 +08:00			`runner.run(data_loaders, cfg.workflow)`