deit/engine.py

# Copyright (c) 2015-present, Facebook, Inc.
# All rights reserved.
"""
Train and eval functions used in main.py
"""
import math
import sys
from typing import Iterable, Optional

import torch

from timm.data import Mixup
from timm.utils import accuracy, ModelEma

from losses import DistillationLoss
import utils


def train_one_epoch(model: torch.nn.Module, criterion: DistillationLoss,
                    data_loader: Iterable, optimizer: torch.optim.Optimizer,
                    device: torch.device, epoch: int, loss_scaler, max_norm: float = 0,
                    model_ema: Optional[ModelEma] = None, mixup_fn: Optional[Mixup] = None,
                    set_training_mode=True, args = None):
    model.train(set_training_mode)
    metric_logger = utils.MetricLogger(delimiter="  ")
    metric_logger.add_meter('lr', utils.SmoothedValue(window_size=1, fmt='{value:.6f}'))
    header = 'Epoch: [{}]'.format(epoch)
    print_freq = 10
    
    if args.cosub:
        criterion = torch.nn.BCEWithLogitsLoss()
        
    for samples, targets in metric_logger.log_every(data_loader, print_freq, header):
        samples = samples.to(device, non_blocking=True)
        targets = targets.to(device, non_blocking=True)

        if mixup_fn is not None:
            samples, targets = mixup_fn(samples, targets)
            
        if args.cosub:
            samples = torch.cat((samples,samples),dim=0)
            
        if args.bce_loss:
            targets = targets.gt(0.0).type(targets.dtype)
         
        with torch.cuda.amp.autocast():
            outputs = model(samples)
            if not args.cosub:
                loss = criterion(samples, outputs, targets)
            else:
                outputs = torch.split(outputs, outputs.shape[0]//2, dim=0)
                loss = 0.25 * criterion(outputs[0], targets) 
                loss = loss + 0.25 * criterion(outputs[1], targets) 
                loss = loss + 0.25 * criterion(outputs[0], outputs[1].detach().sigmoid())
                loss = loss + 0.25 * criterion(outputs[1], outputs[0].detach().sigmoid()) 

        loss_value = loss.item()

        if not math.isfinite(loss_value):
            print("Loss is {}, stopping training".format(loss_value))
            sys.exit(1)

        optimizer.zero_grad()

        # this attribute is added by timm on one optimizer (adahessian)
        is_second_order = hasattr(optimizer, 'is_second_order') and optimizer.is_second_order
        loss_scaler(loss, optimizer, clip_grad=max_norm,
                    parameters=model.parameters(), create_graph=is_second_order)

        torch.cuda.synchronize()
        if model_ema is not None:
            model_ema.update(model)

        metric_logger.update(loss=loss_value)
        metric_logger.update(lr=optimizer.param_groups[0]["lr"])
    # gather the stats from all processes
    metric_logger.synchronize_between_processes()
    print("Averaged stats:", metric_logger)
    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}


@torch.no_grad()
def evaluate(data_loader, model, device):
    criterion = torch.nn.CrossEntropyLoss()

    metric_logger = utils.MetricLogger(delimiter="  ")
    header = 'Test:'

    # switch to evaluation mode
    model.eval()

    for images, target in metric_logger.log_every(data_loader, 10, header):
        images = images.to(device, non_blocking=True)
        target = target.to(device, non_blocking=True)

        # compute output
        with torch.cuda.amp.autocast():
            output = model(images)
            loss = criterion(output, target)

        acc1, acc5 = accuracy(output, target, topk=(1, 5))

        batch_size = images.shape[0]
        metric_logger.update(loss=loss.item())
        metric_logger.meters['acc1'].update(acc1.item(), n=batch_size)
        metric_logger.meters['acc5'].update(acc5.item(), n=batch_size)
    # gather the stats from all processes
    metric_logger.synchronize_between_processes()
    print('* Acc@1 {top1.global_avg:.3f} Acc@5 {top5.global_avg:.3f} loss {losses.global_avg:.3f}'
          .format(top1=metric_logger.acc1, top5=metric_logger.acc5, losses=metric_logger.loss))

    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}
Initial commit 2020-12-23 10:47:58 -08:00			`# Copyright (c) 2015-present, Facebook, Inc.`
			`# All rights reserved.`
			`"""`
			`Train and eval functions used in main.py`
			`"""`
			`import math`
			`import sys`
			`from typing import Iterable, Optional`

			`import torch`

			`from timm.data import Mixup`
			`from timm.utils import accuracy, ModelEma`

Add Knowledge-Distillation (#42) * Add knowledge distillation * Bugfix * Bugfix * Make names more readable and use single torch.cat call * Remove criterion.train() in engine The teacher should stay in eval mode * Change default argument for teacher-model * Return the average of classifiers during inference * Cleanup unused code * Add docstring for DistillationLoss * Remove warnings from newer PyTorch Also uses more stable variant, instead of using softmax + log, use directly log_softmax 2021-01-13 14:19:23 +01:00			`from losses import DistillationLoss`
Initial commit 2020-12-23 10:47:58 -08:00			`import utils`


Add Knowledge-Distillation (#42) * Add knowledge distillation * Bugfix * Bugfix * Make names more readable and use single torch.cat call * Remove criterion.train() in engine The teacher should stay in eval mode * Change default argument for teacher-model * Return the average of classifiers during inference * Cleanup unused code * Add docstring for DistillationLoss * Remove warnings from newer PyTorch Also uses more stable variant, instead of using softmax + log, use directly log_softmax 2021-01-13 14:19:23 +01:00			`def train_one_epoch(model: torch.nn.Module, criterion: DistillationLoss,`
Initial commit 2020-12-23 10:47:58 -08:00			`data_loader: Iterable, optimizer: torch.optim.Optimizer,`
			`device: torch.device, epoch: int, loss_scaler, max_norm: float = 0,`
Add option to finetune on larger resolution (#43) * Add option for finetuning a model * Fixes * Keep model in eval mode during finetuning * Only skip head weights if size mismatch * Remove finetune-epochs Might not be needed * Raise error if distillation + finetune are enabled 2021-01-15 10:13:52 +01:00			`model_ema: Optional[ModelEma] = None, mixup_fn: Optional[Mixup] = None,`
Add files via upload 2022-05-08 20:06:44 +02:00			`set_training_mode=True, args = None):`
Add option to finetune on larger resolution (#43) * Add option for finetuning a model * Fixes * Keep model in eval mode during finetuning * Only skip head weights if size mismatch * Remove finetune-epochs Might not be needed * Raise error if distillation + finetune are enabled 2021-01-15 10:13:52 +01:00			`model.train(set_training_mode)`
Initial commit 2020-12-23 10:47:58 -08:00			`metric_logger = utils.MetricLogger(delimiter=" ")`
			`metric_logger.add_meter('lr', utils.SmoothedValue(window_size=1, fmt='{value:.6f}'))`
			`header = 'Epoch: [{}]'.format(epoch)`
			`print_freq = 10`
add cosub 2023-05-22 11:23:40 +02:00
			`if args.cosub:`
			`criterion = torch.nn.BCEWithLogitsLoss()`

Initial commit 2020-12-23 10:47:58 -08:00			`for samples, targets in metric_logger.log_every(data_loader, print_freq, header):`
			`samples = samples.to(device, non_blocking=True)`
			`targets = targets.to(device, non_blocking=True)`

			`if mixup_fn is not None:`
			`samples, targets = mixup_fn(samples, targets)`
Add files via upload 2022-05-08 20:06:44 +02:00
add cosub 2023-05-22 11:23:40 +02:00			`if args.cosub:`
			`samples = torch.cat((samples,samples),dim=0)`

Add files via upload 2022-05-08 20:06:44 +02:00			`if args.bce_loss:`
			`targets = targets.gt(0.0).type(targets.dtype)`
add cosub 2023-05-22 11:23:40 +02:00
Initial commit 2020-12-23 10:47:58 -08:00			`with torch.cuda.amp.autocast():`
			`outputs = model(samples)`
add cosub 2023-05-22 11:23:40 +02:00			`if not args.cosub:`
			`loss = criterion(samples, outputs, targets)`
			`else:`
cosub bugfix 2023-08-11 19:28:19 +09:00			`outputs = torch.split(outputs, outputs.shape[0]//2, dim=0)`
add cosub 2023-05-22 11:23:40 +02:00			`loss = 0.25 * criterion(outputs[0], targets)`
			`loss = loss + 0.25 * criterion(outputs[1], targets)`
			`loss = loss + 0.25 * criterion(outputs[0], outputs[1].detach().sigmoid())`
			`loss = loss + 0.25 * criterion(outputs[1], outputs[0].detach().sigmoid())`
Initial commit 2020-12-23 10:47:58 -08:00
			`loss_value = loss.item()`

			`if not math.isfinite(loss_value):`
			`print("Loss is {}, stopping training".format(loss_value))`
			`sys.exit(1)`

			`optimizer.zero_grad()`

			`# this attribute is added by timm on one optimizer (adahessian)`
			`is_second_order = hasattr(optimizer, 'is_second_order') and optimizer.is_second_order`
			`loss_scaler(loss, optimizer, clip_grad=max_norm,`
			`parameters=model.parameters(), create_graph=is_second_order)`

			`torch.cuda.synchronize()`
			`if model_ema is not None:`
			`model_ema.update(model)`

			`metric_logger.update(loss=loss_value)`
			`metric_logger.update(lr=optimizer.param_groups[0]["lr"])`
			`# gather the stats from all processes`
			`metric_logger.synchronize_between_processes()`
			`print("Averaged stats:", metric_logger)`
			`return {k: meter.global_avg for k, meter in metric_logger.meters.items()}`


			`@torch.no_grad()`
			`def evaluate(data_loader, model, device):`
			`criterion = torch.nn.CrossEntropyLoss()`

			`metric_logger = utils.MetricLogger(delimiter=" ")`
			`header = 'Test:'`

			`# switch to evaluation mode`
			`model.eval()`

			`for images, target in metric_logger.log_every(data_loader, 10, header):`
			`images = images.to(device, non_blocking=True)`
			`target = target.to(device, non_blocking=True)`

			`# compute output`
			`with torch.cuda.amp.autocast():`
			`output = model(images)`
			`loss = criterion(output, target)`

			`acc1, acc5 = accuracy(output, target, topk=(1, 5))`

			`batch_size = images.shape[0]`
			`metric_logger.update(loss=loss.item())`
			`metric_logger.meters['acc1'].update(acc1.item(), n=batch_size)`
			`metric_logger.meters['acc5'].update(acc5.item(), n=batch_size)`
Support parallelized evaluation (#24) * support parallelized evaluation * remove shuffle arg of loader val, add sampler val in non-dist branch * replace timm eval sampler with torch sampler * add logger synchronizing to support parallelized evaluation * add command line argument dist-eval and warning 2021-01-08 18:05:39 +08:00			`# gather the stats from all processes`
			`metric_logger.synchronize_between_processes()`
Initial commit 2020-12-23 10:47:58 -08:00			`print('* Acc@1 {top1.global_avg:.3f} Acc@5 {top5.global_avg:.3f} loss {losses.global_avg:.3f}'`
			`.format(top1=metric_logger.acc1, top5=metric_logger.acc5, losses=metric_logger.loss))`

			`return {k: meter.global_avg for k, meter in metric_logger.meters.items()}`