clip gradients with update

2025-06-03 15:01:08 +08:00 · 2023-04-19 23:36:20 -07:00 · 2023-04-19 23:36:20 -07:00 · 4cd7fb88b2
commit 4cd7fb88b2
parent df81d8d85b
2 changed files with 12 additions and 12 deletions
--- a/timm/utils/cuda.py
+++ b/timm/utils/cuda.py
@ -29,9 +29,9 @@ class ApexScaler:
    ):
        with amp.scale_loss(loss, optimizer) as scaled_loss:
            scaled_loss.backward(create_graph=create_graph)
-        if clip_grad is not None:
-            dispatch_clip_grad(amp.master_params(optimizer), clip_grad, mode=clip_mode)
        if need_update:
+            if clip_grad is not None:
+                dispatch_clip_grad(amp.master_params(optimizer), clip_grad, mode=clip_mode)
            optimizer.step()

    def state_dict(self):
@ -60,11 +60,11 @@ class NativeScaler:
            need_update=True,
    ):
        self._scaler.scale(loss).backward(create_graph=create_graph)
-        if clip_grad is not None:
-            assert parameters is not None
-            self._scaler.unscale_(optimizer)  # unscale the gradients of optimizer's assigned params in-place
-            dispatch_clip_grad(parameters, clip_grad, mode=clip_mode)
        if need_update:
+            if clip_grad is not None:
+                assert parameters is not None
+                self._scaler.unscale_(optimizer)  # unscale the gradients of optimizer's assigned params in-place
+                dispatch_clip_grad(parameters, clip_grad, mode=clip_mode)
            self._scaler.step(optimizer)
            self._scaler.update()

--- a/train.py
+++ b/train.py
@ -927,13 +927,13 @@ def train_one_epoch(
                )
            else:
                loss.backward(create_graph=second_order)
-                if args.clip_grad is not None:
-                    utils.dispatch_clip_grad(
-                        model_parameters(model, exclude_head='agc' in args.clip_mode),
-                        value=args.clip_grad,
-                        mode=args.clip_mode,
-                    )
                if need_update:
+                    if args.clip_grad is not None:
+                        utils.dispatch_clip_grad(
+                            model_parameters(model, exclude_head='agc' in args.clip_mode),
+                            value=args.clip_grad,
+                            mode=args.clip_mode,
+                        )
                    optimizer.step()

        if has_no_sync and not need_update: