diff --git a/mmseg/models/backbones/vit.py b/mmseg/models/backbones/vit.py
index 9c099d2ee..5cd3ff24e 100644
--- a/mmseg/models/backbones/vit.py
+++ b/mmseg/models/backbones/vit.py
@@ -395,7 +395,7 @@ class VisionTransformer(BaseModule):
                     out = x
                 B, _, C = out.shape
                 out = out.reshape(B, hw_shape[0], hw_shape[1],
-                                  C).permute(0, 3, 1, 2)
+                                  C).permute(0, 3, 1, 2).contiguous()
                 if self.output_cls_token:
                     out = [out, x[:, 0]]
                 outs.append(out)