add device_ids and num_devices to depreacate Trainer.devices

DuYicong515 · DuYicong515 · commit de52d050ebb0 · 2022-02-28T17:57:23.000-08:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -140,6 +140,9 @@ The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
 - Added support for pluggable Accelerators ([#12030](https://github.com/PyTorchLightning/pytorch-lightning/pull/12030))
 
 
+- Added `device_ids` and `num_devices` property to `Trainer` ([#12151](https://github.com/PyTorchLightning/pytorch-lightning/pull/12151))
+
+
 ### Changed
 
 - Make `benchmark` flag optional and set its value based on the deterministic flag ([#11944](https://github.com/PyTorchLightning/pytorch-lightning/pull/11944))
@@ -448,6 +451,9 @@ The format is based on [Keep a Changelog](http://keepachangelog.com/en/1.0.0/).
 - Deprecated `BaseProfiler.profile_iterable` ([#12102](https://github.com/PyTorchLightning/pytorch-lightning/pull/12102))
 
 
+- Deprecated `Trainer.devices` in favor of `Trainer.num_devices` and `Trainer.device_ids` ([#12151](https://github.com/PyTorchLightning/pytorch-lightning/pull/12151))
+
+
 ### Removed
 
 - Removed deprecated parameter `method` in `pytorch_lightning.utilities.model_helpers.is_overridden` ([#10507](https://github.com/PyTorchLightning/pytorch-lightning/pull/10507))
diff --git a/pytorch_lightning/trainer/trainer.py b/pytorch_lightning/trainer/trainer.py
@@ -58,7 +58,7 @@
     SimpleProfiler,
     XLAProfiler,
 )
-from pytorch_lightning.strategies import ParallelStrategy, Strategy
+from pytorch_lightning.strategies import ParallelStrategy, SingleDeviceStrategy, Strategy
 from pytorch_lightning.strategies.ddp_spawn import DDPSpawnStrategy
 from pytorch_lightning.trainer.callback_hook import TrainerCallbackHookMixin
 from pytorch_lightning.trainer.configuration_validator import verify_loop_configurations
@@ -2026,6 +2026,18 @@ def should_rank_save_checkpoint(self) -> bool:
     def num_nodes(self) -> int:
         return getattr(self.strategy, "num_nodes", 1)
 
+    @property
+    def device_ids(self) -> List[int]:
+        if isinstance(self.strategy, ParallelStrategy):
+            return [torch._utils._get_device_index(device, allow_cpu=True) for device in self.strategy.parallel_devices]
+        elif isinstance(self.strategy, SingleDeviceStrategy):
+            return [torch._utils._get_device_index(self.strategy.root_device, allow_cpu=True)]
+        return []
+
+    @property
+    def num_devices(self) -> int:
+        return len(self.device_ids)
+
     @property
     def num_processes(self) -> int:
         return self._accelerator_connector.num_processes
@@ -2048,7 +2060,11 @@ def num_gpus(self) -> int:
 
     @property
     def devices(self) -> Optional[Union[List[int], str, int]]:
-        return self._accelerator_connector.devices
+        rank_zero_deprecation(
+            "`Trainer.devices` was deprecated in v1.6 and will be removed in v1.8."
+            " Please use `Trainer.num_devices` or `Trainer.device_ids` to get device information instead."
+        )
+        return self.num_devices
 
     @property
     def data_parallel_device_ids(self) -> Optional[List[int]]:
diff --git a/tests/accelerators/test_accelerator_connector.py b/tests/accelerators/test_accelerator_connector.py
@@ -571,22 +571,22 @@ def test_validate_accelerator_and_devices():
 def test_set_devices_if_none_cpu():
 
     trainer = Trainer(accelerator="cpu", num_processes=3)
-    assert trainer.devices == 3
+    assert trainer.num_devices == 3
 
 
 @RunIf(min_gpus=2)
 def test_set_devices_if_none_gpu():
 
     trainer = Trainer(accelerator="gpu", gpus=2)
-    assert trainer.devices == 2
+    assert trainer.num_devices == 2
 
 
 def test_devices_with_cpu_only_supports_integer():
 
     with pytest.warns(UserWarning, match="The flag `devices` must be an int"):
         trainer = Trainer(accelerator="cpu", devices="1,3")
     assert isinstance(trainer.accelerator, CPUAccelerator)
-    assert trainer.devices == 1
+    assert trainer.num_devices == 1
 
 
 @pytest.mark.parametrize("training_type", ["ddp2", "dp"])
@@ -931,15 +931,15 @@ def test_unsupported_ipu_choice(monkeypatch):
 @mock.patch("pytorch_lightning.utilities.imports._IPU_AVAILABLE", return_value=False)
 def test_devices_auto_choice_cpu(is_ipu_available_mock, is_tpu_available_mock, is_gpu_available_mock):
     trainer = Trainer(accelerator="auto", devices="auto")
-    assert trainer.devices == 1
+    assert trainer.num_devices == 1
     assert trainer.num_processes == 1
 
 
 @mock.patch("torch.cuda.is_available", return_value=True)
 @mock.patch("torch.cuda.device_count", return_value=2)
 def test_devices_auto_choice_gpu(is_gpu_available_mock, device_count_mock):
     trainer = Trainer(accelerator="auto", devices="auto")
-    assert trainer.devices == 2
+    assert trainer.num_devices == 2
     assert trainer.gpus == 2
 
 
diff --git a/tests/accelerators/test_ipu.py b/tests/accelerators/test_ipu.py
@@ -398,7 +398,7 @@ def test_manual_poptorch_opts(tmpdir):
     dataloader = trainer.train_dataloader.loaders
     assert isinstance(dataloader, poptorch.DataLoader)
     assert dataloader.options == training_opts
-    assert trainer.devices > 1  # testing this only makes sense in a distributed setting
+    assert trainer.num_devices > 1  # testing this only makes sense in a distributed setting
     assert not isinstance(dataloader.sampler, DistributedSampler)
 
 
@@ -586,7 +586,7 @@ def test_accelerator_ipu_with_ipus_priority():
 def test_set_devices_if_none_ipu():
 
     trainer = Trainer(accelerator="ipu", ipus=8)
-    assert trainer.devices == 8
+    assert trainer.num_devices == 8
 
 
 @RunIf(ipu=True)
@@ -629,5 +629,5 @@ def test_poptorch_models_at_different_stages(tmpdir):
 @RunIf(ipu=True)
 def test_devices_auto_choice_ipu():
     trainer = Trainer(accelerator="auto", devices="auto")
-    assert trainer.devices == 4
+    assert trainer.num_devices == 4
     assert trainer.ipus == 4
diff --git a/tests/accelerators/test_tpu.py b/tests/accelerators/test_tpu.py
@@ -101,7 +101,7 @@ def test_accelerator_tpu(accelerator, devices):
     trainer = Trainer(accelerator=accelerator, devices=devices)
     assert isinstance(trainer.accelerator, TPUAccelerator)
     assert isinstance(trainer.strategy, TPUSpawnStrategy)
-    assert trainer.devices == 8
+    assert trainer.num_devices == 8
     assert trainer.tpu_cores == 8
 
 
@@ -120,7 +120,7 @@ def test_accelerator_tpu_with_tpu_cores_priority():
 def test_set_devices_if_none_tpu():
 
     trainer = Trainer(accelerator="tpu", tpu_cores=8)
-    assert trainer.devices == 8
+    assert trainer.num_devices == 8
 
 
 @RunIf(tpu=True)
diff --git a/tests/trainer/flags/test_env_vars.py b/tests/trainer/flags/test_env_vars.py
@@ -51,6 +51,6 @@ def test_passing_env_variables_defaults():
 def test_passing_env_variables_devices(cuda_available_mock, device_count_mock):
     """Testing overwriting trainer arguments."""
     trainer = Trainer()
-    assert trainer.devices == 2
+    assert trainer.num_devices == 2
     trainer = Trainer(accelerator="gpu", devices=1)
-    assert trainer.devices == 1
+    assert trainer.num_devices == 1
diff --git a/tests/trainer/test_trainer.py b/tests/trainer/test_trainer.py
@@ -2146,3 +2146,24 @@ def test_dataloaders_are_not_loaded_if_disabled_through_limit_batches(running_st
         else getattr(trainer, f"{dl_prefix}_dataloaders")
     )
     assert dl is None
+
+
+@pytest.mark.parametrize(
+    ["trainer_kwargs", "expected_device_ids"],
+    [
+        ({"strategy": None}, []),
+        ({"num_processes": 1}, [0]),
+        ({"gpus": 1}, [0]),
+        ({"devices": 1}, [0]),
+        ({"strategy": "ddp", "devices": 1}, [0]),
+        ({"strategy": "ddp", "gpus": 2}, [0, 1]),
+        ({"strategy": "ddp", "num_processes": 2}, [0, 1]),
+        ({"strategy": "ddp", "gpus": [0, 2]}, [0, 2]),
+    ],
+)
+def test_trainer_config_device_ids(monkeypatch, trainer_kwargs, expected_device_ids):
+    if trainer_kwargs.get("gpus") is not None:
+        monkeypatch.setattr(torch.cuda, "is_available", lambda: True)
+        monkeypatch.setattr(torch.cuda, "device_count", lambda: 4)
+    trainer = Trainer(**trainer_kwargs)
+    trainer.num_devices = expected_device_ids