Fix support for multi node JAX sharding #5242

awolant · 2023-12-13T13:09:35Z

Category:

Bug fix

Description:

In some situations data_iterator for JAX did not work well in multiprocess environment. This PR improves that.

Additional information:

Affected modules and functionalities:

Iterator for JAX. Some adjustments were mode on a code path where sharding argument is provided.

Tests:

Checklist

Documentation

DALI team only

Requirements

Implements new requirements
Affects existing requirements
N/A

REQ IDs: N/A

JIRA TASK: DALI-3670

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant · 2023-12-18T07:10:02Z

dali/python/nvidia/dali/plugin/jax/iterator.py

@@ -172,7 +172,7 @@ def _next_impl(self):
        for category_id, category_name in enumerate(self.output_map):
            category_outputs = self._gather_outputs_for_category(pipelines_outputs, category_id)

-            if self._num_gpus == 1:
+            if self._num_gpus == 1 and self._sharding is None:


self._num_gpus is equal to the number of pipelines run by this instance of the iterator. So if we need to distinguish multi node training with one GPU per node (process) from just one GPU training.

awolant · 2023-12-18T07:13:13Z

dali/python/nvidia/dali/plugin/jax/iterator.py

+        if isinstance(self._sharding, NamedSharding):
+            global_shape = (self._sharding.mesh.size * shard_shape[0], *shard_shape[1:])
+        else:
+            global_shape = (self._sharding.shape[0] * shard_shape[0], *shard_shape[1:])


sharding variants have inconsisten APIs when it comes to getting the global shape.

awolant · 2023-12-18T07:13:24Z

!build

dali-automaton · 2023-12-18T07:16:40Z

CI MESSAGE: [11566280]: BUILD STARTED

dali-automaton · 2023-12-18T09:24:50Z

CI MESSAGE: [11566280]: BUILD PASSED

klecki · 2023-12-18T12:37:04Z

dali/python/nvidia/dali/plugin/jax/iterator.py

+                    assert jax.local_device_count() == jax.device_count(), (
+                        "Iterator compatible with pmapped JAX functions does not support "
+                        "running in multiprocess mode. Use `sharding` argument instead."
+                    )


Assertions != error checking. If you intend this to be a proper error, please use appropriate exception with explicit raise.

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant · 2023-12-18T14:49:30Z

!build

dali-automaton · 2023-12-18T14:55:54Z

CI MESSAGE: [11573496]: BUILD STARTED

dali-automaton · 2023-12-18T17:08:56Z

CI MESSAGE: [11573496]: BUILD PASSED

awolant · 2023-12-20T10:41:41Z

!build

dali-automaton · 2023-12-20T10:52:18Z

CI MESSAGE: [11618023]: BUILD STARTED

dali-automaton · 2023-12-20T13:05:00Z

CI MESSAGE: [11618023]: BUILD FAILED

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant · 2024-01-07T22:38:55Z

!build

dali-automaton · 2024-01-07T22:40:31Z

CI MESSAGE: [11946905]: BUILD STARTED

dali-automaton · 2024-01-08T00:12:39Z

CI MESSAGE: [11946905]: BUILD PASSED

…pport

Signed-off-by: Albert Wolant <awolant@nvidia.com>

…pport

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant · 2024-01-23T08:37:07Z

!build

dali-automaton · 2024-01-23T08:40:38Z

CI MESSAGE: [12275250]: BUILD STARTED

dali-automaton · 2024-01-23T10:53:20Z

CI MESSAGE: [12275250]: BUILD PASSED

awolant added 3 commits December 13, 2023 14:07

Add support for multi node JAX sharding

84dbdc4

Signed-off-by: Albert Wolant <awolant@nvidia.com>

Fix tests

6b57dde

Signed-off-by: Albert Wolant <awolant@nvidia.com>

Fix formatting

4bfef19

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant commented Dec 18, 2023

View reviewed changes

awolant changed the title ~~[WIP] Add support for multi node JAX sharding~~ Add support for multi node JAX sharding Dec 18, 2023

awolant changed the title ~~Add support for multi node JAX sharding~~ Fix support for multi node JAX sharding Dec 18, 2023

awolant marked this pull request as ready for review December 18, 2023 07:50

banasraf approved these changes Dec 18, 2023

View reviewed changes

banasraf self-assigned this Dec 18, 2023

dali-automaton assigned klecki Dec 18, 2023

klecki reviewed Dec 18, 2023

View reviewed changes

Fix review comments

ada09f0

Signed-off-by: Albert Wolant <awolant@nvidia.com>

klecki approved these changes Dec 18, 2023

View reviewed changes

awolant mentioned this pull request Dec 21, 2023

[Work in progress] Update DALI preprocessing NVIDIA/JAX-Toolbox#438

Closed

Add nonpadding

adf36bf

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant added 2 commits January 16, 2024 14:30

Merge remote-tracking branch 'nvidia/main' into multinode_sharding_su…

5d624aa

…pport

Update

bab29f6

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant added 2 commits January 23, 2024 09:32

Merge remote-tracking branch 'nvidia/main' into multinode_sharding_su…

39375a9

…pport

Fix linter

d4755a3

Signed-off-by: Albert Wolant <awolant@nvidia.com>

awolant merged commit b4c83b9 into NVIDIA:main Jan 29, 2024
7 checks passed

This pull request was closed.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix support for multi node JAX sharding #5242

Fix support for multi node JAX sharding #5242

awolant commented Dec 13, 2023 •

edited

Loading

awolant Dec 18, 2023

awolant Dec 18, 2023

awolant commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

klecki Dec 18, 2023

awolant Dec 18, 2023

awolant commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

awolant commented Dec 20, 2023

dali-automaton commented Dec 20, 2023

dali-automaton commented Dec 20, 2023

awolant commented Jan 7, 2024

dali-automaton commented Jan 7, 2024

dali-automaton commented Jan 8, 2024

awolant commented Jan 23, 2024

dali-automaton commented Jan 23, 2024

dali-automaton commented Jan 23, 2024

Fix support for multi node JAX sharding #5242

Fix support for multi node JAX sharding #5242

Conversation

awolant commented Dec 13, 2023 • edited Loading

Category:

Description:

Additional information:

Affected modules and functionalities:

Tests:

Checklist

Documentation

DALI team only

Requirements

awolant Dec 18, 2023

Choose a reason for hiding this comment

awolant Dec 18, 2023

Choose a reason for hiding this comment

awolant commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

klecki Dec 18, 2023

Choose a reason for hiding this comment

awolant Dec 18, 2023

Choose a reason for hiding this comment

awolant commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

dali-automaton commented Dec 18, 2023

awolant commented Dec 20, 2023

dali-automaton commented Dec 20, 2023

dali-automaton commented Dec 20, 2023

awolant commented Jan 7, 2024

dali-automaton commented Jan 7, 2024

dali-automaton commented Jan 8, 2024

awolant commented Jan 23, 2024

dali-automaton commented Jan 23, 2024

dali-automaton commented Jan 23, 2024

awolant commented Dec 13, 2023 •

edited

Loading