Testing MWMS in TF 2.9.1 with TF Model Garden

Lokiiiiii · Lokiiiiii · commit 14fde5e7c360 · 2022-06-14T13:24:48.000-07:00
diff --git a/buildspec-dlc-cpu-tests.yml b/buildspec-dlc-cpu-tests.yml
@@ -2,7 +2,7 @@ version: 0.2
 
 env:
   variables:
-    FRAMEWORK_VERSION: '2.7.1'
+    FRAMEWORK_VERSION: '2.9.1'
     CPU_INSTANCE_TYPE: 'ml.c4.xlarge'
     ECR_REPO: 'sagemaker-test'
 
diff --git a/buildspec-dlc-gpu-tests.yml b/buildspec-dlc-gpu-tests.yml
@@ -2,7 +2,7 @@ version: 0.2
 
 env:
   variables:
-    FRAMEWORK_VERSION: '2.7.1'
+    FRAMEWORK_VERSION: '2.9.1'
     GPU_INSTANCE_TYPE: 'ml.p3.2xlarge'
     ECR_REPO: 'sagemaker-test'
     GITHUB_REPO: 'sagemaker-tensorflow-training-toolkit'
diff --git a/buildspec-gen-cpu-tests.yml b/buildspec-gen-cpu-tests.yml
@@ -2,7 +2,7 @@ version: 0.2
 
 env:
   variables:
-    FRAMEWORK_VERSION: '2.7.1'
+    FRAMEWORK_VERSION: '2.9.1'
     CPU_INSTANCE_TYPE: 'ml.c4.xlarge'
     ECR_REPO: 'sagemaker-test'
 
diff --git a/buildspec-gen-gpu-tests.yml b/buildspec-gen-gpu-tests.yml
@@ -2,7 +2,7 @@ version: 0.2
 
 env:
   variables:
-    FRAMEWORK_VERSION: '2.7.1'
+    FRAMEWORK_VERSION: '2.9.1'
     GPU_INSTANCE_TYPE: 'ml.p3.16xlarge'
     ECR_REPO: 'sagemaker-test'
     GITHUB_REPO: 'sagemaker-tensorflow-training-toolkit'
diff --git a/test/container/2.9.1/Dockerfile.dlc.cpu b/test/container/2.9.1/Dockerfile.dlc.cpu
@@ -0,0 +1,6 @@
+ARG region
+FROM 763104351884.dkr.ecr.$region.amazonaws.com/tensorflow-training:2.9.1-cpu-py39-ubuntu20.04-sagemaker
+
+COPY dist/sagemaker_tensorflow_training-*.tar.gz /sagemaker_tensorflow_training.tar.gz
+RUN pip install --upgrade --no-cache-dir /sagemaker_tensorflow_training.tar.gz && \
+    rm /sagemaker_tensorflow_training.tar.gz
diff --git a/test/container/2.9.1/Dockerfile.dlc.gpu b/test/container/2.9.1/Dockerfile.dlc.gpu
@@ -0,0 +1,6 @@
+ARG region
+FROM 763104351884.dkr.ecr.$region.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker
+
+COPY dist/sagemaker_tensorflow_training-*.tar.gz /sagemaker_tensorflow_training.tar.gz
+RUN pip install --upgrade --no-cache-dir /sagemaker_tensorflow_training.tar.gz && \
+    rm /sagemaker_tensorflow_training.tar.gz
diff --git a/test/container/2.9.1/Dockerfile.tf.cpu b/test/container/2.9.1/Dockerfile.tf.cpu
@@ -0,0 +1,9 @@
+FROM tensorflow/tensorflow:2.9.1
+
+ENV SAGEMAKER_TRAINING_MODULE sagemaker_tensorflow_container.training:main
+
+COPY dist/sagemaker_tensorflow_training-*.tar.gz /sagemaker_tensorflow_training.tar.gz
+RUN pip install --upgrade --no-cache-dir /sagemaker_tensorflow_training.tar.gz && \
+    rm /sagemaker_tensorflow_training.tar.gz
+RUN pip install --no-cache-dir tensorflow-io
+RUN apt-get update && apt-get install -y --no-install-recommends openssh-server && mkdir -p /var/run/sshd
diff --git a/test/container/2.9.1/Dockerfile.tf.gpu b/test/container/2.9.1/Dockerfile.tf.gpu
@@ -0,0 +1,13 @@
+FROM tensorflow/tensorflow:2.9.1-gpu
+
+ENV SAGEMAKER_TRAINING_MODULE sagemaker_tensorflow_container.training:main
+
+COPY dist/sagemaker_tensorflow_training-*.tar.gz /sagemaker_tensorflow_training.tar.gz
+RUN pip install --upgrade --no-cache-dir /sagemaker_tensorflow_training.tar.gz && \
+    rm /sagemaker_tensorflow_training.tar.gz
+RUN pip install --no-cache-dir tensorflow-io
+RUN apt-key del 7fa2af80 \
+ && rm /etc/apt/sources.list.d/nvidia-ml.list \
+ && apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub \
+ && apt-get update \
+ && apt-get install -y --no-install-recommends openssh-server && mkdir -p /var/run/sshd
diff --git a/test/integration/sagemaker/test_multi_worker_mirrored.py b/test/integration/sagemaker/test_multi_worker_mirrored.py
@@ -21,7 +21,9 @@
 RESOURCE_PATH = os.path.join(os.path.dirname(__file__), "..", "..", "resources")
 
 
-def test_multi_node(sagemaker_session, instance_type, image_uri, tmpdir, framework_version, capsys):
+def test_keras_example(
+    sagemaker_session, instance_type, image_uri, tmpdir, framework_version, capsys
+):
     estimator = TensorFlow(
         entry_point=os.path.join(RESOURCE_PATH, "multi_worker_mirrored", "train_dummy.py"),
         role="SageMakerRole",
@@ -40,3 +42,57 @@ def test_multi_node(sagemaker_session, instance_type, image_uri, tmpdir, framewo
     logs = captured.out + captured.err
     assert "Running distributed training job with multi_worker_mirrored_strategy setup" in logs
     assert "TF_CONFIG=" in logs
+
+
+def test_tf_model_garden(
+    sagemaker_session, instance_type, image_uri, tmpdir, framework_version, capsys
+):
+    epochs = 10
+    batch_size = 512
+    train_steps = int(1024 * epochs / batch_size)
+    steps_per_loop = train_steps // 10
+    overrides = (
+        f"runtime.enable_xla=False,"
+        f"runtime.num_gpus=1,"
+        f"runtime.distribution_strategy=multi_worker_mirrored,"
+        f"runtime.mixed_precision_dtype=float16,"
+        f"task.train_data.global_batch_size={batch_size},"
+        f"task.train_data.input_path=/opt/ml/input/data/training/validation*,"
+        f"task.train_data.cache=True,"
+        f"trainer.train_steps={train_steps},"
+        f"trainer.steps_per_loop={steps_per_loop},"
+        f"trainer.summary_interval={steps_per_loop},"
+        f"trainer.checkpoint_interval={train_steps},"
+        f"task.model.backbone.type=resnet,"
+        f"task.model.backbone.resnet.model_id=50"
+    )
+    estimator = TensorFlow(
+        git_config={
+            "repo": "https://github.com/tensorflow/models.git",
+            "branch": "v2.9.2",
+        },
+        source_dir=".",
+        entry_point="official/vision/train.py",
+        model_dir=False,
+        instance_type=instance_type,
+        instance_count=2,
+        image_uri=image_uri,
+        hyperparameters={
+            "sagemaker_multi_worker_mirrored_strategy_enabled": True,
+            "experiment": "resnet_imagenet",
+            "config_file": "official/vision/configs/experiments/image_classification/imagenet_resnet50_gpu.yaml",
+            "mode": "train",
+            "model_dir": "/opt/ml/model",
+            "params_override": overrides,
+        },
+        max_run=60 * 60 * 1,  # 1 hour
+        role="SageMakerRole",
+    )
+    estimator.fit(
+        inputs="s3://collection-of-ml-datasets/Imagenet/TFRecords/validation",
+        job_name=unique_name_from_base("test-tf-mwms"),
+    )
+    captured = capsys.readouterr()
+    logs = captured.out + captured.err
+    assert "Running distributed training job with multi_worker_mirrored_strategy setup" in logs
+    assert "TF_CONFIG=" in logs