Update notebooks for MXNet 1.3 (aws#451)

laurenyu · web-flow · commit 7a2618a669a0 · 2018-11-05T14:13:39.000-08:00
diff --git a/sagemaker-python-sdk/mxnet_gluon_sentiment/mxnet_sentiment_analysis_with_gluon.ipynb b/sagemaker-python-sdk/mxnet_gluon_sentiment/mxnet_sentiment_analysis_with_gluon.ipynb
@@ -13,9 +13,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "import os\n",
@@ -68,9 +66,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "inputs = sagemaker_session.upload_data(path='data', key_prefix='data/DEMO-sentiment')"
@@ -90,9 +86,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "!cat 'sentiment.py'"
@@ -110,21 +104,21 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
-    "m = MXNet(\"sentiment.py\",\n",
+    "m = MXNet('sentiment.py',\n",
     "          role=role,\n",
     "          train_instance_count=1,\n",
-    "          train_instance_type=\"ml.c4.2xlarge\",\n",
-    "          framework_version=\"1.2.1\",\n",
-    "          hyperparameters={'batch_size': 8,\n",
-    "                         'epochs': 2,\n",
-    "                         'learning_rate': 0.01,\n",
-    "                         'embedding_size': 50, \n",
-    "                         'log_interval': 1000})"
+    "          train_instance_type='ml.c4.2xlarge',\n",
+    "          framework_version='1.3.0',\n",
+    "          py_version='py2',\n",
+    "          launch_parameter_server=True,\n",
+    "          hyperparameters={'batch-size': 8,\n",
+    "                           'epochs': 2,\n",
+    "                           'learning-rate': 0.01,\n",
+    "                           'embedding-size': 50, \n",
+    "                           'log-interval': 1000})"
    ]
   },
   {
@@ -137,9 +131,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "m.fit(inputs)"
@@ -189,7 +181,7 @@
     "        \"the movie was so enthralling !\"]\n",
     "\n",
     "response = predictor.predict(data)\n",
-    "print response"
+    "print(response)"
    ]
   },
   {
@@ -204,9 +196,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "sagemaker.Session().delete_endpoint(predictor.endpoint)"
diff --git a/sagemaker-python-sdk/mxnet_gluon_sentiment/sentiment.py b/sagemaker-python-sdk/mxnet_gluon_sentiment/sentiment.py
@@ -1,17 +1,21 @@
 from __future__ import print_function
 
+import argparse
+import bisect
+from collections import Counter
+from itertools import chain, islice
+import json
 import logging
+import time
+import random
+import os
+
 import mxnet as mx
 from mxnet import gluon, autograd, nd
-from mxnet.gluon import nn
-import numpy as np
-import json
-import time
-import re
 from mxnet.io import DataIter, DataBatch, DataDesc
-import bisect, random
-from collections import Counter
-from itertools import chain, islice
+import numpy as np
+
+from sagemaker_mxnet_container.training_utils import scheduler_host
 
 
 logging.basicConfig(level=logging.DEBUG)
@@ -20,22 +24,16 @@
 # Training methods                                             #
 # ------------------------------------------------------------ #
 
-def train(current_host, hosts, num_cpus, num_gpus, channel_input_dirs, model_dir, hyperparameters, **kwargs):
-    # retrieve the hyperparameters we set in notebook (with some defaults)
-    batch_size = hyperparameters.get('batch_size', 8)
-    epochs = hyperparameters.get('epochs', 2)
-    learning_rate = hyperparameters.get('learning_rate', 0.01)
-    log_interval = hyperparameters.get('log_interval', 1000)
-    embedding_size = hyperparameters.get('embedding_size', 50)
 
+def train(current_host, hosts, num_cpus, num_gpus, training_dir, model_dir,
+          batch_size, epochs, learning_rate, log_interval, embedding_size):
     if len(hosts) == 1:
         kvstore = 'device' if num_gpus > 0 else 'local'
     else:
         kvstore = 'dist_device_sync' if num_gpus > 0 else 'dist_sync'
 
     ctx = mx.gpu() if num_gpus > 0 else mx.cpu()
 
-    training_dir = channel_input_dirs['training']
     train_sentences, train_labels, _ = get_dataset(training_dir + '/train')
     val_sentences, val_labels, _ = get_dataset(training_dir + '/test')
 
@@ -312,6 +310,37 @@ def test(ctx, net, val_data):
     return metric.get()
 
 
+def parse_args():
+    parser = argparse.ArgumentParser()
+
+    # retrieve the hyperparameters we set in notebook (with some defaults)
+    parser.add_argument('--batch-size', type=int, default=8)
+    parser.add_argument('--epochs', type=int, default=2)
+    parser.add_argument('--learning-rate', type=float, default=0.01)
+    parser.add_argument('--log-interval', type=int, default=1000)
+    parser.add_argument('--embedding-size', type=int, default=50)
+
+    parser.add_argument('--model-dir', type=str, default=os.environ['SM_MODEL_DIR'])
+    parser.add_argument('--training_channel', type=str, default=os.environ['SM_CHANNEL_TRAINING'])
+
+    parser.add_argument('--current-host', type=str, default=os.environ['SM_CURRENT_HOST'])
+    parser.add_argument('--hosts', type=list, default=json.loads(os.environ['SM_HOSTS']))
+
+    return parser.parse_args()
+
+
+if __name__ == '__main__':
+    args = parse_args()
+    num_cpus = int(os.environ['SM_NUM_CPUS'])
+    num_gpus = int(os.environ['SM_NUM_GPUS'])
+
+    model = train(args.current_host, args.hosts, num_cpus, num_gpus, args.training_channel, args.model_dir,
+                  args.batch_size, args.epochs, args.learning_rate, args.log_interval, args.embedding_size)
+
+    if args.current_host == scheduler_host(args.hosts):
+        save(model, args.model_dir)
+
+
 # ------------------------------------------------------------ #
 # Hosting methods                                              #
 # ------------------------------------------------------------ #
diff --git a/sagemaker-python-sdk/mxnet_mnist/mnist.py b/sagemaker-python-sdk/mxnet_mnist/mnist.py
@@ -1,10 +1,14 @@
+import argparse
+import gzip
+import json
 import logging
+import os
+import struct
 
-import gzip
 import mxnet as mx
 import numpy as np
-import os
-import struct
+
+from sagemaker_mxnet_container.training_utils import scheduler_host
 
 
 def load_data(path):
@@ -35,39 +39,80 @@ def build_graph():
     return mx.sym.SoftmaxOutput(data=fc3, name='softmax')
 
 
-def train(current_host, channel_input_dirs, hyperparameters, hosts, num_cpus, num_gpus):
-    (train_labels, train_images) = load_data(os.path.join(channel_input_dirs['train']))
-    (test_labels, test_images) = load_data(os.path.join(channel_input_dirs['test']))
+def get_training_context(num_gpus):
+    if num_gpus:
+        return [mx.gpu(i) for i in range(num_gpus)]
+    else:
+        return mx.cpu()
+
+
+def train(batch_size, epochs, learning_rate, num_gpus, training_channel, testing_channel,
+          hosts, current_host, model_dir):
+    (train_labels, train_images) = load_data(training_channel)
+    (test_labels, test_images) = load_data(testing_channel)
 
-    # Alternatively to splitting in memory, the data could be pre-split in S3 and use ShardedByS3Key
-    # to do parallel training.
+    # Data parallel training - shard the data so each host
+    # only trains on a subset of the total data.
     shard_size = len(train_images) // len(hosts)
     for i, host in enumerate(hosts):
         if host == current_host:
             start = shard_size * i
             end = start + shard_size
             break
 
-    batch_size = 100
-    train_iter = mx.io.NDArrayIter(train_images[start:end], train_labels[start:end], batch_size, shuffle=True)
+    train_iter = mx.io.NDArrayIter(train_images[start:end], train_labels[start:end], batch_size,
+                                   shuffle=True)
     val_iter = mx.io.NDArrayIter(test_images, test_labels, batch_size)
+
     logging.getLogger().setLevel(logging.DEBUG)
+
     kvstore = 'local' if len(hosts) == 1 else 'dist_sync'
-    mlp_model = mx.mod.Module(
-        symbol=build_graph(),
-        context=get_train_context(num_cpus, num_gpus))
+
+    mlp_model = mx.mod.Module(symbol=build_graph(),
+                              context=get_training_context(num_gpus))
     mlp_model.fit(train_iter,
                   eval_data=val_iter,
                   kvstore=kvstore,
                   optimizer='sgd',
-                  optimizer_params={'learning_rate': float(hyperparameters.get("learning_rate", 0.1))},
+                  optimizer_params={'learning_rate': learning_rate},
                   eval_metric='acc',
                   batch_end_callback=mx.callback.Speedometer(batch_size, 100),
-                  num_epoch=25)
-    return mlp_model
+                  num_epoch=epochs)
+
+    if current_host == scheduler_host(hosts):
+        save(model_dir, mlp_model)
+
+
+def save(model_dir, model):
+    model.symbol.save(os.path.join(model_dir, 'model-symbol.json'))
+    model.save_params(os.path.join(model_dir, 'model-0000.params'))
+
+    signature = [{'name': data_desc.name, 'shape': [dim for dim in data_desc.shape]}
+                 for data_desc in model.data_shapes]
+    with open(os.path.join(model_dir, 'model-shapes.json'), 'w') as f:
+        json.dump(signature, f)
+
+
+def parse_args():
+    parser = argparse.ArgumentParser()
+
+    parser.add_argument('--batch-size', type=int, default=100)
+    parser.add_argument('--epochs', type=int, default=10)
+    parser.add_argument('--learning-rate', type=float, default=0.1)
+
+    parser.add_argument('--model-dir', type=str, default=os.environ['SM_MODEL_DIR'])
+    parser.add_argument('--train', type=str, default=os.environ['SM_CHANNEL_TRAIN'])
+    parser.add_argument('--test', type=str, default=os.environ['SM_CHANNEL_TEST'])
+
+    parser.add_argument('--current-host', type=str, default=os.environ['SM_CURRENT_HOST'])
+    parser.add_argument('--hosts', type=list, default=json.loads(os.environ['SM_HOSTS']))
+
+    return parser.parse_args()
+
 
+if __name__ == '__main__':
+    args = parse_args()
+    num_gpus = int(os.environ['SM_NUM_GPUS'])
 
-def get_train_context(num_cpus, num_gpus):
-    if num_gpus > 0:
-        return mx.gpu()
-    return mx.cpu()
+    train(args.batch_size, args.epochs, args.learning_rate, num_gpus, args.train, args.test,
+          args.hosts, args.current_host, args.model_dir)
diff --git a/sagemaker-python-sdk/mxnet_mnist/mxnet_mnist.ipynb b/sagemaker-python-sdk/mxnet_mnist/mxnet_mnist.ipynb
@@ -17,7 +17,6 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {
-    "collapsed": true,
     "isConfigCell": true
    },
    "outputs": [],
@@ -79,9 +78,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "from sagemaker.mxnet import MXNet\n",
@@ -92,8 +89,9 @@
     "                        code_location=custom_code_upload_location,\n",
     "                        train_instance_count=1,\n",
     "                        train_instance_type='ml.m4.xlarge',\n",
-    "                        framework_version='1.2.1',\n",
-    "                        hyperparameters={'learning_rate': 0.1})"
+    "                        framework_version='1.3.0',\n",
+    "                        launch_parameter_server=True,\n",
+    "                        hyperparameters={'learning-rate': 0.1})"
    ]
   },
   {
@@ -219,9 +217,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "print(\"Endpoint name: \" + predictor.endpoint)"
@@ -230,9 +226,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {
-    "collapsed": true
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "import sagemaker\n",
diff --git a/sagemaker-python-sdk/mxnet_mnist/mxnet_mnist_with_batch_transform.ipynb b/sagemaker-python-sdk/mxnet_mnist/mxnet_mnist_with_batch_transform.ipynb
@@ -92,8 +92,8 @@
     "                        code_location=custom_code_upload_location,\n",
     "                        train_instance_count=1,\n",
     "                        train_instance_type='ml.m4.xlarge',\n",
-    "                        framework_version='1.2.1',\n",
-    "                        hyperparameters={'learning_rate': 0.1})"
+    "                        framework_version='1.3.0',\n",
+    "                        hyperparameters={'learning-rate': 0.1})"
    ]
   },
   {

Original file line number	Diff line number	Diff line change
`@@ -92,8 +92,8 @@`
`92`	`92`	`" code_location=custom_code_upload_location,\n",`
`93`	`93`	`" train_instance_count=1,\n",`
`94`	`94`	`" train_instance_type='ml.m4.xlarge',\n",`
`95`		`- " framework_version='1.2.1',\n",`
`96`		`- " hyperparameters={'learning_rate': 0.1})"`
	`95`	`+ " framework_version='1.3.0',\n",`
	`96`	`+ " hyperparameters={'learning-rate': 0.1})"`
`97`	`97`	`]`
`98`	`98`	`},`
`99`	`99`	`{`