Merge pull request #92 from stackabletech/pyspark-kuttl-tests

razvan · web-flow · commit bba639ef96e3 · 2022-07-04T10:12:20.000+02:00
PySpark tests
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -13,10 +13,12 @@ All notable changes to this project will be documented in this file.
 - BREAKING: Use current S3 connection/bucket structs ([#86])
 - Add node selector to top-level job and specify node selection in PVC-relevant tests ([#90])
 - Update kuttl tests to use Spark 3.3.0 ([#91])
+- Bugfix for duplicate volume mounts in PySpark jobs ([#92])
 
 [#86]: https://github.com/stackabletech/spark-k8s-operator/pull/86
 [#90]: https://github.com/stackabletech/spark-k8s-operator/pull/90
 [#91]: https://github.com/stackabletech/spark-k8s-operator/pull/91
+[#92]: https://github.com/stackabletech/spark-k8s-operator/pull/92
 
 ## [0.2.0] - 2022-06-21
 
diff --git a/examples/ny-tlc-report-image.yaml b/examples/ny-tlc-report-image.yaml
@@ -9,7 +9,7 @@ spec:
   # everything under /jobs will be copied to /stackable/spark/jobs
   image: docker.stackable.tech/stackable/ny-tlc-report:0.1.0
   sparkImage: docker.stackable.tech/stackable/pyspark-k8s:3.3.0-stackable0.1.0
-  sparkImagePullPolicy: Always
+  sparkImagePullPolicy: IfNotPresent
   mode: cluster
   mainApplicationFile: local:///stackable/spark/jobs/ny_tlc_report.py
   args:
diff --git a/rust/operator-binary/src/spark_k8s_controller.rs b/rust/operator-binary/src/spark_k8s_controller.rs
@@ -7,8 +7,8 @@ use stackable_operator::commons::s3::InlinedS3BucketSpec;
 use stackable_operator::commons::tls::{CaCert, TlsVerification};
 use stackable_operator::k8s_openapi::api::batch::v1::{Job, JobSpec};
 use stackable_operator::k8s_openapi::api::core::v1::{
-    ConfigMap, ConfigMapVolumeSource, Container, EmptyDirVolumeSource, EnvVar, Pod, PodSpec,
-    PodTemplateSpec, ServiceAccount, Volume, VolumeMount,
+    ConfigMap, ConfigMapVolumeSource, Container, EnvVar, Pod, PodSpec, PodTemplateSpec,
+    ServiceAccount, Volume, VolumeMount,
 };
 use stackable_operator::k8s_openapi::api::rbac::v1::{ClusterRole, RoleBinding, RoleRef, Subject};
 use stackable_operator::k8s_openapi::Resource;
@@ -327,13 +327,6 @@ fn spark_job(
         ..VolumeMount::default()
     }];
     volume_mounts.extend(spark_application.driver_volume_mounts(s3bucket));
-    if job_container.is_some() {
-        volume_mounts.push(VolumeMount {
-            name: VOLUME_MOUNT_NAME_JOB.into(),
-            mount_path: VOLUME_MOUNT_PATH_JOB.into(),
-            ..VolumeMount::default()
-        })
-    }
 
     let mut cb = ContainerBuilder::new("spark-submit");
     cb.image(spark_image)
@@ -362,14 +355,6 @@ fn spark_job(
     }];
     volumes.extend(spark_application.volumes(s3bucket));
 
-    if job_container.is_some() {
-        volumes.push(Volume {
-            name: String::from(VOLUME_MOUNT_NAME_JOB),
-            empty_dir: Some(EmptyDirVolumeSource::default()),
-            ..Volume::default()
-        })
-    }
-
     let pod = PodTemplateSpec {
         metadata: Some(
             ObjectMetaBuilder::new()
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/00-assert.yaml b/tests/templates/kuttl/pyspark-ny-public-s3/00-assert.yaml
@@ -0,0 +1,21 @@
+---
+apiVersion: kuttl.dev/v1beta1
+kind: TestAssert
+metadata:
+  name: minio
+timeout: 900
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: test-minio
+  labels:
+    app: minio
+---
+apiVersion: apps/v1
+kind: StatefulSet
+metadata:
+  name: minio-mc
+status:
+  readyReplicas: 1
+  replicas: 1
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/00-s3-upload-container.yaml b/tests/templates/kuttl/pyspark-ny-public-s3/00-s3-upload-container.yaml
@@ -0,0 +1,36 @@
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: minio-mc
+  labels:
+    app: minio-mc
+timeout: 240
+spec:
+  clusterIP: None
+  selector:
+    app: minio-mc
+---
+apiVersion: apps/v1
+kind: StatefulSet
+metadata:
+  name: minio-mc
+  labels:
+    app: minio-mc
+timeout: 240
+spec:
+  replicas: 1
+  serviceName: "minio-mc"
+  selector:
+    matchLabels:
+      app: minio-mc
+  template:
+    metadata:
+      labels:
+        app: minio-mc
+    spec:
+      containers:
+        - name: minio-mc
+          image: bitnami/minio:2022-debian-10
+          stdin: true
+          tty: true
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/00-setup-minio.yaml b/tests/templates/kuttl/pyspark-ny-public-s3/00-setup-minio.yaml
@@ -0,0 +1,14 @@
+---
+apiVersion: kuttl.dev/v1beta1
+kind: TestStep
+commands:
+  - script: >-
+      helm install test-minio
+      --namespace $NAMESPACE
+      --set mode=standalone
+      --set replicas=1
+      --set persistence.enabled=false
+      --set buckets[0].name=my-bucket,buckets[0].policy=public
+      --set resources.requests.memory=1Gi
+      --repo https://charts.min.io/ minio
+    timeout: 240
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/01-prepare-bucket.yaml.j2 b/tests/templates/kuttl/pyspark-ny-public-s3/01-prepare-bucket.yaml.j2
@@ -0,0 +1,15 @@
+---
+apiVersion: kuttl.dev/v1beta1
+kind: TestStep
+commands:
+    - script: >-
+        kubectl exec -n $NAMESPACE minio-mc-0 --
+        sh -c 'mc alias set test-minio http://test-minio:9000/'
+    - script: kubectl cp -n $NAMESPACE ny_tlc_report.py  minio-mc-0:/tmp
+    - script: kubectl cp -n $NAMESPACE yellow_tripdata_2021-07.csv  minio-mc-0:/tmp
+    - script: >-
+        kubectl exec -n $NAMESPACE minio-mc-0 --
+        mc cp /tmp/ny_tlc_report.py test-minio/my-bucket
+    - script: >-
+        kubectl exec -n $NAMESPACE minio-mc-0 --
+        mc cp /tmp/yellow_tripdata_2021-07.csv test-minio/my-bucket
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/02-assert.yaml b/tests/templates/kuttl/pyspark-ny-public-s3/02-assert.yaml
@@ -0,0 +1,13 @@
+---
+apiVersion: kuttl.dev/v1beta1
+kind: TestAssert
+metadata:
+  name: pyspark-ny-deps-job
+timeout: 900
+---
+apiVersion: batch/v1
+kind: Job
+metadata:
+  name: pyspark-ny-deps-job
+status:
+  succeeded: 1
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/02-deps-volume.yaml b/tests/templates/kuttl/pyspark-ny-public-s3/02-deps-volume.yaml
@@ -0,0 +1,50 @@
+---
+apiVersion: v1
+kind: PersistentVolumeClaim
+metadata:
+  name: pyspark-ny-pvc
+spec:
+  accessModes:
+    - ReadWriteOnce
+  resources:
+    requests:
+      storage: 1Gi
+---
+apiVersion: batch/v1
+kind: Job
+metadata:
+  name: pyspark-ny-deps-job
+spec:
+  template:
+    spec:
+      nodeSelector:
+        node: "1"
+      restartPolicy: Never
+      volumes:
+        - name: job-deps
+          persistentVolumeClaim:
+            claimName: pyspark-ny-pvc
+      containers:
+        - name: aws-deps
+          image: docker.stackable.tech/stackable/tools:0.2.0-stackable0
+          env:
+            - name: DEST_DIR
+              value: "/dependencies/jars"
+            - name: AWS
+              value: "1.11.1026"
+            - name: HADOOP
+              value: "3.3.3"
+          command:
+            [
+              "bash",
+              "-x",
+              "-o",
+              "pipefail",
+              "-c",
+              "mkdir -p ${DEST_DIR} && curl -L  https://search.maven.org/remotecontent?filepath=org/apache/hadoop/hadoop-aws/${HADOOP}/hadoop-aws-${HADOOP}.jar -o ${DEST_DIR}/hadoop-aws-${HADOOP}.jar && curl -L https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/${AWS}/aws-java-sdk-bundle-${AWS}.jar -o ${DEST_DIR}/aws-java-sdk-bundle-${AWS}.jar && chown -R stackable:stackable ${DEST_DIR} && chmod -R a=,u=rwX ${DEST_DIR}",
+            ]
+          volumeMounts:
+            - name: job-deps
+              mountPath: /dependencies
+          securityContext:
+            runAsUser: 0
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/10-assert.yaml b/tests/templates/kuttl/pyspark-ny-public-s3/10-assert.yaml
@@ -0,0 +1,14 @@
+---
+apiVersion: kuttl.dev/v1beta1
+kind: TestAssert
+metadata:
+  name: pyspark-ny-public-s3
+timeout: 900
+---
+# The Job starting the whole process
+apiVersion: spark.stackable.tech/v1alpha1
+kind: SparkApplication
+metadata:
+  name: pyspark-ny-public-s3
+status:
+  phase: Succeeded
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/10-deploy-spark-app.yaml.j2 b/tests/templates/kuttl/pyspark-ny-public-s3/10-deploy-spark-app.yaml.j2
@@ -0,0 +1,47 @@
+---
+apiVersion: spark.stackable.tech/v1alpha1
+kind: SparkApplication
+metadata:
+  name: pyspark-ny-public-s3
+spec:
+  version: "1.0"
+  # everything under /jobs will be copied to /stackable/spark/jobs
+  sparkImage: docker.stackable.tech/stackable/pyspark-k8s:{{ test_scenario['values']['spark'] }}-stackable{{ test_scenario['values']['stackable'] }}
+  sparkImagePullPolicy: IfNotPresent
+  mode: cluster
+  mainApplicationFile: s3a://my-bucket/ny_tlc_report.py
+  args:
+    - "--input 's3a://my-bucket/yellow_tripdata_2021-07.csv'"
+  deps:
+    requirements:
+      - tabulate==0.8.9
+  s3bucket:
+    inline:
+      bucketName: my-bucket
+      connection:
+        inline:
+          host: test-minio
+          port: 9000
+          accessStyle: Path
+  sparkConf:
+    spark.hadoop.fs.s3a.aws.credentials.provider: "org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider"
+    spark.driver.extraClassPath: "/dependencies/jars/*"
+    spark.executor.extraClassPath: "/dependencies/jars/*"
+  volumes:
+    - name: job-deps
+      persistentVolumeClaim:
+        claimName: pyspark-ny-pvc
+  driver:
+    cores: 1
+    coreLimit: "1200m"
+    memory: "512m"
+    volumeMounts:
+      - name: job-deps
+        mountPath: /dependencies
+  executor:
+    cores: 1
+    instances: 3
+    memory: "512m"
+    volumeMounts:
+      - name: job-deps
+        mountPath: /dependencies
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/ny_tlc_report.py b/tests/templates/kuttl/pyspark-ny-public-s3/ny_tlc_report.py
@@ -0,0 +1,65 @@
+"""
+Creates a report with three indicators out of the NY TLC data set.
+
+See: https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page
+
+It accepts two command line arguments:
+--input     Path to the input data source. Can be a local path, a S3 object
+            or whatever else Spark supports. Additional dependencies might
+            need to be submitted along with the job.
+--output    Path to write the report as a CSV file.
+"""
+import argparse
+
+from argparse import Namespace
+from pyspark.sql import SparkSession, DataFrame
+from pyspark.sql.functions import dayofweek
+
+import tabulate
+
+
+def check_args() -> Namespace:
+    """Parse the given CLI arguments"""
+    parser = argparse.ArgumentParser(description="NY taxi trip report")
+    parser.add_argument("--input", "-i", required=True, help="Input path for dataset")
+    parser.add_argument(
+        "--output", "-o", required=False, help="Output path for the report."
+    )
+    return parser.parse_args()
+
+
+def build_report(spark: SparkSession, args: Namespace) -> DataFrame:
+    """Compute the total number of passangers plus the average fare and distance per day of week"""
+
+    input_df = spark.read.options(header=True, inferSchema=True).csv(args.input)
+
+    return (
+        input_df.select(
+            dayofweek(input_df["tpep_pickup_datetime"]).alias("day_of_week"),
+            input_df["passenger_count"],
+            input_df["trip_distance"],
+            input_df["total_amount"],
+        )
+        .groupby("day_of_week")
+        .agg({"passenger_count": "sum", "trip_distance": "avg", "total_amount": "avg"})
+        .withColumnRenamed("avg(total_amount)", "avg_amount")
+        .withColumnRenamed("avg(trip_distance)", "avg_trip_distance")
+        .withColumnRenamed("sum(passenger_count)", "total_passengers")
+        .orderBy("day_of_week")
+    )
+
+
+if __name__ == "__main__":
+    args = check_args()
+
+    spark = SparkSession.builder.appName("NY TLC Report").getOrCreate()
+
+    try:
+        report = build_report(spark, args)
+        print(tabulate.tabulate(report.collect()))
+        if args.output:
+            report.coalesce(1).write.mode("overwrite").options(header=True).csv(
+                args.output
+            )
+    finally:
+        spark.stop()
diff --git a/tests/templates/kuttl/pyspark-ny-public-s3/yellow_tripdata_2021-07.csv b/tests/templates/kuttl/pyspark-ny-public-s3/yellow_tripdata_2021-07.csv
diff --git a/tests/test-definition.yaml b/tests/test-definition.yaml