Updated request metrics to be handled in server processing loop

courageJ · courageJ · commit 2d05b457ff63 · 2025-01-10T16:41:42.000Z
Signed-off-by: Jie WU &lt;wujie@google.com&gt;
diff --git a/pkg/ext-proc/handlers/request.go b/pkg/ext-proc/handlers/request.go
@@ -5,12 +5,10 @@ import (
 	"errors"
 	"fmt"
 	"strconv"
-	"time"
 
 	configPb "github.com/envoyproxy/go-control-plane/envoy/config/core/v3"
 	extProcPb "github.com/envoyproxy/go-control-plane/envoy/service/ext_proc/v3"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/backend"
-	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/metrics"
 	"inference.networking.x-k8s.io/gateway-api-inference-extension/pkg/ext-proc/scheduling"
 	klog "k8s.io/klog/v2"
 )
@@ -20,7 +18,6 @@ import (
 // Envoy sends the request body to ext proc before sending the request to the backend server.
 func (s *Server) HandleRequestBody(reqCtx *RequestContext, req *extProcPb.ProcessingRequest) (*extProcPb.ProcessingResponse, error) {
 	klog.V(3).Infof("Handling request body")
-	requestReceivedTimestamp := time.Now()
 
 	// Unmarshal request body (must be JSON).
 	v := req.Request.(*extProcPb.ProcessingRequest_RequestBody)
@@ -79,6 +76,8 @@ func (s *Server) HandleRequestBody(reqCtx *RequestContext, req *extProcPb.Proces
 	klog.V(3).Infof("Selected target model %v in target pod: %v\n", llmReq.ResolvedTargetModel, targetPod)
 
 	reqCtx.Model = llmReq.Model
+	reqCtx.ResolvedTargetModel = llmReq.ResolvedTargetModel
+	reqCtx.RequestSize = len(v.RequestBody.Body)
 	reqCtx.TargetPod = targetPod
 
 	// Insert "target-pod" to instruct Envoy to route requests to the specified target pod.
@@ -119,7 +118,6 @@ func (s *Server) HandleRequestBody(reqCtx *RequestContext, req *extProcPb.Proces
 			},
 		},
 	}
-	metrics.MonitorRequest(llmReq.Model, llmReq.ResolvedTargetModel, len(v.RequestBody.Body), time.Since(requestReceivedTimestamp))
 	return resp, nil
 }
 
diff --git a/pkg/ext-proc/metrics/metrics.go b/pkg/ext-proc/metrics/metrics.go
@@ -6,6 +6,7 @@ import (
 
 	compbasemetrics "k8s.io/component-base/metrics"
 	"k8s.io/component-base/metrics/legacyregistry"
+	klog "k8s.io/klog/v2"
 )
 
 const (
@@ -63,10 +64,23 @@ func Register() {
 	})
 }
 
-// MonitorRequest handles monitoring requests.
-func MonitorRequest(modelName, targetModelName string, reqSize int, elapsed time.Duration) {
-	elapsedSeconds := elapsed.Seconds()
+// RecordRequstCounter records the number of requests.
+func RecordRequestCounter(modelName, targetModelName string) {
 	requestCounter.WithLabelValues(modelName, targetModelName).Inc()
-	requestLatencies.WithLabelValues(modelName, targetModelName).Observe(elapsedSeconds)
+}
+
+// RecordRequestSizes records the request sizes.
+func RecordRequestSizes(modelName, targetModelName string, reqSize int) {
 	requestSizes.WithLabelValues(modelName, targetModelName).Observe(float64(reqSize))
 }
+
+// RecordRequstLatencies records duration of request.
+func RecordRequestLatencies(modelName, targetModelName string, received time.Time, complete time.Time) bool {
+	if !complete.After(received) {
+		klog.Errorf("request latency value error for model name %v, target model name %v: complete time %v is before received time %v", modelName, targetModelName, complete, received)
+		return false
+	}
+	elapsedSeconds := complete.Sub(received).Seconds()
+	requestLatencies.WithLabelValues(modelName, targetModelName).Observe(elapsedSeconds)
+	return true
+}
diff --git a/pkg/ext-proc/metrics/metrics_test.go b/pkg/ext-proc/metrics/metrics_test.go
@@ -13,12 +13,11 @@ const RequestTotalMetric = InferenceModelComponent + "_request_total"
 const RequestLatenciesMetric = InferenceModelComponent + "_request_duration_seconds"
 const RequestSizesMetric = InferenceModelComponent + "_request_sizes"
 
-func TestMonitorRequest(t *testing.T) {
+func TestRecordRequestCounterandSizes(t *testing.T) {
 	type requests struct {
 		modelName       string
 		targetModelName string
 		reqSize         int
-		elapsed         time.Duration
 	}
 	scenarios := []struct {
 		name string
@@ -30,33 +29,30 @@ func TestMonitorRequest(t *testing.T) {
 				modelName:       "m10",
 				targetModelName: "t10",
 				reqSize:         1200,
-				elapsed:         time.Millisecond * 10,
 			},
 			{
 				modelName:       "m10",
 				targetModelName: "t10",
 				reqSize:         500,
-				elapsed:         time.Millisecond * 1600,
 			},
 			{
 				modelName:       "m10",
 				targetModelName: "t11",
 				reqSize:         2480,
-				elapsed:         time.Millisecond * 60,
 			},
 			{
 				modelName:       "m20",
 				targetModelName: "t20",
 				reqSize:         80,
-				elapsed:         time.Millisecond * 120,
 			},
 		},
 	}}
 	Register()
 	for _, scenario := range scenarios {
 		t.Run(scenario.name, func(t *testing.T) {
 			for _, req := range scenario.reqs {
-				MonitorRequest(req.modelName, req.targetModelName, req.reqSize, req.elapsed)
+				RecordRequestCounter(req.modelName, req.targetModelName)
+				RecordRequestSizes(req.modelName, req.targetModelName, req.reqSize)
 			}
 			wantRequestTotal, err := os.Open("testdata/request_total_metric")
 			defer func() {
@@ -70,31 +66,98 @@ func TestMonitorRequest(t *testing.T) {
 			if err := testutil.GatherAndCompare(legacyregistry.DefaultGatherer, wantRequestTotal, RequestTotalMetric); err != nil {
 				t.Error(err)
 			}
-			wantRequestLatencies, err := os.Open("testdata/request_duration_seconds_metric")
+			wantRequestSizes, err := os.Open("testdata/request_sizes_metric")
 			defer func() {
-				if err := wantRequestLatencies.Close(); err != nil {
+				if err := wantRequestSizes.Close(); err != nil {
 					t.Error(err)
 				}
 			}()
 			if err != nil {
 				t.Fatal(err)
 			}
-			if err := testutil.GatherAndCompare(legacyregistry.DefaultGatherer, wantRequestLatencies, RequestLatenciesMetric); err != nil {
+			if err := testutil.GatherAndCompare(legacyregistry.DefaultGatherer, wantRequestSizes, RequestSizesMetric); err != nil {
 				t.Error(err)
 			}
-			wantRequestSizes, err := os.Open("testdata/request_sizes_metric")
+
+		})
+	}
+}
+
+
+func TestRecordRequestLatencies(t *testing.T) {
+	timeBaseline := time.Now()
+	type requests struct {
+		modelName       string
+		targetModelName string
+		receivedTime time.Time
+		completeTime time.Time
+	}
+	scenarios := []struct {
+		name string
+		reqs []requests
+		invalid bool
+	}{{
+		name: "multiple requests",
+		reqs: []requests{
+			{
+				modelName:       "m10",
+				targetModelName: "t10",
+				receivedTime: timeBaseline,
+				completeTime: timeBaseline.Add(time.Millisecond * 10),
+			},
+			{
+				modelName:       "m10",
+				targetModelName: "t10",
+				receivedTime: timeBaseline,
+				completeTime: timeBaseline.Add(time.Millisecond * 1600),
+			},
+			{
+				modelName:       "m10",
+				targetModelName: "t11",
+				receivedTime: timeBaseline,
+				completeTime: timeBaseline.Add(time.Millisecond * 60),
+			},
+			{
+				modelName:       "m20",
+				targetModelName: "t20",
+				receivedTime: timeBaseline,
+				completeTime: timeBaseline.Add(time.Millisecond * 120),
+			},
+		},
+	},
+	{
+		name: "invalid elapsed time",
+		reqs: []requests{
+			{
+				modelName:       "m10",
+				targetModelName: "t10",
+				receivedTime: timeBaseline.Add(time.Millisecond * 10),
+				completeTime: timeBaseline,
+			}},
+			invalid: true,
+	}}
+	Register()
+	for _, scenario := range scenarios {
+		t.Run(scenario.name, func(t *testing.T) {
+			for _, req := range scenario.reqs {
+				success := RecordRequestLatencies(req.modelName, req.targetModelName, req.receivedTime, req.completeTime)
+				if success == scenario.invalid {
+					t.Errorf("got record success(%v), but the request expects invalid(%v)", success, scenario.invalid)
+				}
+			}
+
+			wantRequestLatencies, err := os.Open("testdata/request_duration_seconds_metric")
 			defer func() {
-				if err := wantRequestSizes.Close(); err != nil {
+				if err := wantRequestLatencies.Close(); err != nil {
 					t.Error(err)
 				}
 			}()
 			if err != nil {
 				t.Fatal(err)
 			}
-			if err := testutil.GatherAndCompare(legacyregistry.DefaultGatherer, wantRequestSizes, RequestSizesMetric); err != nil {
+			if err := testutil.GatherAndCompare(legacyregistry.DefaultGatherer, wantRequestLatencies, RequestLatenciesMetric); err != nil {
 				t.Error(err)
 			}
-
 		})
 	}
-}
+}
diff --git a/pkg/manifests/ext_proc.yaml b/pkg/manifests/ext_proc.yaml
@@ -95,6 +95,7 @@ spec:
         request:
           body: Buffered
         response:
+          body: Buffered
       # The timeouts are likely not needed here. We can experiment with removing/tuning them slowly.
       # The connection limits are more important and will cause the opaque: ext_proc_gRPC_error_14 error in Envoy GW if not configured correctly. 
       messageTimeout: 1000s