Add priority based scheduling (kubernetes-sigs#25)

liu-cong · kfswain · commit e466ea2276e0 · 2024-10-28T06:34:46.000Z
* Add priority based scheduling

* Use the least kv cache for sheddable requests when there is capacity
diff --git a/pkg/ext-proc/backend/vllm/metrics.go b/pkg/ext-proc/backend/vllm/metrics.go
@@ -85,18 +85,21 @@ func promToPodMetrics(metricFamilies map[string]*dto.MetricFamily, existing *bac
 	}
 	*/
 
+	// TODO(https://github.com/kubernetes-sigs/llm-instance-gateway/issues/22): Read from vLLM metrics once the is available.
+	updated.MaxActiveModels = 4
+
 	// Update active loras
 	mf, ok := metricFamilies[ActiveLoRAAdaptersMetricName]
 	if ok {
 		// IMPORTANT: replace the map entries instead of appending to it.
-		updated.CachedModels = make(map[string]int)
+		updated.ActiveModels = make(map[string]int)
 		for _, metric := range mf.GetMetric() {
 			for _, label := range metric.GetLabel() {
 				if label.GetName() == "active_adapters" {
 					if label.GetValue() != "" {
 						adapterList := strings.Split(label.GetValue(), ",")
 						for _, adapter := range adapterList {
-							updated.CachedModels[adapter] = 0
+							updated.ActiveModels[adapter] = 0
 						}
 					}
 				}

Original file line number	Diff line number	Diff line change
`@@ -85,18 +85,21 @@ func promToPodMetrics(metricFamilies map[string]dto.MetricFamily, existing bac`
`85`	`85`	`}`
`86`	`86`	`*/`
`87`	`87`
	`88`	`+ // TODO(https://github.com/kubernetes-sigs/llm-instance-gateway/issues/22): Read from vLLM metrics once the is available.`
	`89`	`+ updated.MaxActiveModels = 4`
	`90`	`+`
`88`	`91`	`// Update active loras`
`89`	`92`	`mf, ok := metricFamilies[ActiveLoRAAdaptersMetricName]`
`90`	`93`	`if ok {`
`91`	`94`	`// IMPORTANT: replace the map entries instead of appending to it.`
`92`		`- updated.CachedModels = make(map[string]int)`
	`95`	`+ updated.ActiveModels = make(map[string]int)`
`93`	`96`	`for _, metric := range mf.GetMetric() {`
`94`	`97`	`for _, label := range metric.GetLabel() {`
`95`	`98`	`if label.GetName() == "active_adapters" {`
`96`	`99`	`if label.GetValue() != "" {`
`97`	`100`	`adapterList := strings.Split(label.GetValue(), ",")`
`98`	`101`	`for _, adapter := range adapterList {`
`99`		`- updated.CachedModels[adapter] = 0`
	`102`	`+ updated.ActiveModels[adapter] = 0`
`100`	`103`	`}`
`101`	`104`	`}`
`102`	`105`	`}`