NVIDIA
diff --git a/‎tensorrt_llm/commands/serve.py
+3-1 b/‎tensorrt_llm/commands/serve.py
+3-1
diff --git a/‎tensorrt_llm/llmapi/disagg_utils.py
+7-1 b/‎tensorrt_llm/llmapi/disagg_utils.py
+7-1
diff --git a/‎tensorrt_llm/serve/openai_disagg_server.py
+57-40 b/‎tensorrt_llm/serve/openai_disagg_server.py
+57-40
diff --git a/‎tensorrt_llm/serve/router.py
+177 b/‎tensorrt_llm/serve/router.py
+177
diff --git a/‎tests/integration/defs/disaggregated/test_configs/disagg_config_load_balance.yaml
+39 b/‎tests/integration/defs/disaggregated/test_configs/disagg_config_load_balance.yaml
+39
@@ -253,7 +253,9 @@ def disaggregated(config_file: Optional[str], server_start_timeout: int,
     server = OpenAIDisaggServer(ctx_servers=ctx_server_urls,
                                 gen_servers=gen_server_urls,
                                 req_timeout_secs=request_timeout,
-                                server_start_timeout_secs=server_start_timeout)
+                                server_start_timeout_secs=server_start_timeout,
+                                ctx_router_type=disagg_cfg.ctx_router_type,
+                                gen_router_type=disagg_cfg.gen_router_type)
 
     asyncio.run(server(disagg_cfg.hostname, disagg_cfg.port))
 
 
@@ -29,6 +29,8 @@ class DisaggServerConfig():
     server_configs: List[CtxGenServerConfig]
     hostname: str = "localhost"
     port: int = 8000
+    ctx_router_type: str = "round_robin"
+    gen_router_type: str = "round_robin"
 
 
 def parse_disagg_config_file(yaml_config_file: str):
@@ -68,7 +70,11 @@ def extract_disagg_cfg(hostname: str = 'localhost',
         type="ctx", **context_servers) + extract_ctx_gen_cfgs(
             type="gen", **generation_servers)
 
-    return DisaggServerConfig(server_configs, hostname, port)
+    ctx_router_type = context_servers.get("router_type", "round_robin")
+    gen_router_type = generation_servers.get("router_type", "round_robin")
+
+    return DisaggServerConfig(server_configs, hostname, port, ctx_router_type,
+                              gen_router_type)
 
 
 def extract_ctx_gen_cfgs(type: Literal['ctx', 'gen'],
 
@@ -23,6 +23,7 @@
                                                 CompletionResponse,
                                                 DisaggregatedParams,
                                                 ErrorResponse)
+from tensorrt_llm.serve.router import create_router
 from tensorrt_llm.version import __version__ as VERSION
 
 logging.basicConfig(level=logging.INFO)
@@ -36,11 +37,16 @@ def __init__(self,
                  ctx_servers: List[str] = None,
                  gen_servers: List[str] = None,
                  req_timeout_secs: int = 180,
-                 server_start_timeout_secs: int = 180):
+                 server_start_timeout_secs: int = 180,
+                 ctx_router_type: str = "round_robin",
+                 gen_router_type: str = "round_robin"):
+
         self.ctx_servers = ctx_servers
         self.gen_servers = gen_servers
         self.ctx_server_idx = 0
         self.gen_server_idx = 0
+        self.ctx_router = create_router(ctx_router_type, ctx_servers)
+        self.gen_router = create_router(gen_router_type, gen_servers)
 
         if (len(self.gen_servers) == 0):
             raise ValueError("At least one generation server must be provided")
@@ -97,24 +103,28 @@ async def version(self) -> JSONResponse:
     async def merge_streaming_responses(self, ctx_response,
                                         gen_server: str,
                                         gen_req: Union[CompletionRequest, ChatCompletionRequest]):
-        # First yield the context response if it's not None
-        if ctx_response is not None:
-            # Remove the disaggregated params from the context response
-            data = ctx_response.model_dump()
-            del data['choices'][0]['disaggregated_params']
-            data = json.dumps(data)
-            yield f"data: {data}\n\n".encode('utf-8')
-
-        # Then yield the generation responses
-        if isinstance(gen_req, CompletionRequest):
-            gen_response = await self.send_completion_request(gen_server, gen_req)
-        elif isinstance(gen_req, ChatCompletionRequest):
-            gen_response = await self.send_chat_request(gen_server, gen_req)
-        else:
-            raise TypeError("Invalid request type: {type(gen_req).__name__}")
+        try:
+            # First yield the context response if it's not None
+            if ctx_response is not None:
+                # Remove the disaggregated params from the context response
+                data = ctx_response.model_dump()
+                del data['choices'][0]['disaggregated_params']
+                data = json.dumps(data)
+                yield f"data: {data}\n\n".encode('utf-8')
+
+            # Then yield the generation responses
+            if isinstance(gen_req, CompletionRequest):
+                gen_response = await self.send_completion_request(gen_server, gen_req)
+            elif isinstance(gen_req, ChatCompletionRequest):
+                gen_response = await self.send_chat_request(gen_server, gen_req)
+            else:
+                raise TypeError("Invalid request type: {type(gen_req).__name__}")
 
-        async for chunk in gen_response.body_iterator:
-            yield chunk
+            async for chunk in gen_response.body_iterator:
+                yield chunk
+
+        finally:
+            await self.gen_router.finish_request(gen_req)
 
     async def openai_completion(self, req: CompletionRequest) -> Response:
         try:
@@ -158,21 +168,25 @@ async def _process_context_server_request(self, ctx_req, request_type: str):
         if os.getenv("TRTLLM_DISAGG_BENCHMARK_GEN_ONLY") == "1":
             return None
 
-        ctx_server = self.get_next_server(self.ctx_servers, "context")
-        logging.info("Sending request to ctx server: %s", ctx_server)
-
-        if request_type == "chat":
-            ctx_req.max_completion_tokens = 1
-        elif request_type == "completion":
-            ctx_req.max_tokens = 1
-        ctx_req.disaggregated_params = DisaggregatedParams(request_type="context_only")
-        ctx_req.stream = False
-        ctx_req.stream_options = None
-
-        if request_type == "chat":
-            return await self.send_chat_request(ctx_server, ctx_req)
-        elif request_type == "completion":
-            return await self.send_completion_request(ctx_server, ctx_req)
+        try:
+            if request_type == "chat":
+                ctx_req.max_completion_tokens = 1
+            elif request_type == "completion":
+                ctx_req.max_tokens = 1
+            ctx_req.disaggregated_params = DisaggregatedParams(request_type="context_only")
+            ctx_req.stream = False
+            ctx_req.stream_options = None
+
+            ctx_server = await self.ctx_router.get_next_server(ctx_req)
+            logging.info("Sending request to ctx server: %s", ctx_server)
+
+            if request_type == "chat":
+                response = await self.send_chat_request(ctx_server, ctx_req)
+            else:
+                response = await self.send_completion_request(ctx_server, ctx_req)
+            return response  # Don't forget to return the response if needed
+        finally:
+            await self.ctx_router.finish_request(ctx_req)
 
     async def _process_generation_server_request(self, gen_req, ctx_response):
         if os.getenv("TRTLLM_DISAGG_BENCHMARK_GEN_ONLY") == "1":
@@ -192,16 +206,19 @@ async def _process_generation_server_request(self, gen_req, ctx_response):
         gen_req.disaggregated_params.request_type = "generation_only"
 
         # Pick a generation server and send request
-        gen_server = self.get_next_server(self.gen_servers, "generation")
+        gen_server = await self.gen_router.get_next_server(gen_req)
         logging.info("Sending request to gen server: %s", gen_server)
 
         if not gen_req.stream:
-            if isinstance(gen_req, CompletionRequest):
-                gen_response = await self.send_completion_request(gen_server, gen_req)
-            elif isinstance(gen_req, ChatCompletionRequest):
-                gen_response = await self.send_chat_request(gen_server, gen_req)
-
-            return gen_response
+            try:
+                if isinstance(gen_req, CompletionRequest):
+                    gen_response = await self.send_completion_request(gen_server, gen_req)
+                elif isinstance(gen_req, ChatCompletionRequest):
+                    gen_response = await self.send_chat_request(gen_server, gen_req)
+
+                return gen_response
+            finally:
+                await self.gen_router.finish_request(gen_req)
         else:
             # Return a streaming response that combines both context and generation responses
             return StreamingResponse(
 
@@ -0,0 +1,177 @@
+import asyncio
+import heapq
+from abc import ABC, abstractmethod
+from typing import List, Union
+
+from tensorrt_llm.serve.openai_protocol import (ChatCompletionRequest,
+                                                CompletionRequest)
+
+
+def get_request_num_tokens(
+        request: Union[CompletionRequest, ChatCompletionRequest]) -> int:
+    if request.disaggregated_params.request_type == "context_only":
+        if isinstance(request, ChatCompletionRequest):
+            raise ValueError(
+                "LoadBalancing router with tokens doesn't support ChatCompletionRequest yet"
+            )
+
+        if isinstance(request.prompt, str) or \
+            (isinstance(request.prompt, list) and isinstance(request.prompt[0], int)):
+            prompts = [request.prompt]
+        else:
+            prompts = request.prompt
+
+        num_tokens = sum(len(prompt) for prompt in prompts)
+    elif request.disaggregated_params.request_type == "generation_only":
+        raise ValueError(
+            "LoadBalancing router with tokens doesn't support generation_only requests"
+        )
+    else:
+        raise ValueError(
+            f"Unsupported request type: {request.disaggregated_params.request_type}"
+        )
+
+    return num_tokens
+
+
+class ServerState:
+
+    def __init__(self, server: str, use_tokens: bool = False):
+        self._server = server
+        self._num_active_requests = 0
+        self._num_active_tokens = 0
+        self._use_tokens = use_tokens
+        self._lock = asyncio.Lock()
+
+    async def increment_load(self, request: Union[CompletionRequest,
+                                                  ChatCompletionRequest]):
+        num_tokens = get_request_num_tokens(request) if self._use_tokens else 0
+        async with self._lock:
+            self._num_active_requests += 1
+            self._num_active_tokens += num_tokens
+
+    async def decrement_load(self, request: Union[CompletionRequest,
+                                                  ChatCompletionRequest]):
+        num_tokens = get_request_num_tokens(request) if self._use_tokens else 0
+        async with self._lock:
+            self._num_active_requests -= 1
+            self._num_active_tokens -= num_tokens
+
+
+class Router(ABC):
+
+    def __init__(self, servers: List[str] = None):
+        self._servers = servers
+
+    @abstractmethod
+    async def get_next_server(
+            self, request: Union[CompletionRequest,
+                                 ChatCompletionRequest]) -> str:
+        pass
+
+    @abstractmethod
+    async def finish_request(self, request: Union[CompletionRequest,
+                                                  ChatCompletionRequest]):
+        pass
+
+
+class RoundRobinRouter(Router):
+
+    def __init__(self, servers: List[str] = None):
+        super().__init__(servers)
+        self._server_idx = 0
+
+    async def get_next_server(
+            self, request: Union[CompletionRequest,
+                                 ChatCompletionRequest]) -> str:
+        server = self._servers[self._server_idx]
+        self._server_idx = (self._server_idx + 1) % len(self._servers)
+        return server
+
+    async def finish_request(self, request: Union[CompletionRequest,
+                                                  ChatCompletionRequest]):
+        pass
+
+
+class LoadBalancingRouter(Router):
+
+    def __init__(self, servers: List[str] = None, use_tokens: bool = False):
+        super().__init__(servers)
+        self._lock = asyncio.Lock()
+        # Load map between servers and their number of tokens processed
+        self._server_state = {}
+        self._server_load_heap = []
+
+        # Routing table to map requests to servers
+        self._req_routing_table = {}
+
+        self._use_tokens = use_tokens
+        self._init_heap()
+
+    def _init_heap(self):
+        for server in self._servers:
+            self._server_state[server] = ServerState(server, self._use_tokens)
+            heapq.heappush(self._server_load_heap,
+                           (self._get_server_load(server), server))
+
+    async def get_next_server(
+            self, request: Union[CompletionRequest,
+                                 ChatCompletionRequest]) -> str:
+        async with self._lock:
+            server = heapq.heappop(self._server_load_heap)[1]
+            await self._server_state[server].increment_load(request)
+            heapq.heappush(self._server_load_heap,
+                           (self._get_server_load(server), server))
+
+            self._req_routing_table[id(request)] = server
+
+        return server
+
+    def _get_server_load(self, server):
+        return self._server_state[server]._num_active_tokens if self._use_tokens \
+            else self._server_state[server]._num_active_requests
+
+    async def finish_request(self, request: Union[CompletionRequest,
+                                                  ChatCompletionRequest]):
+        async with self._lock:
+            server = self._req_routing_table[id(request)]
+            await self._server_state[server].decrement_load(request)
+            heapq.heappush(self._server_load_heap,
+                           (self._get_server_load(server), server))
+            del self._req_routing_table[id(request)]
+
+
+def create_router(router_type: str, servers: List[str]) -> Router:
+    """
+    Factory function to create different types of router instances.
+
+    Args:
+        router_type (str): Type of router to create. Supported values:
+            - "round_robin": Creates a RoundRobinRouter
+            - "requests_load_balancing": Creates a LoadBalancingRouter, which balances requests across instances
+            - "tokens_load_balancing": Creates a LoadBalancingRouter, which balances tokens across instances
+        servers: List of server URLs
+
+    Returns:
+        Router: An instance of the requested router type
+
+    Raises:
+        ValueError: If an unsupported router type is provided
+    """
+
+    router_map = {
+        "round_robin": RoundRobinRouter,
+        "requests_load_balancing": LoadBalancingRouter,
+        "tokens_load_balancing": LoadBalancingRouter
+    }
+
+    router_class = router_map.get(router_type.lower())
+    if router_class is None:
+        raise ValueError(f"Unsupported router type: {router_type}. "
+                         f"Supported types are: {list(router_map.keys())}")
+
+    if router_type.endswith("load_balancing"):
+        use_tokens = True if router_type.startswith("tokens") else False
+        return router_class(servers, use_tokens=use_tokens)
+    else:
+        return router_class(servers)
@@ -0,0 +1,39 @@
+model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
+hostname: localhost
+port: 8000
+backend: "pytorch"
+free_gpu_memory_fraction: 0.15
+context_servers:
+  num_instances: 2
+  router_type: tokens_load_balancing
+  max_batch_size: 1
+  max_num_tokens: 3000
+  max_seq_len: 4096
+  tensor_parallel_size: 1
+  pipeline_parallel_size: 1
+  kv_cache_config:
+    free_gpu_memory_fraction: 0.15
+    enable_partial_reuse: False
+  pytorch_backend_config:
+    use_cuda_graph: False
+    enable_overlap_scheduler: False
+  urls:
+      - "localhost:8001"
+      - "localhost:8002"
+generation_servers:
+  num_instances: 2
+  router_type: requests_load_balancing
+  tensor_parallel_size: 1
+  pipeline_parallel_size: 1
+  max_batch_size: 256
+  max_num_tokens: 4096
+  max_seq_len: 4096
+  kv_cache_config:
+    free_gpu_memory_fraction: 0.15
+    enable_partial_reuse: False
+  pytorch_backend_config:
+    use_cuda_graph: False
+    enable_overlap_scheduler: True
+  urls:
+      - "localhost:8003"
+      - "localhost:8004"