Dockerfile.rocm.ubi: improvements

dtrifiro · dtrifiro · commit ae418bdab62f · 2025-04-28T15:51:13.000+02:00
- remove build steps/dependencies
- allow for installing pre-built flash-attention/vllm wheels
- default ROCM_VERSION to 6.3.4, allowing ovverride with env vars
- cleanup rocm docker bake, defaults
- amdsmi: use setup.py to build
- add amdsmi bind mount
- remove flashinfer from rocm target
- bump vllm-tgis-adapter to 0.7.0
- Dockerfile*.ubi: bump ubi base
diff --git a/Dockerfile.rocm.ubi b/Dockerfile.rocm.ubi
@@ -1,9 +1,7 @@
 ## Global Args ##################################################################
-ARG BASE_UBI_IMAGE_TAG=9.5-1741850109
+ARG BASE_UBI_IMAGE_TAG=9.5-1742914212
 ARG PYTHON_VERSION=3.12
-# Default ROCm ARCHes to build vLLM for.
-ARG PYTORCH_ROCM_ARCH="gfx908;gfx90a;gfx942;gfx1100"
-ARG MAX_JOBS=12
+ARG VLLM_TGIS_ADAPTER_VERSION=0.7.0
 
 FROM registry.access.redhat.com/ubi9/ubi-minimal:${BASE_UBI_IMAGE_TAG} AS base
 
@@ -44,8 +42,7 @@ gpgcheck=1\n\
 gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key" > /etc/yum.repos.d/amdgpu.repo
 
 
-RUN --mount=type=cache,target=/root/.cache/pip \
-    --mount=type=cache,target=/root/.cache/uv \
+RUN --mount=type=cache,target=/root/.cache/uv \
     export version="$(awk -F. '{print $1"."$2}' <<< $ROCM_VERSION)" && \
     uv pip install --pre \
         --index-url "https://download.pytorch.org/whl/nightly/rocm${version}" \
@@ -64,101 +61,15 @@ ENV LD_LIBRARY_PATH="$VIRTUAL_ENV/lib/python${PYTHON_VERSION}/site-packages/torc
 RUN echo $LD_LIBRARY_PATH | tr : \\n >> /etc/ld.so.conf.d/torch-venv.conf && \
     ldconfig
 
-FROM rocm_base as rocm_devel
-
-ENV CCACHE_DIR=/root/.cache/ccache
-
-RUN rpm -ivh https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm && \
-    rpm -ql epel-release && \
-    microdnf -y update && \
-    microdnf --nodocs -y install \
-        ccache \
-        git \
-        # packages required to build vllm
-        amd-smi-lib \
-        hipblas-devel \
-        hipblaslt-devel \
-        hipcc \
-        hipcub-devel \
-        hipfft-devel \
-        hiprand-devel \
-        hipsolver-devel \
-        hipsparse-devel \
-        hsa-rocr-devel \
-        miopen-hip-devel \
-        rccl-devel \
-        rocblas-devel \
-        rocm-device-libs \
-        rocprim-devel \
-        rocrand-devel \
-        rocthrust-devel \
-        # end packages required to build vllm
-        wget \
-        which && \
-    microdnf clean all
-
-WORKDIR /workspace
-
-ENV LLVM_SYMBOLIZER_PATH=/opt/rocm/llvm/bin/llvm-symbolizer
-ENV PATH=$PATH:/opt/rocm/bin
-ENV CPLUS_INCLUDE_PATH=$VIRTUAL_ENV/lib/python${PYTHON_VERSION}/site-packages/torch/include:/opt/rocm/include
-
-
-FROM rocm_devel AS build_amdsmi
-
-# Build AMD SMI wheel
-RUN cd /opt/rocm/share/amd_smi && \
-    python3 -m pip wheel . --wheel-dir=/install
-
-##################################################################################################
-
-FROM rocm_devel AS build_flashattention
+FROM rocm_base as build_amdsmi
 
-ARG FA_GFX_ARCHS="gfx90a;gfx942"
-
-# the FA_BRANCH commit belongs to the ROCm/flash-attention fork, `main_perf` branch
-ARG FA_BRANCH="3cea2fb"
-ARG MAX_JOBS
-ENV MAX_JOBS=${MAX_JOBS}
-
-RUN --mount=type=cache,target=/root/.cache/uv \
-    --mount=type=cache,target=/workspace/build \
-    mkdir -p /libs && \
-    cd /libs && \
-    git clone https://github.com/ROCm/flash-attention.git && \
-    cd flash-attention && \
-    git checkout ${FA_BRANCH} && \
-    git submodule update --init && \
-    uv pip install cmake ninja packaging && \
-    env \
-        GPU_ARCHS="${FA_GFX_ARCHS}" \
-        python3 setup.py bdist_wheel --dist-dir=/install
-
-##################################################################################################
-
-FROM rocm_devel AS build_vllm
-ARG PYTORCH_ROCM_ARCH
-ARG PYTHON_VERSION
-ARG MAX_JOBS
-ENV MAX_JOBS=${MAX_JOBS}
-ENV PYTORCH_ROCM_ARCH=${PYTORCH_ROCM_ARCH}
-
-COPY . .
+RUN microdnf -y install \
+    amd-smi-lib && \
+    microdnf clean all
 
-ENV VLLM_TARGET_DEVICE="rocm"
-ENV MAX_JOBS=${MAX_JOBS}
-# Make sure punica kernels are built (for LoRA)
-ENV VLLM_INSTALL_PUNICA_KERNELS=1
+WORKDIR /opt/rocm/share/amd_smi
 
-RUN --mount=type=cache,target=/root/.cache/ccache \
-    --mount=type=cache,target=/root/.cache/pip \
-    --mount=type=cache,target=/root/.cache/uv \
-    uv pip install -v -U \
-        ninja setuptools-scm>=8 "cmake>=3.26" packaging && \
-    env CFLAGS="-march=haswell" \
-        CXXFLAGS="$CFLAGS $CXXFLAGS" \
-        CMAKE_BUILD_TYPE=Release \
-    python3 setup.py bdist_wheel --dist-dir=dist
+RUN python setup.py bdist_wheel --dist-dir=/dist/
 
 #################### libsodium Build IMAGE ####################
 FROM rocm_base as libsodium-builder
@@ -184,7 +95,8 @@ RUN CFLAGS="-O3 -Wall -Werror=format-security -Wno-unused-function -Wp,-D_GLIBCX
 ##################################################################################################
 
 FROM rocm_base AS vllm-openai
-ARG MAX_JOBS
+ARG FLASH_ATTENTION_WHEEL_STRATEGY
+ARG VLLM_WHEEL_STRATEGY
 
 WORKDIR /workspace
 
@@ -197,21 +109,12 @@ RUN microdnf install -y --setopt=install_weak_deps=0 --nodocs gcc rsync && \
 
 # Install libsodium for Tensorizer encryption
 RUN --mount=type=bind,from=libsodium-builder,src=/usr/src/libsodium,target=/usr/src/libsodium \
-    cd /usr/src/libsodium \
-    && make install
+     make -C /usr/src/libsodium install
 
-RUN --mount=type=bind,from=build_amdsmi,src=/install,target=/install/amdsmi/ \
-    --mount=type=bind,from=build_flashattention,src=/install,target=/install/flashattention \
-    --mount=type=bind,from=build_vllm,src=/workspace/dist,target=/install/vllm/ \
-    --mount=type=cache,target=/root/.cache/pip \
+RUN --mount=type=bind,from=build_amdsmi,src=/dist,target=/install/amdsmi/ \
     --mount=type=cache,target=/root/.cache/uv \
-    export version="$(awk -F. '{print $1"."$2}' <<< $ROCM_VERSION)" && \
-    uv pip install \
-        --index-strategy=unsafe-best-match \
-        --extra-index-url "https://download.pytorch.org/whl/nightly/rocm${version}" \
-        /install/amdsmi/*.whl\
-        /install/flashattention/*.whl\
-        /install/vllm/*.whl
+    --mount=type=bind,src=payload,target=/workspace/payload \
+    ./payload/run.sh
 
 ENV HF_HUB_OFFLINE=1 \
     HOME=/home/vllm \
@@ -247,13 +150,16 @@ ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server"]
 
 
 FROM vllm-openai as vllm-grpc-adapter
+ARG VLLM_TGIS_ADAPTER_VERSION
 
 USER root
 
-RUN --mount=type=cache,target=/root/.cache/pip \
+RUN --mount=type=bind,from=build_amdsmi,src=/dist,target=/install/amdsmi/ \
     --mount=type=cache,target=/root/.cache/uv \
-    --mount=type=bind,from=build_vllm,src=/workspace/dist,target=/install/vllm/ \
-    HOME=/root uv pip install /install/vllm/*.whl vllm-tgis-adapter==0.6.3
+    --mount=type=bind,src=payload,target=/workspace/payload \
+    cd /workspace && \
+    env HOME=/root VLLM_TGIS_ADAPTER_VERSION=${VLLM_TGIS_ADAPTER_VERSION} \
+        ./payload/run.sh
 
 ENV GRPC_PORT=8033 \
     PORT=8000 \
diff --git a/docker-bake.hcl b/docker-bake.hcl
@@ -2,20 +2,33 @@ variable "REPOSITORY" {
   default = "quay.io/vllm/vllm"
 }
 
-# GITHUB_* variables are only available in github actions
+# GITHUB_* variables are set as env vars in github actions
 variable "GITHUB_SHA" {}
 variable "GITHUB_REPOSITORY" {}
 variable "GITHUB_RUN_ID" {}
 
-variable "VLLM_VERSION" {} # set by github actions or manually?
+variable "VLLM_VERSION" {}
+
+variable "PYTHON_VERSION" {
+  default = "3.12"
+}
+
+variable "ROCM_VERSION" {
+  default = "6.3.4"
+}
+
+variable "VLLM_TGIS_ADAPTER_VERSION" {
+  default = "0.7.0"
+}
+
 
 target "docker-metadata-action" {} // populated by gha docker/metadata-action
 
 target "_common" {
   context = "."
 
   args = {
-    BASE_UBI_IMAGE_TAG = "9.5-1736404155"
+    BASE_UBI_IMAGE_TAG = "9.5-1742914212"
     PYTHON_VERSION = "3.12"
   }
 
@@ -34,6 +47,7 @@ target "_common" {
 group "default" {
   targets = [
     "cuda",
+    "rocm",
   ]
 }
 
@@ -42,11 +56,10 @@ target "cuda" {
   dockerfile = "Dockerfile.ubi"
 
   args = {
-    BASE_UBI_IMAGE_TAG = "9.5-1739420147"
-    PYTHON_VERSION = "3.12"
+    PYTHON_VERSION = "${PYTHON_VERSION}"
     # CUDA_VERSION = "12.4" # TODO: the dockerfile cannot consume the cuda version
     LIBSODIUM_VERSION = "1.0.20"
-    VLLM_TGIS_ADAPTER_VERSION = "0.7.0"
+    VLLM_TGIS_ADAPTER_VERSION = "${VLLM_TGIS_ADAPTER_VERSION}"
 
     FLASHINFER_VERSION = "https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.1.post2/flashinfer_python-0.2.1.post2+cu124torch2.6-cp38-abi3-linux_x86_64.whl"
   }
@@ -57,3 +70,21 @@ target "cuda" {
     "${REPOSITORY}:${formatdate("YYYY-MM-DD-hh-mm", timestamp())}"
   ]
 }
+
+target "rocm" {
+  inherits = ["_common"]
+  dockerfile = "Dockerfile.rocm.ubi"
+
+  args = {
+    PYTHON_VERSION = "${PYTHON_VERSION}"
+    ROCM_VERSION = "${ROCM_VERSION}"
+    LIBSODIUM_VERSION = "1.0.20"
+    VLLM_TGIS_ADAPTER_VERSION = "${VLLM_TGIS_ADAPTER_VERSION}"
+  }
+
+  tags = [
+    "${REPOSITORY}:${replace(VLLM_VERSION, "+", "_")}", # vllm_version might contain local version specifiers (+) which are not valid tags
+    "${REPOSITORY}:${GITHUB_SHA}",
+    "${REPOSITORY}:${formatdate("YYYY-MM-DD-hh-mm", timestamp())}"
+  ]
+}