add ROCm dockerfile (opendatahub-io#205)

dtrifiro · web-flow · commit 1e358ffe2090 · 2025-04-28T18:13:49.000+02:00
- remove build steps/dependencies
- allow for installing pre-built flash-attention/vllm wheels
- default ROCM_VERSION to 6.3.4, allowing ovverride with env vars
- cleanup rocm docker bake, defaults
- amdsmi: use setup.py to build
- add amdsmi bind mount
- remove flashinfer from rocm target
- bump vllm-tgis-adapter to 0.7.0
- Dockerfile*.ubi: bump ubi base
diff --git a/Dockerfile.rocm.ubi b/Dockerfile.rocm.ubi
@@ -0,0 +1,173 @@
+## Global Args ##################################################################
+ARG BASE_UBI_IMAGE_TAG=9.5-1742914212
+ARG PYTHON_VERSION=3.12
+ARG VLLM_TGIS_ADAPTER_VERSION=0.7.0
+
+FROM registry.access.redhat.com/ubi9/ubi-minimal:${BASE_UBI_IMAGE_TAG} AS base
+
+ARG PYTHON_VERSION
+
+ENV VIRTUAL_ENV=/opt/vllm
+ENV PATH="$VIRTUAL_ENV/bin:$PATH"
+
+RUN --mount=type=cache,target=/root/.cache/pip \
+ microdnf -y update && \
+ microdnf install -y --setopt=install_weak_deps=0 --nodocs \
+    python${PYTHON_VERSION}-devel \
+    python${PYTHON_VERSION}-pip \
+    python${PYTHON_VERSION}-wheel && \
+    python${PYTHON_VERSION} -m venv $VIRTUAL_ENV && \
+    pip install -U pip wheel setuptools uv && \
+ microdnf clean all
+
+
+FROM base AS rocm_base
+ARG ROCM_VERSION=6.3.4
+ARG PYTHON_VERSION
+ARG BASE_UBI_IMAGE_TAG
+
+RUN printf "[amdgpu]\n\
+name=amdgpu\n\
+baseurl=https://repo.radeon.com/amdgpu/${ROCM_VERSION}/rhel/${BASE_UBI_IMAGE_TAG/-*/}/main/x86_64/\n\
+enabled=1\n\
+priority=50\n\
+gpgcheck=1\n\
+gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key\n\
+[ROCm-${ROCM_VERSION}]\n\
+name=ROCm${ROCM_VERSION}\n\
+baseurl=https://repo.radeon.com/rocm/rhel9/${ROCM_VERSION}/main\n\
+enabled=1\n\
+priority=50\n\
+gpgcheck=1\n\
+gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key" > /etc/yum.repos.d/amdgpu.repo
+
+
+RUN --mount=type=cache,target=/root/.cache/uv \
+    export version="$(awk -F. '{print $1"."$2}' <<< $ROCM_VERSION)" && \
+    uv pip install --pre \
+        --index-url "https://download.pytorch.org/whl/nightly/rocm${version}" \
+        torch==2.7.0.dev20250308+rocm${version}\
+        torchvision==0.22.0.dev20250308+rocm${version} && \
+    # Install libdrm-amdgpu to avoid errors when retrieving device information (amdgpu.ids: No such file or directory)
+    microdnf install -y --nodocs libdrm-amdgpu && \
+    microdnf clean all
+
+
+ENV LD_LIBRARY_PATH="$VIRTUAL_ENV/lib/python${PYTHON_VERSION}/site-packages/numpy.libs:$LD_LIBRARY_PATH"
+ENV LD_LIBRARY_PATH="$VIRTUAL_ENV/lib/python${PYTHON_VERSION}/site-packages/pillow.libs:$LD_LIBRARY_PATH"
+ENV LD_LIBRARY_PATH="$VIRTUAL_ENV/lib/python${PYTHON_VERSION}/site-packages/triton/backends/amd/lib:$LD_LIBRARY_PATH"
+ENV LD_LIBRARY_PATH="$VIRTUAL_ENV/lib/python${PYTHON_VERSION}/site-packages/torch/lib:$LD_LIBRARY_PATH"
+
+RUN echo $LD_LIBRARY_PATH | tr : \\n >> /etc/ld.so.conf.d/torch-venv.conf && \
+    ldconfig
+
+FROM rocm_base as build_amdsmi
+
+RUN microdnf -y install \
+    amd-smi-lib && \
+    microdnf clean all
+
+WORKDIR /opt/rocm/share/amd_smi
+
+RUN python setup.py bdist_wheel --dist-dir=/dist/
+
+#################### libsodium Build IMAGE ####################
+FROM rocm_base as libsodium-builder
+
+RUN microdnf install -y --nodocs gcc gzip tar \
+    && microdnf clean all
+
+WORKDIR /usr/src/libsodium
+
+ARG LIBSODIUM_VERSION=1.0.20
+RUN curl -LO https://github.com/jedisct1/libsodium/releases/download/${LIBSODIUM_VERSION}-RELEASE/libsodium-${LIBSODIUM_VERSION}.tar.gz \
+    && tar -xzvf libsodium*.tar.gz \
+    && rm -f libsodium*.tar.gz \
+    && mv libsodium*/* ./
+
+RUN CFLAGS="-O3 -Wall -Werror=format-security -Wno-unused-function -Wp,-D_GLIBCXX_ASSERTIONS -fstack-protector-strong -fstack-clash-protection -fcf-protection" \
+    ./configure \
+        --prefix="/usr/" \
+        --libdir=/usr/lib64 && \
+    make -j $(nproc) && \
+    make check
+
+##################################################################################################
+
+FROM rocm_base AS vllm-openai
+ARG FLASH_ATTENTION_WHEEL_STRATEGY
+ARG VLLM_WHEEL_STRATEGY
+
+WORKDIR /workspace
+
+ENV VIRTUAL_ENV=/opt/vllm
+ENV PATH=$VIRTUAL_ENV/bin:$PATH
+
+# Required for triton
+RUN microdnf install -y --setopt=install_weak_deps=0 --nodocs gcc rsync && \
+    microdnf clean all
+
+# Install libsodium for Tensorizer encryption
+RUN --mount=type=bind,from=libsodium-builder,src=/usr/src/libsodium,target=/usr/src/libsodium \
+     make -C /usr/src/libsodium install
+
+RUN --mount=type=bind,from=build_amdsmi,src=/dist,target=/install/amdsmi/ \
+    --mount=type=cache,target=/root/.cache/uv \
+    --mount=type=bind,src=payload,target=/workspace/payload \
+    ./payload/run.sh
+
+ENV HF_HUB_OFFLINE=1 \
+    HOME=/home/vllm \
+    # Allow requested max length to exceed what is extracted from the
+    # config.json
+    # see: https://github.com/vllm-project/vllm/pull/7080
+    VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
+    VLLM_USAGE_SOURCE=production-docker-image \
+    VLLM_WORKER_MULTIPROC_METHOD=fork \
+    VLLM_NO_USAGE_STATS=1 \
+    # Silences the HF Tokenizers warning
+    TOKENIZERS_PARALLELISM=false  \
+    RAY_EXPERIMENTAL_NOSET_ROCR_VISIBLE_DEVICES=1 \
+    VLLM_USE_TRITON_FLASH_ATTN=0 \
+    HIP_FORCE_DEV_KERNARG=1 \
+    OUTLINES_CACHE_DIR=/tmp/outlines \
+    NUMBA_CACHE_DIR=/tmp/numba \
+    TRITON_CACHE_DIR=/tmp/triton
+
+# setup non-root user for OpenShift
+RUN umask 002 && \
+    useradd --uid 2000 --gid 0 vllm && \
+    mkdir -p /licenses /home/vllm && \
+    chmod g+rwx /home/vllm
+
+COPY LICENSE /licenses/vllm.md
+COPY examples/*.jinja /app/data/template/
+
+USER 2000
+WORKDIR /home/vllm
+
+ENTRYPOINT ["python3", "-m", "vllm.entrypoints.openai.api_server"]
+
+
+FROM vllm-openai as vllm-grpc-adapter
+ARG VLLM_TGIS_ADAPTER_VERSION
+
+USER root
+
+RUN --mount=type=bind,from=build_amdsmi,src=/dist,target=/install/amdsmi/ \
+    --mount=type=cache,target=/root/.cache/uv \
+    --mount=type=bind,src=payload,target=/workspace/payload \
+    cd /workspace && \
+    env HOME=/root VLLM_TGIS_ADAPTER_VERSION=${VLLM_TGIS_ADAPTER_VERSION} \
+        ./payload/run.sh
+
+ENV GRPC_PORT=8033 \
+    PORT=8000 \
+    # As an optimization, vLLM disables logprobs when using spec decoding by
+    # default, but this would be unexpected to users of a hosted model that
+    # happens to have spec decoding
+    # see: https://github.com/vllm-project/vllm/pull/6485
+    DISABLE_LOGPROBS_DURING_SPEC_DECODING=false
+
+USER 2000
+ENTRYPOINT ["python3", "-m", "vllm_tgis_adapter", "--uvicorn-log-level=warning"]
diff --git a/docker-bake.hcl b/docker-bake.hcl
@@ -2,20 +2,33 @@ variable "REPOSITORY" {
   default = "quay.io/vllm/vllm"
 }
 
-# GITHUB_* variables are only available in github actions
+# GITHUB_* variables are set as env vars in github actions
 variable "GITHUB_SHA" {}
 variable "GITHUB_REPOSITORY" {}
 variable "GITHUB_RUN_ID" {}
 
-variable "VLLM_VERSION" {} # set by github actions or manually?
+variable "VLLM_VERSION" {}
+
+variable "PYTHON_VERSION" {
+  default = "3.12"
+}
+
+variable "ROCM_VERSION" {
+  default = "6.3.4"
+}
+
+variable "VLLM_TGIS_ADAPTER_VERSION" {
+  default = "0.7.0"
+}
+
 
 target "docker-metadata-action" {} // populated by gha docker/metadata-action
 
 target "_common" {
   context = "."
 
   args = {
-    BASE_UBI_IMAGE_TAG = "9.5-1736404155"
+    BASE_UBI_IMAGE_TAG = "9.5-1742914212"
     PYTHON_VERSION = "3.12"
   }
 
@@ -34,6 +47,7 @@ target "_common" {
 group "default" {
   targets = [
     "cuda",
+    "rocm",
   ]
 }
 
@@ -42,11 +56,10 @@ target "cuda" {
   dockerfile = "Dockerfile.ubi"
 
   args = {
-    BASE_UBI_IMAGE_TAG = "9.5-1739420147"
-    PYTHON_VERSION = "3.12"
+    PYTHON_VERSION = "${PYTHON_VERSION}"
     # CUDA_VERSION = "12.4" # TODO: the dockerfile cannot consume the cuda version
     LIBSODIUM_VERSION = "1.0.20"
-    VLLM_TGIS_ADAPTER_VERSION = "0.7.0"
+    VLLM_TGIS_ADAPTER_VERSION = "${VLLM_TGIS_ADAPTER_VERSION}"
 
     FLASHINFER_VERSION = "https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.1.post2/flashinfer_python-0.2.1.post2+cu124torch2.6-cp38-abi3-linux_x86_64.whl"
   }
@@ -57,3 +70,21 @@ target "cuda" {
     "${REPOSITORY}:${formatdate("YYYY-MM-DD-hh-mm", timestamp())}"
   ]
 }
+
+target "rocm" {
+  inherits = ["_common"]
+  dockerfile = "Dockerfile.rocm.ubi"
+
+  args = {
+    PYTHON_VERSION = "${PYTHON_VERSION}"
+    ROCM_VERSION = "${ROCM_VERSION}"
+    LIBSODIUM_VERSION = "1.0.20"
+    VLLM_TGIS_ADAPTER_VERSION = "${VLLM_TGIS_ADAPTER_VERSION}"
+  }
+
+  tags = [
+    "${REPOSITORY}:${replace(VLLM_VERSION, "+", "_")}", # vllm_version might contain local version specifiers (+) which are not valid tags
+    "${REPOSITORY}:${GITHUB_SHA}",
+    "${REPOSITORY}:${formatdate("YYYY-MM-DD-hh-mm", timestamp())}"
+  ]
+}