NVIDIA
diff --git a/‎cpp/CMakeLists.txt
+2-17 b/‎cpp/CMakeLists.txt
+2-17
diff --git a/‎cpp/kernels/xqa/CMakeLists.txt
+132 b/‎cpp/kernels/xqa/CMakeLists.txt
+132
diff --git a/‎cpp/kernels/xqa/README.md
+30 b/‎cpp/kernels/xqa/README.md
+30
diff --git a/‎cpp/kernels/xqa/RefChecker.cuh
+96 b/‎cpp/kernels/xqa/RefChecker.cuh
+96
@@ -51,23 +51,6 @@ else()
   message(STATUS "NVTX is enabled")
 endif()
 
-if(EXISTS
-   "${CMAKE_CURRENT_SOURCE_DIR}/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/decoderXQAImplJIT/nvrtcWrapper/CMakeLists.txt"
-)
-  set(BUILD_NVRTC_WRAPPER_DEFAULT ON)
-else()
-  set(BUILD_NVRTC_WRAPPER_DEFAULT OFF)
-endif()
-
-option(BUILD_NVRTC_WRAPPER "Build nvrtc wrapper from source"
-       ${BUILD_NVRTC_WRAPPER_DEFAULT})
-
-if(BUILD_NVRTC_WRAPPER)
-  message(STATUS "Building nvrtc wrapper")
-else()
-  message(STATUS "Importing nvrtc wrapper")
-endif()
-
 if(EXISTS
    "${CMAKE_CURRENT_SOURCE_DIR}/tensorrt_llm/kernels/internal_cutlass_kernels/CMakeLists.txt"
 )
@@ -154,6 +137,8 @@ set(CURAND_LIB CUDA::curand)
 set(CUDA_DRV_LIB CUDA::cuda_driver)
 set(CUDA_NVML_LIB CUDA::nvml)
 set(CUDA_RT_LIB CUDA::cudart_static)
+set(NVRTC_LIB CUDA::nvrtc_static)
+set(NVRTC_BUILTINS_LIB CUDA::nvrtc_builtins_static)
 set(CMAKE_CUDA_RUNTIME_LIBRARY Static)
 
 resolve_dirs(CUDAToolkit_INCLUDE_DIRS "${CUDAToolkit_INCLUDE_DIRS}")
 
@@ -0,0 +1,132 @@
+# SPDX-FileCopyrightText: Copyright (c) 2022-2024 NVIDIA CORPORATION &
+# AFFILIATES. All rights reserved. SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License"); you may not
+# use this file except in compliance with the License. You may obtain a copy of
+# the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
+# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
+# License for the specific language governing permissions and limitations under
+# the License.
+cmake_minimum_required(VERSION 3.18)
+project(xqa LANGUAGES CXX CUDA)
+
+set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
+set(CMAKE_CXX_STANDARD 20)
+set(CMAKE_CXX_STANDARD_REQUIRED ON)
+set(CMAKE_CUDA_STANDARD 17)
+set(CMAKE_CUDA_ARCHITECTURES 89-real 90a-real)
+set(CMAKE_POSITION_INDEPENDENT_CODE ON)
+
+option(BUILD_XQA_TESTS "Build XQA tests" OFF)
+
+# todo: remove include_directories link_directories and link libs like
+# CUDA::cuda_driver CUDA::cudart CUDA::nvrtc
+find_package(CUDAToolkit REQUIRED)
+
+include_directories(${CMAKE_CUDA_TOOLKIT_INCLUDE_DIRECTORIES})
+
+link_directories(${CMAKE_CUDA_TOOLKIT_INCLUDE_DIRECTORIES}/../lib64
+                 ${CMAKE_CUDA_TOOLKIT_INCLUDE_DIRECTORIES}/../lib)
+
+set(CMAKE_CXX_FLAGS
+    "${CMAKE_CXX_FLAGS} -march=haswell -Wfatal-errors -Wreturn-type -Wall -Wextra -Wno-unknown-pragmas"
+)
+set(CMAKE_CUDA_FLAGS
+    "${CMAKE_CUDA_FLAGS} -allow-unsupported-compiler --expt-relaxed-constexpr -t 0 -res-usage"
+)
+set(CUDA_PTXAS_FLAGS "-warn-lmem-usage -warn-double-usage -warn-spills"
+)# -Werror -v
+set(CMAKE_CUDA_FLAGS_RELEASE
+    "${CMAKE_CUDA_FLAGS_RELEASE} -lineinfo -keep --use_fast_math -Xptxas='${CUDA_PTXAS_FLAGS}'"
+)
+set(CMAKE_CUDA_FLAGS_DEBUG "${CMAKE_CUDA_FLAGS_DEBUG} -O0 -G -keep")
+# add_definitions(-DSPEC_DEC) set(CMAKE_CUDA_FLAGS_DEBUG
+# "${CMAKE_CUDA_FLAGS_RELEASE}")
+
+set(XQA_SOURCES
+    "cuda_hint.cuh"
+    "defines.h"
+    "ldgsts.cuh"
+    "mha.h"
+    "mhaUtils.cuh"
+    "mma.cuh"
+    "platform.h"
+    "utils.cuh"
+    "utils.h"
+    "mha_stdheaders.cuh"
+    "gmma.cuh"
+    "gmma_impl.cuh"
+    "barriers.cuh"
+    "tma.h"
+    "mha.cu"
+    "mha_sm90.cu")
+
+# For ${Python3_EXECUTABLE}
+find_package(Python3 COMPONENTS Interpreter REQUIRED)
+
+set(XQA_SOURCES_H ${CMAKE_CURRENT_BINARY_DIR}/xqa_sources.h)
+add_custom_command(
+  OUTPUT ${XQA_SOURCES_H}
+  COMMAND ${Python3_EXECUTABLE} gen_cpp_header.py -o ${XQA_SOURCES_H}
+          --cuda_root ${CUDAToolkit_LIBRARY_ROOT}
+  COMMENT "Generating xqa_sources.h for XQAJIT..."
+  DEPENDS gen_cpp_header.py ${XQA_SOURCES}
+  WORKING_DIRECTORY ${CMAKE_CURRENT_SOURCE_DIR}
+  VERBATIM)
+add_custom_target(xqa_sources_h DEPENDS ${XQA_SOURCES_H})
+
+if(BUILD_XQA_TESTS)
+  # GoogleTest Preparation - Code block copied from
+  # https://google.github.io/googletest/quickstart-cmake.html
+  include(FetchContent)
+  FetchContent_Declare(
+    googletest
+    GIT_REPOSITORY https://github.com/google/googletest.git
+    GIT_TAG v1.15.2)
+  include(GoogleTest)
+
+  # Add Eigen via FetchContent
+  FetchContent_Declare(
+    eigen
+    GIT_REPOSITORY https://gitlab.com/libeigen/eigen.git
+    GIT_TAG 3.4.0)
+  FetchContent_MakeAvailable(googletest eigen)
+
+  enable_testing()
+  add_executable(unitTests mha.cu mha_sm90.cu test/test.cpp
+                           test/refAttention.cpp)
+  target_include_directories(unitTests PUBLIC ${EIGEN3_INCLUDE_DIR})
+  target_link_libraries(unitTests PUBLIC GTest::gtest GTest::gtest_main cuda
+                                         Eigen3::Eigen)
+
+  find_library(
+    NVRTC_LIB nvrtc
+    HINTS ${CMAKE_CUDA_TOOLKIT_INCLUDE_DIRECTORIES}/../lib
+    PATH_SUFFIXES lib64 lib lib/x64)
+  if(NOT NVRTC_LIB)
+    message("Nvrtc not found")
+    add_definitions(-DENABLE_NVRTC=0)
+  else()
+    add_definitions(-DENABLE_NVRTC=1)
+    target_link_libraries(unitTests PUBLIC ${NVRTC_LIB})
+    # Generate xqa_sources.h for nvrtc testing.
+    include_directories(${PROJECT_BINARY_DIR})
+    set(GENERATED_XQA_SOURCES
+        "${CMAKE_CURRENT_BINARY_DIR}/generated/xqa_sources.h")
+    add_custom_command(
+      OUTPUT ${GENERATED_XQA_SOURCES}
+      COMMAND
+        ./gen_cpp_header.py -o ${GENERATED_XQA_SOURCES} --embed-cuda-headers
+        --cuda_root ${CMAKE_CUDA_TOOLKIT_INCLUDE_DIRECTORIES}/..
+      DEPENDS gen_cpp_header.py ${XQA_SOURCES}
+      WORKING_DIRECTORY ${CMAKE_CURRENT_SOURCE_DIR})
+    target_sources(unitTests PUBLIC ${GENERATED_XQA_SOURCES})
+  endif()
+
+  add_test(NAME unitTests COMMAND unitTests)
+endif()
@@ -0,0 +1,30 @@
+<div align="left">
+
+# XQA - A set of optimized kernels for generation-phase MQA/GQA
+
+## Dependency
+
+If you want to build & run unit tests, you need libgtest-dev and libeigen3-dev.
+
+## Options
+
+Kernel compile-time options can be found in defines.h. See code comments for details. Runtime options of unit tests can be modified in test.cpp.
+
+## Build & run unit tests
+
+You need to install libgtest-dev and libeigen3-dev before building. To build, use the normal cmake build steps:
+
+- ```mkdir build```
+- ```cd build```
+- ```cmake .. -DCMAKE_BUILD_TYPE=Release```
+- ```cmake --build . -j```
+
+To run unit tests, run `./unitTests`. There are a few runtime options that can be controlled with environment variables:
+
+- XQA_ZERO_FILL: Set this to 1 to initialize input data with zeros (instead of random numbers). This is useful if you want to run perf tests quickly and skip the slow random data generation step. Note there is an impact on measure perf.
+- XQA_USE_QGMMA: On Hopper, we try to use TMA+QGMMA kernel (mha_sm90.cu) by default if possible. To force using mha.cu, set this to 0.
+- XQA_NB_SUB_SEQ: The number of CUDA thread blocks used to handle one K/V head. We have reasonable default but if you want to change it manually, use this variable.
+
+## Generation cubins used in TensorRT-LLM
+
+Run `gen_cubin.py` in the repo workspace.
@@ -0,0 +1,96 @@
+/*
+ * SPDX-FileCopyrightText: Copyright (c) 2023 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+ * SPDX-License-Identifier: NVIDIA TensorRT Source Code License Agreement
+ *
+ * NVIDIA CORPORATION, its affiliates and licensors retain all intellectual
+ * property and proprietary rights in and to this material, related
+ * documentation and any modifications thereto. Any use, reproduction,
+ * disclosure or distribution of this material and related documentation
+ * without an express license agreement from NVIDIA CORPORATION or
+ * its affiliates is strictly prohibited.
+ */
+
+#pragma once
+#include "cuda_hint.cuh"
+#include "utils.cuh"
+#include <cassert>
+#include <cuda_fp16.h>
+#include <filesystem>
+#include <fstream>
+#include <sstream>
+#include <type_traits>
+
+struct RefChecker
+{
+    half q[8][32][32];
+    half k[8][4][64][32];
+    float qk[4][32][64];
+    float tileRowMax[4][32];
+    half x[4][32][64];
+    half v[8][4][32][64];
+    float tileRowSum[4][32];
+    float acc1PerStep[4][32][256];
+    half out[32][256];
+
+    void init()
+    {
+#define INIT_MEMBER(member) initMember(member, #member)
+        INIT_MEMBER(q);
+        INIT_MEMBER(k);
+        INIT_MEMBER(qk);
+        INIT_MEMBER(tileRowMax);
+        INIT_MEMBER(x);
+        INIT_MEMBER(v);
+        INIT_MEMBER(tileRowSum);
+        INIT_MEMBER(acc1PerStep);
+        INIT_MEMBER(out);
+#undef INIT_MEMBER
+    }
+
+private:
+    template <typename T>
+    void initMember(T& dst, char const* varName);
+};
+
+template <typename T, size_t d0, size_t d1, size_t d2, size_t d3>
+std::enable_if_t<std::is_same_v<std::decay_t<T>, float> || std::is_same_v<std::decay_t<T>, half>, std::string>
+makeFileName(T (&dst)[d0][d1][d2][d3], char const* varName)
+{
+    std::stringstream ss;
+    ss << varName << '_' << d0 << 'x' << d1 << 'x' << d2 << 'x' << d3 << '_'
+       << (std::is_same_v<std::decay_t<T>, float> ? "f32" : "f16") << ".bin";
+    return ss.str();
+}
+
+template <typename T, size_t d0, size_t d1, size_t d2>
+std::enable_if_t<std::is_same_v<std::decay_t<T>, float> || std::is_same_v<std::decay_t<T>, half>, std::string>
+makeFileName(T (&dst)[d0][d1][d2], char const* varName)
+{
+    std::stringstream ss;
+    ss << varName << '_' << d0 << 'x' << d1 << 'x' << d2 << '_'
+       << (std::is_same_v<std::decay_t<T>, float> ? "f32" : "f16") << ".bin";
+    return ss.str();
+}
+
+template <typename T, size_t d0, size_t d1>
+std::enable_if_t<std::is_same_v<std::decay_t<T>, float> || std::is_same_v<std::decay_t<T>, half>, std::string>
+makeFileName(T (&dst)[d0][d1], char const* varName)
+{
+    std::stringstream ss;
+    ss << varName << '_' << d0 << 'x' << d1 << '_' << (std::is_same_v<std::decay_t<T>, float> ? "f32" : "f16")
+       << ".bin";
+    return ss.str();
+}
+
+template <typename T>
+void RefChecker::initMember(T& dst, char const* varName)
+{
+    std::string const filename = makeFileName(dst, varName);
+    printf("loading %s\n", filename.c_str());
+    namespace fs = std::filesystem;
+    assert(fs::exists(filename));
+    assert(fs::file_size(filename) == sizeof(dst));
+    std::ifstream fin(filename, std::ios::binary);
+    fin.read(reinterpret_cast<char*>(&dst), sizeof(dst));
+    assert(fin);
+}