Merge branch 'develop'

vmarkovtsev · vmarkovtsev · commit 4bae74ea3971 · 2017-04-05T10:30:58.000+02:00
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -10,22 +10,26 @@ if (PROFILE OR CMAKE_BUILD_TYPE STREQUAL "Debug")
   set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -DPROFILE")
 endif()
 #set(CMAKE_VERBOSE_MAKEFILE on)
-set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -march=native -Wall -Werror -std=c++11 ${OpenMP_CXX_FLAGS}")
+if (NOT DEFINED CUDA_ARCH)
+  set(CUDA_ARCH "61")
+endif()
+set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -march=native -Wall -Werror -DCUDA_ARCH=${CUDA_ARCH} -std=c++11 ${OpenMP_CXX_FLAGS}")
 set(SOURCE_FILES minhashcuda.cc minhashcuda.h wrappers.h private.h kernel.cu)
 if (NOT DISABLE_PYTHON)
   list(APPEND SOURCE_FILES python.cc)
 endif()
 if (CMAKE_BUILD_TYPE STREQUAL "Debug")
   set(NVCC_FLAGS "-G -g")
 endif()
-set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} -arch=compute_52 -code=sm_52 -Xptxas=-v -D_MWAITXINTRIN_H_INCLUDED -D_FORCE_INLINES")
+set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} -arch=compute_${CUDA_ARCH} -Xptxas=-v -D_MWAITXINTRIN_H_INCLUDED -D_FORCE_INLINES")
 if (CMAKE_MAJOR_VERSION LESS 4 AND CMAKE_MINOR_VERSION LESS 3)
   # workaround https://github.com/Kitware/CMake/commit/99abebdea01b9ef73e091db5594553f7b1694a1b
   message(STATUS "Applied CUDA C++11 workaround on CMake < 3.3")
   set(CUDA_NVCC_FLAGS "${CUDA_NVCC_FLAGS} --std c++11")
 endif()
 cuda_add_library(MHCUDA SHARED ${SOURCE_FILES} OPTIONS ${NVCC_FLAGS})
+target_link_libraries(MHCUDA ${CUDA_curand_LIBRARY})
 if(PYTHONLIBS_FOUND)
   include_directories(${PYTHON_INCLUDE_DIRS} ${NUMPY_INCLUDES})
-  target_link_libraries(MHCUDA ${PYTHON_LIBRARIES} ${CUDA_curand_LIBRARY})
-endif()
+  target_link_libraries(MHCUDA ${PYTHON_LIBRARIES})
+endif()
diff --git a/README.md b/README.md
@@ -1,4 +1,4 @@
-[![Build Status](https://travis-ci.org/src-d/minhashcuda.svg?branch=master)](https://travis-ci.org/src-d/minhashcuda) [![PyPI](https://img.shields.io/pypi/v/libMHCUDA.svg)](https://pypi.python.org/pypi/libMHCUDA)
+[![Build Status](https://travis-ci.org/src-d/minhashcuda.svg?branch=master)](https://travis-ci.org/src-d/minhashcuda) [![PyPI](https://img.shields.io/pypi/v/libMHCUDA.svg)](https://pypi.python.org/pypi/libMHCUDA) [![10.5281/zenodo.286955](https://zenodo.org/badge/DOI/10.5281/zenodo.286955.svg)](https://doi.org/10.5281/zenodo.286955)
 
 MinHashCuda
 ===========
diff --git a/minhashcuda.cc b/minhashcuda.cc
@@ -40,24 +40,24 @@ struct MinhashCudaGenerator_ {
 }  // extern "C"
 
 
-static std::vector<int> setup_devices(uint32_t device, int verbosity) {
+static std::vector<int> setup_devices(uint32_t devices, int verbosity) {
   std::vector<int> devs;
-  if (device == 0) {
-    cudaGetDeviceCount(reinterpret_cast<int *>(&device));
-    if (device == 0) {
+  if (devices == 0) {
+    cudaGetDeviceCount(reinterpret_cast<int *>(&devices));
+    if (devices == 0) {
       return std::move(devs);
     }
-    device = (1u << device) - 1;
+    devices = (1u << devices) - 1;
   }
-  for (int dev = 0; device; dev++) {
-    if (device & 1) {
+  for (int dev = 0; devices; dev++) {
+    if (devices & 1) {
       devs.push_back(dev);
       if (cudaSetDevice(dev) != cudaSuccess) {
         INFO("failed to validate device %d", dev);
         devs.pop_back();
       }
     }
-    device >>= 1;
+    devices >>= 1;
   }
   if (devs.size() > 1) {
     for (int dev1 : devs) {
@@ -268,10 +268,11 @@ MHCUDAResult mhcuda_assign_random_vars(
 }  // extern "C"
 
 static std::vector<uint32_t> calc_best_split(
-    const MinhashCudaGenerator *gen, const uint32_t *rows, uint32_t length) {
-  uint32_t ideal_split = rows[length] / gen->devs.size();
+    const uint32_t *rows, uint32_t length, const std::vector<int> &devs,
+    const std::vector<uint32_t> &sizes) {
+  uint32_t ideal_split = rows[length] / devs.size();
   std::vector<std::vector<uint32_t>> variants;
-  for (size_t devi = 0; devi < gen->devs.size(); devi++) {
+  for (size_t devi = 0; devi < devs.size(); devi++) {
     uint32_t row = std::upper_bound(
         rows, rows + length + 1, ideal_split * (devi + 1)) - rows;
     std::vector<std::vector<uint32_t>> fork;
@@ -301,9 +302,9 @@ static std::vector<uint32_t> calc_best_split(
   uint32_t min_cost = 0xFFFFFFFFu;
   for (auto &v : variants) {
     uint32_t cost = 0;
-    for (size_t i = 0; i < gen->devs.size(); i++) {
+    for (size_t i = 0; i < devs.size(); i++) {
       uint32_t row = v[i], prev_row = (i > 0)? v[i - 1] : 0;
-      uint32_t diff = rows[row] - rows[prev_row] - gen->sizes[i];
+      uint32_t diff = rows[row] - rows[prev_row] - sizes[i];
       if (diff > 0) {
         cost += diff * diff;
       }
@@ -522,7 +523,7 @@ MHCUDAResult mhcuda_calc(
         rows, length, output);
   auto &devs = gen->devs;
   INFO("Preparing...\n");
-  std::vector<uint32_t> split = calc_best_split(gen, rows, length);
+  std::vector<uint32_t> split = calc_best_split(rows, length, gen->devs, gen->sizes);
   if (verbosity > 1) {
     dump_vector(split, "split");
   }
diff --git a/python.cc b/python.cc
@@ -68,15 +68,19 @@ template <typename O>
 using pyobj_parent = std::unique_ptr<O, std::function<void(O*)>>;
 
 template <typename O>
-class pyobj : public pyobj_parent<O> {
+class _pyobj : public pyobj_parent<O> {
  public:
-  pyobj() : pyobj_parent<O>(
-      nullptr, [](PyObject *p){ if (p) Py_DECREF(p); }) {}
-  explicit pyobj(PyObject *ptr) : pyobj_parent<O>(
+  _pyobj() : pyobj_parent<O>(
+      nullptr, [](O *p){ if (p) Py_DECREF(p); }) {}
+  explicit _pyobj(PyObject *ptr) : pyobj_parent<O>(
       reinterpret_cast<O *>(ptr), [](O *p){ if(p) Py_DECREF(p); }) {}
+  void reset(PyObject *p) noexcept {
+    pyobj_parent<O>::reset(reinterpret_cast<O*>(p));
+  }
 };
 
-using pyarray = pyobj<PyArrayObject>;
+using pyobj = _pyobj<PyObject>;
+using pyarray = _pyobj<PyArrayObject>;
 
 static void set_cuda_malloc_error() {
   PyErr_SetString(PyExc_MemoryError, "Failed to allocate memory on GPU");
diff --git a/setup.py b/setup.py
@@ -46,7 +46,7 @@ def is_pure(self):
 setup(
     name="libMHCUDA",
     description="Accelerated Weighted MinHash-ing on GPU",
-    version="1.1.0",
+    version="1.1.1",
     license="MIT",
     author="Vadim Markovtsev",
     author_email="vadim@sourced.tech",

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-[![Build Status](https://travis-ci.org/src-d/minhashcuda.svg?branch=master)](https://travis-ci.org/src-d/minhashcuda) [![PyPI](https://img.shields.io/pypi/v/libMHCUDA.svg)](https://pypi.python.org/pypi/libMHCUDA)`
	`1`	`+[![Build Status](https://travis-ci.org/src-d/minhashcuda.svg?branch=master)](https://travis-ci.org/src-d/minhashcuda) [![PyPI](https://img.shields.io/pypi/v/libMHCUDA.svg)](https://pypi.python.org/pypi/libMHCUDA) [![10.5281/zenodo.286955](https://zenodo.org/badge/DOI/10.5281/zenodo.286955.svg)](https://doi.org/10.5281/zenodo.286955)`
`2`	`2`
`3`	`3`	`MinHashCuda`
`4`	`4`	`===========`