DoyleLi
diff --git a/‎clang/lib/Sema/SemaSYCL.cpp
Lines changed: 195 additions & 187 deletions b/‎clang/lib/Sema/SemaSYCL.cpp
Lines changed: 195 additions & 187 deletions
diff --git a/‎clang/test/SemaSYCL/kernel-function-type.cpp
Lines changed: 40 additions & 0 deletions b/‎clang/test/SemaSYCL/kernel-function-type.cpp
Lines changed: 40 additions & 0 deletions
diff --git a/‎sycl/doc/extensions/QueueShortcuts/QueueShortcuts.adoc
Lines changed: 3 additions & 0 deletions b/‎sycl/doc/extensions/QueueShortcuts/QueueShortcuts.adoc
Lines changed: 3 additions & 0 deletions
diff --git a/‎sycl/doc/extensions/QueueShortcuts/queue.hpp
Lines changed: 13 additions & 13 deletions b/‎sycl/doc/extensions/QueueShortcuts/queue.hpp
Lines changed: 13 additions & 13 deletions
diff --git a/‎sycl/plugins/cuda/pi_cuda.cpp
Lines changed: 54 additions & 40 deletions b/‎sycl/plugins/cuda/pi_cuda.cpp
Lines changed: 54 additions & 40 deletions
diff --git a/‎sycl/source/detail/scheduler/commands.hpp
Lines changed: 2 additions & 0 deletions b/‎sycl/source/detail/scheduler/commands.hpp
Lines changed: 2 additions & 0 deletions
@@ -0,0 +1,40 @@
+// RUN: %clang_cc1 -fsycl -fsycl-is-device -fsyntax-only -verify %s
+// expected-no-diagnostics
+
+// The kernel_single_task call is emitted as an OpenCL kernel function. The call
+// to getFullyQualifiedType caused a 2nd instantiation of zip_iterator<b,b> (the
+// first instantiation is on line 28 during phase 1).
+// Then, the call to 'foo' in 'main' causes 'foo' to be instantiated. The best
+// match for zip_iterator<j,d> is the one instantiated by the
+// kernel_single_task, which is now different from the one made in phase 1.
+// 'is_same<zip_iterator<b,b>' is instantiated during phase 1 at line 28, and
+// 'zip_iterator<b,b>' is instantiated by getFullyQualifiedName.
+// So 'is_same<zip_iterator<b,b>, zip_iterator<j,d>>::value' return false
+// even though zip_iterator<b,b> and zip_iterator<j,d> have the same type
+// 'zip_iterator<b,b>'.
+
+struct b {};
+
+template <typename T, typename U>
+struct is_same { static const bool value = false; };
+template <typename T>
+struct is_same<T, T> { static const bool value = true; };
+
+template <typename... Ts>
+struct zip_iterator {};
+
+template <class j, class d>
+void foo(j e, d k) {
+  static_assert(is_same<zip_iterator<b, b>, zip_iterator<j, d>>::value, "device_iterator");
+}
+
+template <typename name, typename Func>
+__attribute__((sycl_kernel)) void kernel_single_task(Func kernelFunc) {
+  kernelFunc();
+}
+
+int main() {
+  kernel_single_task<zip_iterator<b, b>>([] {});
+  foo(b{}, b{});
+  return 0;
+}
@@ -19,3 +19,6 @@ Note: These simplifications do not depend on queue order properties.  They apply
 include::queue.hpp[]
 ----
 
+Overloads 4-12 shall support generic lambda as the kernel argument. For overloads 4-9 the generic argument is the `item` with the same dimensions that `range` argument has. For overloads 10-12 the generic argument is the `nd_item` with the same dimensions that `nd_range` argument has.
+
+Overloads 4-6 shall support number or `braced-init-list` as the `range` argument.
@@ -1,50 +1,50 @@
 class queue {
 public:
-  ...
+  // ...
   template <typename KernelName, typename KernelType>
-  event single_task(KernelType KernelFunc);
+  event single_task(KernelType KernelFunc);                                   // (1)
 
   template <typename KernelName, typename KernelType>
-  event single_task(event DepEvent, KernelType KernelFunc);
+  event single_task(event DepEvent, KernelType KernelFunc);                   // (2)
 
   template <typename KernelName, typename KernelType>
   event single_task(const vector_class<event> &DepEvents,
-                    KernelType KernelFunc);
+                    KernelType KernelFunc);                                   // (3)
 
   template <typename KernelName, typename KernelType, int Dims>
-  event parallel_for(range<Dims> NumWorkItems, KernelType KernelFunc);
+  event parallel_for(range<Dims> NumWorkItems, KernelType KernelFunc);        // (4)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(range<Dims> NumWorkItems, event DepEvent,
-                     KernelType KernelFunc);
+                     KernelType KernelFunc);                                  // (5)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(range<Dims> NumWorkItems,
                      const vector_class<event> &DepEvents,
-                     KernelType KernelFunc);
+                     KernelType KernelFunc);                                  // (6)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(range<Dims> NumWorkItems, id<Dims> WorkItemOffset,
-                     KernelType KernelFunc);
+                     KernelType KernelFunc);                                  // (7)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(range<Dims> NumWorkItems, id<Dims> WorkItemOffset,
-                     event DepEvent, KernelType KernelFunc);
+                     event DepEvent, KernelType KernelFunc);                  // (8)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(range<Dims> NumWorkItems, id<Dims> WorkItemOffset,
                      const vector_class<event> &DepEvents,
-                     KernelType KernelFunc);
+                     KernelType KernelFunc);                                  // (9)
 
   template <typename KernelName, typename KernelType, int Dims>
-  event parallel_for(nd_range<Dims> ExecutionRange, KernelType KernelFunc);
+  event parallel_for(nd_range<Dims> ExecutionRange, KernelType KernelFunc);   // (10)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(nd_range<Dims> ExecutionRange, event DepEvent,
-                     KernelType KernelFunc);
+                     KernelType KernelFunc);                                  // (11)
 
   template <typename KernelName, typename KernelType, int Dims>
   event parallel_for(nd_range<Dims> ExecutionRange,
                      const vector_class<event> &DepEvents,
-                     KernelType KernelFunc);
+                     KernelType KernelFunc);                                  // (12)
 };
@@ -363,7 +363,7 @@ pi_uint64 _pi_event::get_end_time() const {
 
 pi_result _pi_event::record() {
 
-  if (is_recorded()) {
+  if (is_recorded() || !is_started()) {
     return PI_INVALID_EVENT;
   }
 
@@ -2074,7 +2074,7 @@ pi_result cuda_piEnqueueMemBufferRead(pi_queue command_queue, pi_mem buffer,
                                       size_t size, void *ptr,
                                       pi_uint32 num_events_in_wait_list,
                                       const pi_event *event_wait_list,
-                                      pi_event *retEvent) {
+                                      pi_event *event) {
 
   assert(buffer != nullptr);
   assert(command_queue != nullptr);
@@ -2089,7 +2089,7 @@ pi_result cuda_piEnqueueMemBufferRead(pi_queue command_queue, pi_mem buffer,
     retErr = cuda_piEnqueueEventsWait(command_queue, num_events_in_wait_list,
                                       event_wait_list, nullptr);
 
-    if (retEvent) {
+    if (event) {
       retImplEv = std::unique_ptr<_pi_event>(_pi_event::make_native(
           PI_COMMAND_TYPE_MEM_BUFFER_READ, command_queue));
       retImplEv->start();
@@ -2098,16 +2098,16 @@ pi_result cuda_piEnqueueMemBufferRead(pi_queue command_queue, pi_mem buffer,
     retErr =
         PI_CHECK_ERROR(cuMemcpyDtoHAsync(ptr, devPtr + offset, size, cuStream));
 
-    if (retEvent) {
+    if (event) {
       retErr = retImplEv->record();
     }
 
     if (blocking_read) {
       retErr = PI_CHECK_ERROR(cuStreamSynchronize(cuStream));
     }
 
-    if (retEvent) {
-      *retEvent = retImplEv.release();
+    if (event) {
+      *event = retImplEv.release();
     }
 
   } catch (pi_result err) {
@@ -3381,7 +3381,7 @@ pi_result cuda_piEnqueueMemBufferReadRect(
     const size_t *region, size_t buffer_row_pitch, size_t buffer_slice_pitch,
     size_t host_row_pitch, size_t host_slice_pitch, void *ptr,
     pi_uint32 num_events_in_wait_list, const pi_event *event_wait_list,
-    pi_event *retEvent) {
+    pi_event *event) {
 
   assert(buffer != nullptr);
   assert(command_queue != nullptr);
@@ -3397,9 +3397,9 @@ pi_result cuda_piEnqueueMemBufferReadRect(
     retErr = cuda_piEnqueueEventsWait(command_queue, num_events_in_wait_list,
                                       event_wait_list, nullptr);
 
-    if (retEvent) {
+    if (event) {
       retImplEv = std::unique_ptr<_pi_event>(_pi_event::make_native(
-          PI_COMMAND_TYPE_MEM_BUFFER_READ, command_queue));
+          PI_COMMAND_TYPE_MEM_BUFFER_READ_RECT, command_queue));
       retImplEv->start();
     }
 
@@ -3408,16 +3408,16 @@ pi_result cuda_piEnqueueMemBufferReadRect(
         buffer_row_pitch, buffer_slice_pitch, ptr, CU_MEMORYTYPE_HOST,
         host_offset, host_row_pitch, host_slice_pitch);
 
-    if (retEvent) {
+    if (event) {
       retErr = retImplEv->record();
     }
 
     if (blocking_read) {
       retErr = PI_CHECK_ERROR(cuStreamSynchronize(cuStream));
     }
 
-    if (retEvent) {
-      *retEvent = retImplEv.release();
+    if (event) {
+      *event = retImplEv.release();
     }
 
   } catch (pi_result err) {
@@ -3432,7 +3432,7 @@ pi_result cuda_piEnqueueMemBufferWriteRect(
     const size_t *region, size_t buffer_row_pitch, size_t buffer_slice_pitch,
     size_t host_row_pitch, size_t host_slice_pitch, const void *ptr,
     pi_uint32 num_events_in_wait_list, const pi_event *event_wait_list,
-    pi_event *retEvent) {
+    pi_event *event) {
 
   assert(buffer != nullptr);
   assert(command_queue != nullptr);
@@ -3448,9 +3448,9 @@ pi_result cuda_piEnqueueMemBufferWriteRect(
     retErr = cuda_piEnqueueEventsWait(command_queue, num_events_in_wait_list,
                                       event_wait_list, nullptr);
 
-    if (retEvent) {
+    if (event) {
       retImplEv = std::unique_ptr<_pi_event>(_pi_event::make_native(
-          PI_COMMAND_TYPE_MEM_BUFFER_WRITE, command_queue));
+          PI_COMMAND_TYPE_MEM_BUFFER_WRITE_RECT, command_queue));
       retImplEv->start();
     }
 
@@ -3459,16 +3459,16 @@ pi_result cuda_piEnqueueMemBufferWriteRect(
         host_slice_pitch, &devPtr, CU_MEMORYTYPE_DEVICE, buffer_offset,
         buffer_row_pitch, buffer_slice_pitch);
 
-    if (retEvent) {
+    if (event) {
       retErr = retImplEv->record();
     }
 
     if (blocking_write) {
       retErr = PI_CHECK_ERROR(cuStreamSynchronize(cuStream));
     }
 
-    if (retEvent) {
-      *retEvent = retImplEv.release();
+    if (event) {
+      *event = retImplEv.release();
     }
 
   } catch (pi_result err) {
@@ -3487,6 +3487,8 @@ pi_result cuda_piEnqueueMemBufferCopy(pi_queue command_queue, pi_mem src_buffer,
     return PI_INVALID_QUEUE;
   }
 
+  std::unique_ptr<_pi_event> retImplEv{nullptr};
+
   try {
     ScopedContext active(command_queue->get_context());
 
@@ -3497,17 +3499,21 @@ pi_result cuda_piEnqueueMemBufferCopy(pi_queue command_queue, pi_mem src_buffer,
 
     pi_result result;
 
+    if (event) {
+      retImplEv = std::unique_ptr<_pi_event>(_pi_event::make_native(
+          PI_COMMAND_TYPE_MEM_BUFFER_COPY, command_queue));
+      result = retImplEv->start();
+    }
+
     auto stream = command_queue->get();
     auto src = src_buffer->mem_.buffer_mem_.get() + src_offset;
     auto dst = dst_buffer->mem_.buffer_mem_.get() + dst_offset;
 
     result = PI_CHECK_ERROR(cuMemcpyDtoDAsync(dst, src, size, stream));
 
     if (event) {
-      auto new_event = _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_COPY,
-                                              command_queue);
-      new_event->record();
-      *event = new_event;
+      result = retImplEv->record();
+      *event = retImplEv.release();
     }
 
     return result;
@@ -3543,7 +3549,7 @@ pi_result cuda_piEnqueueMemBufferCopyRect(
 
     if (event) {
       retImplEv = std::unique_ptr<_pi_event>(_pi_event::make_native(
-          PI_COMMAND_TYPE_MEM_BUFFER_COPY, command_queue));
+          PI_COMMAND_TYPE_MEM_BUFFER_COPY_RECT, command_queue));
       retImplEv->start();
     }
 
@@ -3586,6 +3592,8 @@ pi_result cuda_piEnqueueMemBufferFill(pi_queue command_queue, pi_mem buffer,
   (void)pattern_is_valid;
   (void)pattern_size_is_valid;
 
+  std::unique_ptr<_pi_event> retImplEv{nullptr};
+
   try {
     ScopedContext active(command_queue->get_context());
 
@@ -3596,6 +3604,12 @@ pi_result cuda_piEnqueueMemBufferFill(pi_queue command_queue, pi_mem buffer,
 
     pi_result result;
 
+    if (event) {
+      retImplEv = std::unique_ptr<_pi_event>(_pi_event::make_native(
+          PI_COMMAND_TYPE_MEM_BUFFER_FILL, command_queue));
+      result = retImplEv->start();
+    }
+
     auto dstDevice = buffer->mem_.buffer_mem_.get() + offset;
     auto stream = command_queue->get();
     auto N = size / pattern_size;
@@ -3646,10 +3660,8 @@ pi_result cuda_piEnqueueMemBufferFill(pi_queue command_queue, pi_mem buffer,
     }
 
     if (event) {
-      auto new_event = _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_FILL,
-                                              command_queue);
-      new_event->record();
-      *event = new_event;
+      result = retImplEv->record();
+      *event = retImplEv.release();
     }
 
     return result;
@@ -3971,7 +3983,7 @@ pi_result cuda_piEnqueueMemBufferMap(pi_queue command_queue, pi_mem buffer,
                                      size_t size,
                                      pi_uint32 num_events_in_wait_list,
                                      const pi_event *event_wait_list,
-                                     pi_event *retEvent, void **ret_map) {
+                                     pi_event *event, void **ret_map) {
 
   assert(ret_map != nullptr);
   assert(command_queue != nullptr);
@@ -3993,15 +4005,16 @@ pi_result cuda_piEnqueueMemBufferMap(pi_queue command_queue, pi_mem buffer,
   if ((map_flags & CL_MAP_READ) || (map_flags & CL_MAP_WRITE)) {
     ret_err = cuda_piEnqueueMemBufferRead(
         command_queue, buffer, blocking_map, offset, size, hostPtr,
-        num_events_in_wait_list, event_wait_list, retEvent);
+        num_events_in_wait_list, event_wait_list, event);
   } else {
-    if (retEvent) {
+    if (event) {
       try {
         ScopedContext active(command_queue->get_context());
 
-        *retEvent = _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_MAP,
-                                           command_queue);
-        (*retEvent)->record();
+        *event = _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_MAP,
+                                        command_queue);
+        (*event)->start();
+        (*event)->record();
       } catch (pi_result error) {
         ret_err = error;
       }
@@ -4018,7 +4031,7 @@ pi_result cuda_piEnqueueMemUnmap(pi_queue command_queue, pi_mem memobj,
                                  void *mapped_ptr,
                                  pi_uint32 num_events_in_wait_list,
                                  const pi_event *event_wait_list,
-                                 pi_event *retEvent) {
+                                 pi_event *event) {
   pi_result ret_err = PI_SUCCESS;
 
   assert(command_queue != nullptr);
@@ -4034,15 +4047,16 @@ pi_result cuda_piEnqueueMemUnmap(pi_queue command_queue, pi_mem memobj,
         command_queue, memobj, true,
         memobj->mem_.buffer_mem_.get_map_offset(mapped_ptr),
         memobj->mem_.buffer_mem_.get_size(), mapped_ptr,
-        num_events_in_wait_list, event_wait_list, retEvent);
+        num_events_in_wait_list, event_wait_list, event);
   } else {
-    if (retEvent) {
+    if (event) {
       try {
         ScopedContext active(command_queue->get_context());
 
-        *retEvent = _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_UNMAP,
-                                           command_queue);
-        (*retEvent)->record();
+        *event = _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_UNMAP,
+                                        command_queue);
+        (*event)->start();
+        (*event)->record();
       } catch (pi_result error) {
         ret_err = error;
       }
@@ -4155,7 +4169,7 @@ pi_result cuda_piextUSMEnqueueMemset(pi_queue queue, void *ptr, pi_int32 value,
                                       events_waitlist, nullptr);
     if (event) {
       event_ptr = std::unique_ptr<_pi_event>(
-          _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_COPY, queue));
+          _pi_event::make_native(PI_COMMAND_TYPE_MEM_BUFFER_FILL, queue));
       event_ptr->start();
     }
     result = PI_CHECK_ERROR(cuMemsetD8Async(
 
@@ -219,6 +219,8 @@ class Command {
   bool MIsBlockable = false;
   /// Counts the number of memory objects this command is a leaf for.
   unsigned MLeafCounter = 0;
+  /// Used for marking the node as visited during graph traversal.
+  bool MVisited = false;
 
   enum class BlockReason : int { HostAccessor = 0, HostTask };