Update

leslie-fang-intel · leslie-fang-intel · commit dabb920e85af · 2024-09-20T01:34:17.000-07:00
[ghstack-poisoned]
diff --git a/aten/src/ATen/cpu/vec/vec256/vec256_convert.h b/aten/src/ATen/cpu/vec/vec256/vec256_convert.h
@@ -226,7 +226,7 @@ struct VecConvert<
     at::vec::Vectorized<dst_t> vec2 = convert_float_to_int8<dst_t>(src[1]);
     __m128 lane2 = _mm256_castps256_ps128(_mm256_castsi256_ps(vec2));
     __m256 combined = _mm256_insertf128_ps(_mm256_castsi256_ps(vec1), lane2, 1);
-    // Shuffle [191:128] bit from combined to [127:64] bit of result
+    // Shuffle [191:128] bit from combined in to [127:64] bit of result
     __m256i result = _mm256_permute4x64_epi64(_mm256_castps_si256(combined), 0b11011000);
     return at::vec::Vectorized<dst_t>(result);
   }
diff --git a/aten/src/ATen/cpu/vec/vec512/vec512_convert.h b/aten/src/ATen/cpu/vec/vec512/vec512_convert.h
@@ -225,13 +225,8 @@ struct VecConvert<
   static inline VectorizedN<dst_t, 1> apply(const VectorizedN<float, 2>& src) {
     at::vec::Vectorized<dst_t> vec1 = convert_float_to_int8<dst_t>(src[0]);
     at::vec::Vectorized<dst_t> vec2 = convert_float_to_int8<dst_t>(src[1]);
-    __m128 lane1 = _mm512_extractf32x4_ps(_mm512_castsi512_ps(vec1), 0);
-    __m128 lane2 = _mm512_extractf32x4_ps(_mm512_castsi512_ps(vec2), 0);
-    __m512 result = _mm512_setzero_ps();
-
-    // Insert the extracted lanes into the result vector
-    result = _mm512_insertf32x4(result, lane1, 0); // Insert lane1 into the first 128-bit lane
-    result = _mm512_insertf32x4(result, lane2, 1); // Insert lane2 into the second 128-bit lane
+    __m128 lane2 = _mm512_castps512_ps128(_mm512_castsi512_ps(vec2));
+    __m512 result = _mm512_insertf32x4(_mm512_castsi512_ps(vec1), lane2, 1); // Insert lane2 into the second 128-bit lane
     return at::vec::Vectorized<dst_t>(_mm512_castps_si512(result));
   }
 };
diff --git a/test/inductor/test_cpu_repro.py b/test/inductor/test_cpu_repro.py
@@ -3747,7 +3747,9 @@ def test_convert_int8_to_half_vec(self):
             def fn(x):
                 return x.to(dst_dtype)
 
-            x = torch.randint(0, 100, (32, 32), dtype=src_dtype)
+            low = 0 if src_dtype == torch.uint8 else -100
+
+            x = torch.randint(low, 100, (32, 32), dtype=src_dtype)
             with config.patch({"cpp.simdlen": _simd_len}):
                 torch._dynamo.reset()
                 metrics.reset()

Original file line number	Diff line number	Diff line change
`@@ -226,7 +226,7 @@ struct VecConvert<`
`226`	`226`	`at::vec::Vectorized<dst_t> vec2 = convert_float_to_int8<dst_t>(src[1]);`
`227`	`227`	`__m128 lane2 = _mm256_castps256_ps128(_mm256_castsi256_ps(vec2));`
`228`	`228`	`__m256 combined = _mm256_insertf128_ps(_mm256_castsi256_ps(vec1), lane2, 1);`
`229`		`- // Shuffle [191:128] bit from combined to [127:64] bit of result`
	`229`	`+ // Shuffle [191:128] bit from combined in to [127:64] bit of result`
`230`	`230`	`__m256i result = _mm256_permute4x64_epi64(_mm256_castps_si256(combined), 0b11011000);`
`231`	`231`	`return at::vec::Vectorized<dst_t>(result);`
`232`	`232`	`}`