cpu/drcbearm64.cpp: Fixed more cases where ROLAND clobbered source registers.

cuavas · cuavas · commit 519cbd956c85 · 2025-04-17T03:29:30.000+10:00
ROLAND could clobber source registers or produce incorrect results if
the desination was the same UML register as the shift or mask.

Fixed a bug in the logic for deciding whether to use a temporary
register for the mask for ROLINS.

Also optimised ROLAND and ROLINS some more (particularly translation
from UML's left rotate to ARM's right rotate) and removed a special case
that the simplifier now takes care of.
diff --git a/src/devices/cpu/drcbearm64.cpp b/src/devices/cpu/drcbearm64.cpp
@@ -3135,8 +3135,6 @@ void drcbe_arm64::op_roland(a64::Assembler &a, const uml::instruction &inst)
 	be_parameter maskp(*this, inst.param(3), PTYPE_MRI);
 
 	const a64::Gp output = dstp.select_register(TEMP_REG1, inst.size());
-	const a64::Gp shift = shiftp.select_register(TEMP_REG2, inst.size());
-	const a64::Gp scratch = select_register(FUNC_SCRATCH_REG, inst.size());
 	const uint64_t instbits = inst.size() * 8;
 
 	bool optimized = false;
@@ -3187,44 +3185,41 @@ void drcbe_arm64::op_roland(a64::Assembler &a, const uml::instruction &inst)
 
 	if (!optimized)
 	{
+		const a64::Gp shift = shiftp.select_register(TEMP_REG2, inst.size());
+		const a64::Gp rshift = select_register(TEMP_REG2, inst.size());
+		const a64::Gp mask = (dstp != maskp) ? maskp.select_register(SCRATCH_REG1, inst.size()) : select_register(SCRATCH_REG1, inst.size());
+
+		if (!shiftp.is_immediate())
+		{
+			// do this first as dst and shift could be the same register
+			mov_reg_param(a, inst.size(), shift, shiftp);
+
+			a.neg(rshift, shift);
+		}
+
+		// mask and dst could also be the same register so do this before rotating dst
+		if (!maskp.is_immediate() || !is_valid_immediate_mask(maskp.immediate(), inst.size()))
+			mov_reg_param(a, inst.size(), mask, maskp);
+
 		mov_reg_param(a, inst.size(), output, srcp);
 
 		if (shiftp.is_immediate())
 		{
 			const auto s = -int64_t(shiftp.immediate()) & (instbits - 1);
-
 			if (s != 0)
 				a.ror(output, output, s);
 		}
 		else
 		{
-			const a64::Gp scratch2 = select_register(SCRATCH_REG2, inst.size());
-
-			mov_reg_param(a, inst.size(), shift, shiftp);
-
-			a.and_(scratch, shift, inst.size() * 8 - 1);
-			a.mov(scratch2, instbits);
-			a.sub(scratch, scratch2, scratch);
-			a.ror(output, output, scratch);
+			a.and_(rshift, rshift, (inst.size() * 8) - 1);
+			a.ror(output, output, rshift);
 		}
 
-		// srcp and the results of the rors above are already going to the output register, so if the mask is all 1s this can all be skipped
 		const a64::Inst::Id maskop = inst.flags() ? a64::Inst::kIdAnds : a64::Inst::kIdAnd;
 		if (maskp.is_immediate() && is_valid_immediate_mask(maskp.immediate(), inst.size()))
-		{
 			a.emit(maskop, output, output, maskp.immediate());
-		}
-		else if (!maskp.is_immediate() || maskp.immediate() != util::make_bitmask<uint64_t>(instbits))
-		{
-			const a64::Gp mask = maskp.select_register(TEMP_REG2, inst.size());
-			mov_reg_param(a, inst.size(), mask, maskp);
-
-			a.emit(maskop, output, output, mask);
-		}
 		else
-		{
-			optimized = true; // need explicit tst if flags are requested
-		}
+			a.emit(maskop, output, output, mask);
 	}
 
 	mov_param_reg(a, inst.size(), dstp, output);
@@ -3250,15 +3245,9 @@ void drcbe_arm64::op_rolins(a64::Assembler &a, const uml::instruction &inst)
 	be_parameter maskp(*this, inst.param(3), PTYPE_MRI);
 	const uint64_t instbits = inst.size() * 8;
 
-	a64::Gp dst;
-
-	bool can_use_dst_reg = dstp.is_int_register();
-	if (can_use_dst_reg && srcp.is_int_register())
-		can_use_dst_reg = srcp.ireg() != dstp.ireg();
-	if (can_use_dst_reg && maskp.is_int_register())
-		can_use_dst_reg = maskp.ireg() != dstp.ireg();
-	if (can_use_dst_reg && shiftp.is_int_register())
-		can_use_dst_reg = shiftp.ireg() != dstp.ireg();
+	const a64::Gp dst = dstp.select_register(TEMP_REG2, inst.size());
+	const a64::Gp src = srcp.select_register(TEMP_REG1, inst.size());
+	const a64::Gp scratch = select_register(TEMP_REG1, inst.size());
 
 	bool optimized = false;
 	if (maskp.is_immediate() && shiftp.is_immediate())
@@ -3270,16 +3259,12 @@ void drcbe_arm64::op_rolins(a64::Assembler &a, const uml::instruction &inst)
 		const bool is_contiguous = (invlamask & (invlamask + 1)) == 0;
 		const auto s = shiftp.immediate() & (instbits - 1);
 
-		const a64::Gp src = select_register(SCRATCH_REG2, inst.size());
-
 		if (is_right_aligned || is_contiguous)
 		{
-			dst = can_use_dst_reg ? dstp.select_register(SCRATCH_REG1, inst.size()) : select_register(SCRATCH_REG1, inst.size());
 			mov_reg_param(a, inst.size(), dst, dstp);
 
 			uint32_t rot = 0;
 			uint32_t lsb = 0;
-
 			if (is_right_aligned)
 			{
 				// Optimize a contiguous right-aligned mask
@@ -3292,63 +3277,61 @@ void drcbe_arm64::op_rolins(a64::Assembler &a, const uml::instruction &inst)
 				lsb = instbits - pop - lz;
 			}
 
-			if (srcp.is_immediate() && rot > 0)
+			if (srcp.is_immediate() && (rot > 0))
 			{
-				// save some instructions by avoid mov to register by computing the ror and storing it into src directly
-				uint64_t result = 0;
-
+				// save some instructions by avoid mov to register by computing the ror and storing it into scratch directly
+				uint64_t result;
 				if (inst.size() == 4)
 					result = rotr_32(srcp.immediate(), rot);
 				else
 					result = rotr_64(srcp.immediate(), rot);
 
-				a.mov(src, result);
+				a.mov(scratch, result);
 			}
-			else
+			else if (rot > 0)
 			{
 				mov_reg_param(a, inst.size(), src, srcp);
 
-				if (rot > 0)
-					a.ror(src, src, rot);
+				a.ror(scratch, src, rot);
+			}
+			else
+			{
+				mov_reg_param(a, inst.size(), scratch, srcp);
 			}
 
-			a.bfi(dst, src, lsb, pop);
+			a.bfi(dst, scratch, lsb, pop);
 
 			optimized = true;
 		}
 		else if (srcp.is_immediate())
 		{
-			const a64::Gp scratch = select_register(SCRATCH_REG1, inst.size());
-
-			dst = dstp.select_register(TEMP_REG2, inst.size());
-
 			// val1 = src & ~PARAM3
-			if (is_valid_immediate_mask(maskp.immediate(), inst.size()))
+			if (is_valid_immediate_mask(~maskp.immediate() & util::make_bitmask<uint64_t>(instbits), inst.size()))
 			{
-				a.and_(dst, dst, ~maskp.immediate());
+				a.and_(dst, dst, ~maskp.immediate() & util::make_bitmask<uint64_t>(instbits));
 			}
 			else
 			{
-				a.mov(scratch, ~maskp.immediate());
+				get_imm_relative(a, scratch, ~maskp.immediate() & util::make_bitmask<uint64_t>(instbits));
 				a.and_(dst, dst, scratch);
 			}
 
-			uint64_t result = 0;
+			uint64_t result;
 			if (inst.size() == 4)
 				result = rotl_32(srcp.immediate(), s) & maskp.immediate();
 			else
 				result = rotl_64(srcp.immediate(), s) & maskp.immediate();
 
 			if (result != 0)
 			{
-				if (is_valid_immediate(result, 12))
+				if (is_valid_immediate_mask(result, inst.size()))
 				{
 					a.orr(dst, dst, result);
 				}
 				else
 				{
-					a.mov(scratch, result);
-					a.orr(dst, dst, select_register(scratch, inst.size()));
+					get_imm_relative(a, scratch, result);
+					a.orr(dst, dst, scratch);
 				}
 			}
 
@@ -3358,40 +3341,57 @@ void drcbe_arm64::op_rolins(a64::Assembler &a, const uml::instruction &inst)
 
 	if (!optimized)
 	{
-		dst = can_use_dst_reg ? dstp.select_register(TEMP_REG2, inst.size()) : select_register(TEMP_REG2, inst.size());
-		mov_reg_param(a, inst.size(), dst, dstp);
+		const a64::Gp shift = shiftp.select_register(SCRATCH_REG1, inst.size());
+		const a64::Gp rshift = select_register(SCRATCH_REG1, inst.size());
 
-		const a64::Gp src = srcp.select_register(TEMP_REG1, inst.size());
-		const a64::Gp scratch = select_register(SCRATCH_REG1, inst.size());
+		if (!shiftp.is_immediate())
+		{
+			// do this first as dst could be the same register as shift
+			mov_reg_param(a, inst.size(), shift, shiftp);
 
-		mov_reg_param(a, inst.size(), src, srcp);
+			a.neg(rshift, shift);
+		}
+
+		mov_reg_param(a, inst.size(), dst, dstp);
 
 		if (shiftp.is_immediate())
 		{
 			const auto shift = -int64_t(shiftp.immediate()) & ((inst.size() * 8) - 1);
 
 			if (shift != 0)
+			{
+				mov_reg_param(a, inst.size(), src, srcp);
 				a.ror(scratch, src, shift);
+			}
 			else
-				a.mov(scratch, src);
+			{
+				mov_reg_param(a, inst.size(), scratch, srcp);
+			}
 		}
 		else
 		{
-			const a64::Gp shift = shiftp.select_register(SCRATCH_REG2, inst.size());
-			const a64::Gp scratch2 = select_register(FUNC_SCRATCH_REG, inst.size());
-			mov_reg_param(a, inst.size(), shift, shiftp);
+			mov_reg_param(a, inst.size(), src, srcp);
 
-			a.mov(scratch, inst.size() * 8);
-			a.and_(scratch2, shift, inst.size() * 8 - 1);
-			a.sub(scratch2, scratch, scratch2);
-			a.ror(scratch, src, scratch2);
+			a.and_(rshift, rshift, (inst.size() * 8) - 1);
+			a.ror(scratch, src, rshift);
 		}
 
-		const a64::Gp mask = maskp.select_register(SCRATCH_REG2, inst.size());
-		mov_reg_param(a, inst.size(), mask, maskp);
+		const a64::Gp mask = maskp.select_register(SCRATCH_REG1, inst.size());
+		if (!maskp.is_immediate() || !is_valid_immediate_mask(maskp.immediate(), inst.size()) || !is_valid_immediate_mask(~maskp.immediate() & util::make_bitmask<uint64_t>(instbits), inst.size()))
+			mov_reg_param(a, inst.size(), mask, maskp);
+
+		// val2 = val2 & PARAM3
+		if (maskp.is_immediate() && is_valid_immediate_mask(maskp.immediate(), inst.size()))
+			a.and_(scratch, scratch, maskp.immediate());
+		else
+			a.and_(scratch, scratch, mask);
+
+		// val1 = src & ~PARAM3
+		if (maskp.is_immediate() && is_valid_immediate_mask(~maskp.immediate() & util::make_bitmask<uint64_t>(instbits), inst.size()))
+			a.and_(dst, dst, ~maskp.immediate() & util::make_bitmask<uint64_t>(instbits));
+		else
+			a.bic(dst, dst, mask);
 
-		a.bic(dst, dst, mask); // val1 = src & ~PARAM3
-		a.and_(scratch, scratch, mask); // val2 = val2 & PARAM3
 		a.orr(dst, dst, scratch); // val1 | val2
 	}