pass@k的计算方式

前一段时间关注到了skcoder，在aixbench上效果很好，所以想尝试复现一下在其实验结果。
但是有两个问题，希望能够解答🙏🏻

1 想问一下skcoder这篇论文中的aixbench用的测试集就是这个仓库里的文件吗？

2 如何计算pass@k呢，在humaneval中是通过重复生成200个答案，然后通过采样的方式获得稳定的pass@k的指标，这个仓库中实现代码我看是直接把生成的代码封装成类跑一下evaluation查看是否通过，这样的结果应该算作是pass@1。但是选取这样生成一次的结果来计算指标的偏差可能存在过大的问题，所以想问一下skcoder中pass@k的计算方式和这个仓库一样吗？还是说有什么其他等效的方法。

希望能得到您的回复，感谢感谢！