-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathsbatch.sh
32 lines (25 loc) · 1.35 KB
/
sbatch.sh
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
#!/bin/bash
#SBATCH --job-name=new_clm_pretrain # 作业名称
#SBATCH --nodes=4 # 请求的节点数
#SBATCH --ntasks-per-node=1 # 每个节点上的任务数
#SBATCH --output=./logs/clm_pretrain_%j.out # 标准输出文件
#SBATCH --error=./logs/clm_pretrain_%j.err # 标准错误文件
#SBATCH -p gpu-a100 # 指定分区
#SBATCH -t 48:00:00 # 时间限制
#SBATCH [email protected]
#SBATCH --mail-type=begin
#SBATCH --mail-type=end
# 初始化 Conda 环境
source /work/09735/yichao/ls6/miniconda/etc/profile.d/conda.sh
# 激活你的 Conda 环境
conda activate drugassist-jay
# 切换到特定的工作目录
cd /work/09735/yichao/ls6/zhilian/new_paper_code
# export PYTORCH_CUDA_ALLOC_CONF="expandable_segments:True"
# 获取主节点的地址
MASTER_ADDR=$(hostname)
# 执行PyTorch分布式训练命令
# seq,base,target_name,seq_esm
t="seq"
bs=5
srun bash -c "torchrun --nproc_per_node=3 --nnodes=4 --node_rank=\$SLURM_NODEID --master_addr=$MASTER_ADDR --master_port=29500 train.py --model-choice transformer --num-epoch 200 --batch-size ${bs} --data-type ${t} --data-path /work/09735/yichao/ls6/zhilian/new_paper_code --save-directory /work/09735/yichao/ls6/zhilian/new_paper_code/pretrain_${t}_cut --seq2vec-path /work/09735/yichao/ls6/zhilian/new_paper_code/seq2vec.pkl"