| Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa |
| knowhow:slurm:guias_de_uso [2026/05/20 15:28] – [7. Instalación del entorno] lbernal | knowhow:slurm:guias_de_uso [2026/05/20 16:15] (actual) – [1. Directivas #SBATCH] adriancr |
|---|
| #SBATCH --ntasks=1 # Numero de tareas MPI (procesos paralelos) | #SBATCH --ntasks=1 # Numero de tareas MPI (procesos paralelos) |
| #SBATCH --cpus-per-task=19 # Hilos de CPU por tarea | #SBATCH --cpus-per-task=19 # Hilos de CPU por tarea |
| #SBATCH --gres=gpu:nvidia_h100_nvl:1 # Recurso generico: 1 GPU H100 NVL o gpu:1 para cualquiera | #SBATCH --gres=gpu:1 # Recurso generico: 1 GPU H100 NVL o gpu:1 para cualquiera |
| #SBATCH --mem=31G # Memoria RAM total reservada en el nodo | #SBATCH --mem=31G # Memoria RAM total reservada en el nodo |
| #SBATCH --time=24:00:00 # Tiempo maximo de ejecucion (HH:MM:SS) | #SBATCH --time=24:00:00 # Tiempo maximo de ejecucion (HH:MM:SS) |
| | ''#SBATCH --ntasks=1'' | Número de //tareas// MPI. Sin MPI deja **1**. | | | ''#SBATCH --ntasks=1'' | Número de //tareas// MPI. Sin MPI deja **1**. | |
| | ''#SBATCH --cpus-per-task=19'' | Hilos de CPU por tarea. Ajusta a los //workers// de tu //DataLoader//. | | | ''#SBATCH --cpus-per-task=19'' | Hilos de CPU por tarea. Ajusta a los //workers// de tu //DataLoader//. | |
| | ''#SBATCH --gres=gpu:nvidia_h100_nvl:1''| 1 GPU H100 NVL. Para cualquier GPU: ''gpu:1''. Para 2: ''gpu:2''. | | | ''#SBATCH --gres=gpu:1''| 1 GPU H100 NVL. Para cualquier GPU: ''gpu:1''. Para 2: ''gpu:2''. | |
| | ''#SBATCH --mem=31G'' | RAM total del nodo. Pide solo lo necesario para no bloquear a otros. | | | ''#SBATCH --mem=31G'' | RAM total del nodo. Pide solo lo necesario para no bloquear a otros. | |
| | ''#SBATCH --time=24:00:00'' | Límite de tiempo en HH:MM:SS. Al superarlo, Slurm //mata// el job. | | | ''#SBATCH --time=24:00:00'' | Límite de tiempo en HH:MM:SS. Al superarlo, Slurm //mata// el job. | |
| los //checkpoints// del scratch. | los //checkpoints// del scratch. |
| |
| <note warning> | |
| | <WRAP center round important 60%> |
| Si Slurm mata el job con ''SIGKILL'' (señal 9, no capturable), el ''trap'' **no | Si Slurm mata el job con ''SIGKILL'' (señal 9, no capturable), el ''trap'' **no |
| se ejecuta**. Esto ocurre típicamente al agotar el ''--time'' tras un periodo | se ejecuta**. Esto ocurre típicamente al agotar el ''--time'' tras un periodo |
| de gracia. Configura tu entrenamiento para guardar //checkpoints// | de gracia. Configura tu entrenamiento para guardar //checkpoints// |
| periódicamente al ''PERSISTENT_ARTIFACTS_DIR'' como red de seguridad. | periódicamente al ''PERSISTENT_ARTIFACTS_DIR'' como red de seguridad. |
| </note> | </WRAP> |
| | |
| |
| ==== 6. Copia de código, datos y artefactos al scratch ==== | ==== 6. Copia de código, datos y artefactos al scratch ==== |