Diferencias

Muestra las diferencias entre dos versiones de la página.

--- knowhow:slurm:guias_de_uso [2026/05/20 15:28] – [7. Instalación del entorno] lbernal
+++ knowhow:slurm:guias_de_uso [2026/05/20 16:15] (actual) – [1. Directivas #SBATCH] adriancr
@@ Línea 44: / Línea 44: @@
 #SBATCH --ntasks=1                     # Numero de tareas MPI (procesos paralelos)
 #SBATCH --cpus-per-task=19             # Hilos de CPU por tarea
-#SBATCH --gres=gpu:nvidia_h100_nvl:1   # Recurso generico: 1 GPU H100 NVL o gpu:1 para cualquiera
+#SBATCH --gres=gpu:1                   # Recurso generico: 1 GPU H100 NVL o gpu:1 para cualquiera
 #SBATCH --mem=31G                      # Memoria RAM total reservada en el nodo
 #SBATCH --time=24:00:00                # Tiempo maximo de ejecucion (HH:MM:SS)
@@ Línea 98: / Línea 98: @@
 | ''#SBATCH --ntasks=1''                  | Número de //tareas// MPI. Sin MPI deja **1**. |
 | ''#SBATCH --cpus-per-task=19''          | Hilos de CPU por tarea. Ajusta a los //workers// de tu //DataLoader//. |
-| ''#SBATCH --gres=gpu:nvidia_h100_nvl:1''| 1 GPU H100 NVL. Para cualquier GPU: ''gpu:1''. Para 2: ''gpu:2''. |
+| ''#SBATCH --gres=gpu:1''| 1 GPU H100 NVL. Para cualquier GPU: ''gpu:1''. Para 2: ''gpu:2''. |
 | ''#SBATCH --mem=31G''                   | RAM total del nodo. Pide solo lo necesario para no bloquear a otros. |
 | ''#SBATCH --time=24:00:00''             | Límite de tiempo en HH:MM:SS. Al superarlo, Slurm //mata// el job. |
@@ Línea 161: / Línea 161: @@
 los //checkpoints// del scratch.
-<note warning>
+<WRAP center round important 60%>
 Si Slurm mata el job con ''SIGKILL'' (señal 9, no capturable), el ''trap'' **no
 se ejecuta**. Esto ocurre típicamente al agotar el ''--time'' tras un periodo
 de gracia. Configura tu entrenamiento para guardar //checkpoints//
 periódicamente al ''PERSISTENT_ARTIFACTS_DIR'' como red de seguridad.
-</note>
+</WRAP>
 ==== 6. Copia de código, datos y artefactos al scratch ====