knowhow:slurm:faq

Página visible a externos sin autenticación

Ejecución de modelos en nodos de cómputo

Cuando ejecutas un modelo, debes tener en cuenta que los modelos se ejecutan en nodos volátiles, mientras que el nodo de control o login es persistente. Recuerda colocar lógica para guardar los resultados antes de finalizar.

Sí lo hay. Se recomienda que no guardes directamente archivos generados por el programa que no necesites. Una buena práctica es:

  • Guardar solo el mejor modelo.
  • Guardar las métricas de los modelos final e intermedios.

En realidad, solo hay dos:

  1. Que cumplas la cuota de tiempo.
  2. Que finalice el programa.

Los programas encolados se restauran y Slurm vuelve a ejecutar el programa asignado en cada nodo.

El programa se ejecuta desde cero. Para no perder avance debes colocar checkpoints y hacer que tu programa continúe por donde lo dejó.

No, depende de cómo programes el checkpoint. Normalmente continúa por la última iteración de entrenamiento que estuviera haciendo, empezando de nuevo dicha fase.

Slurm no controla cuándo finaliza tu código, pero puedes realizar un seguimiento y control que se imprima por pantalla. En el archivo .out podrás seguir la evolución.

Es recomendable usar un archivo JSON que contenga la lista de modelos procesados/sin procesar. De forma que, si en una ejecución no han finalizado, este archivo te sirva para ver por dónde se quedó.

Es una estimación complicada, pero si has seguido las indicaciones anteriores, coloca un tiempo prudencial, aunque te quedes corto. Si al finalizar el trabajo no ha terminado lo puedes volver a lanzar y continuará casi por donde lo dejó.

Se podría, pero no es recomendable. Montar el entorno virtual en la máquina donde no se ejecuta el modelo es ineficiente. Los 10 minutos que te ahorras son horas que puedes perder.

Debes programar tu código para que sea resiliente a caídas:

  • Utiliza checkpoints de resultados.
  • Apóyate de modelos intermedios que pases al nodo persistente.
  • En el código de un sbatch encontrarás cómo cargar esos artefactos intermedios que te permiten continuar la ejecución.
  • knowhow/slurm/faq.txt
  • Última modificación: 2026/05/21 09:48
  • por lbernal