Delete all references to DMTCP
As described and thoroughly tested here !765
DMTCP's usage is severely limited and cannot be recommended as a general solution:
nach meinem aktuellen Verständnis sind die Beschränkungen folgend:
- DMTCP funktioniert für serielle und thread-parallele Anwendungen
- DMTCP funktioniert für MPI-parallele Anwendungen nur, wenn diese auf nur einem Knoten ausgeführt werden
- für MPI-parallele Anwendungen nutzt DMTCP scheinbar hydra, ein Plugin von mpiexec, was dann auch erklärt, warum ein Programmaufruf nur mit mpiexec und nur auf einem Knoten gelingt (srun nicht)
so weit der aktuelle Stand, folgende weiterführende Perspektiven sehe ich:
- DMTCP selbst mal bauen, gucken ob damit Probleme lösbar wären
- MANA (immer noch in der beta-Version) selbst bauen und ausprobieren
- mit hydra mehr auseinandersetzen, vielleicht lässt sich damit noch mehr machen
- ist das überhaupt ein Problem, das gelöst werden muss? diese Tools kommen und gehen, denn: Maintaining sehr aufwendig, viele Abhängigkeiten, sehr kompliziert, nicht genügend Geld dafür vorhanden
Bis weitere Recherchen unternommen sind, bin ich dafür, generische "Lösungen" für Checkpoint/Restart bei MPI-parallelen Programmen aus dem Wiki zu löschen.