Eine Seite für OpenMPI-Probleme anlegen

OpenMPI- & MP- Probleme

Eine Seite für OpenMPI-Probleme, mit Beschreibungen, Erklärungen, Best-Practices bzw. Troubleshooting. Konkrete folgende Issues 'abfrühstücken':

Issues (vgl. unten):

Bestehende Seiten auf die man vlt. in dem Zusammenhang mal schauen will:

Report by Denis Hünich

Vlt. wäre es gut wenn wir die Probleme mit RDMA dokumentieren die Denis Hünich durchgemacht hat:

hui, wieder was gelernt. scheinbar ist MPI_Alloc_mem + MPI_Win_create != MPI_Win_allocate
bei ersterem bekomme ich seg. faults, beim zweiten nicht
aber nur wenn ich etwas in der größenordnung 200GByte auf dem Knoten benötige (romeo)
Das schlimme ist, dass MPI_Win_Alloc scheinbar richtig allokiert hat, also keinen Fehler geworfen hat. Im Programm aber dann der seg. fault kam
so eine Scheiße, über zwei Tage da rein gesetzt
Zitat aus "Using advanced MPI": "Using MPI_Win_allocate rather than separate MPI_Alloc_mem + MPI_Win_create may allow the MPI impl to optimize the memory allocation" 

=> MPI_Alloc_mem + MPI_Win_create nutzen statt dem defekten MPI_Win_allocate für RDMA (bei OpenMPI/4.0.5)

Report by Rico Bergmann:

Document problems with Rmpi and UCX

Using the R parallel library on MPI clusters has shown problems when using more than a few nodes. The error messages indicate that there are buggy interactions of R/Rmpi/OpenMPI and UCX. Disabling UCX has solved these problems in our experiments. Documenting this workaround could be beneficial for other R users.

We invoked the R script successfully with the following command:

mpirun -mca btl_openib_allow_ib true --mca pml ^ucx --mca osc ^ucx -np 1 Rscript --vanilla the-script.R

where the arguments -mca btl_openib_allow_ib true --mca pml ^ucx --mca osc ^ucx disable usage of UCX.

Edited by Lars Jitschin