Eine Seite für OpenMPI-Probleme anlegen
OpenMPI- & MP- Probleme
Eine Seite für OpenMPI-Probleme, mit Beschreibungen, Erklärungen, Best-Practices bzw. Troubleshooting. Konkrete folgende Issues 'abfrühstücken':
Issues (vgl. unten):
- #163 (closed) (One-Sided-Communication/RDMA-Probleme)
- #270 (closed) (UCX/Treiber-Probleme beim Einsatz von R)
Bestehende Seiten auf die man vlt. in dem Zusammenhang mal schauen will:
- jobs_and_resources/slurm_examples/#openmp-jobs
- jobs_and_resources/binding_and_distribution_of_tasks/#openmp-strategies
- software/debuggers/#multi-threaded-program-example
Report by Denis Hünich
Vlt. wäre es gut wenn wir die Probleme mit RDMA dokumentieren die Denis Hünich durchgemacht hat:
hui, wieder was gelernt. scheinbar ist MPI_Alloc_mem + MPI_Win_create != MPI_Win_allocate
bei ersterem bekomme ich seg. faults, beim zweiten nicht
aber nur wenn ich etwas in der größenordnung 200GByte auf dem Knoten benötige (romeo)
Das schlimme ist, dass MPI_Win_Alloc scheinbar richtig allokiert hat, also keinen Fehler geworfen hat. Im Programm aber dann der seg. fault kam
so eine Scheiße, über zwei Tage da rein gesetzt
Zitat aus "Using advanced MPI": "Using MPI_Win_allocate rather than separate MPI_Alloc_mem + MPI_Win_create may allow the MPI impl to optimize the memory allocation"
=> MPI_Alloc_mem
+ MPI_Win_create
nutzen statt dem defekten MPI_Win_allocate
für RDMA (bei OpenMPI/4.0.5)
Report by Rico Bergmann:
Document problems with Rmpi and UCX
Using the R parallel library on MPI clusters has shown problems when using more than a few nodes. The error messages indicate that there are buggy interactions of R/Rmpi/OpenMPI and UCX. Disabling UCX has solved these problems in our experiments. Documenting this workaround could be beneficial for other R users.
We invoked the R script successfully with the following command:
mpirun -mca btl_openib_allow_ib true --mca pml ^ucx --mca osc ^ucx -np 1 Rscript --vanilla the-script.R
where the arguments -mca btl_openib_allow_ib true --mca pml ^ucx --mca osc ^ucx
disable usage of UCX.