• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

SLURM auf 4-Node-Server mit RHEL 8, Frage zur Nutzung

Liebe Community,

ich bin neu hier und freue mich auf den regen Austausch mit euch!
Ich bin vor Kurzem zufällig an einen HP ProLiant DL1000 G6 Server genkommen, er enthält vier DL170h G6 Nodes. Der ist zwar schon ein wenig in die Jahre gekommen, aber dennoch für ein privates Serverprojekt dürfte er noch gut geeignet sein. Ich bin freizeitlich in einer kleinen Arbeitsgruppe als Mathematiker engagiert und vieles läuft bei uns über "Stift & Papier" ab, aber es wäre auch irgendwie schön, mal mit Simulationen zu arbeiten. Konkret geht es um geophysikalische Simulationen und das, was uns dazu bislang gefehlt hat, war die Hardware. Nun haben wir zumindest mal eine Form von Hardware, mit der wir sowas ausprobieren wollen und daher habe ich mich beigemacht und versucht, einen HPC aus dem Ganzen zu machen. Ich erwarte natürlich von diesem alten Server keine State-of-the-Art-Rechenleistungen, es ist einfach ein Experiment.

Dazu sei gesagt, dass ich wirklich kein Linux- oder Serverexperte bin, daher bitte ich um Nachsicht, wenn ich mal wieder viele Dinge nicht verstehe und fünfmal nachfragen muss.

Nun ist es so, dass ich mich in SLURM eingelesen habe und auf allen vier Nodes soweit auch installiert habe. Jedes Node hat
- RHEL 8.6
- Munge, Munge-libs
- Slurm mit -libs, -doc, -gui, slurmd, slurmdbd
- das Mainnode hat zusätzlich slurmctld

Die Nodes sind über einen Gbit-Switch miteinander verbunden.

Nun soll die ganze Sache als HPC zusammenarbeiten und hier weiß ich gerade noch nicht, wie das funktioniert. Bevor ich irgendetwas kaputt mache, wende ich mich daher an Leute, die damit Erfahrungen haben und mir Hinweise geben möchten.

Ich danke euch im Voraus für eure Mühe!
Viele Grüße
Maik
 

susejunky

Moderator
Teammitglied
Hallo Vaultdoor101,

herzlich willkommen im Linux Club Forum.

Ich kann Dir nicht sagen, ob man Dir hier im Forum mit Deinen Fragen weiterhelfen kann (ich kann es nicht), drücke Dir aber beide Daumen, dass sich jemand mit den gefragten Kenntnissen findet.

Viel Spaß hier im Forum wünscht Dir

susejunky
 

marce

Guru
... bevor Du einen HPC "an den Start" kriegst - hast Du denn überhaupt schon eine Software, die Deine Simulationen berechnen soll? Ist diese Clusterfähig? Sind Deine Rohdaten in einer Form, die Parallel-Job-Verarbeitung zulässt?
 
OP
V

Vaultdoor101

Newbie
Hallo zurück und danke für die freundliche Aufnahme!

Ja, Software haben wir und die ist auch clusterfähig. Mir ist momentan erstmal nur wichtig, wie ich mit Slurm anfange zu arbeiten.

Viele Grüße
Maik
 
OP
V

Vaultdoor101

Newbie
Hi spoensche,

ja, ist sicherlich nicht das am häufigsten vorkommende Problem, das ich hier schildere, aber es ist ja einen Versuch wert, das hier im Forum zu posten.
Möglicherweise finde ich meine Lösungen selber und kann dann hier berichten :)

Viele Grüße
Maik
 

StephanS

Member
Hallo Maik,

grundsätzlich brauchst du noch drei Dinge:
  1. Die Software, die deine Applikation clusterfähig macht. Meistens ist das MPI (OpenMPI, Intel, MPI ..). Evtl. hast du das schon, weil du oben ja beschrieben hast, dass die Applikation clusterfähig ist.
  2. Ein Jobskript, das die Eingabedaten ins Arbeitsverzeichnis holt, die Berechnungsergebnisse ins Zielverzeichnis schreibt, und dazwischen deine Applikation (über mpirun oder was auch immer) startet. Die Information über die Rechner, auf denen sie gestartet werden soll, und mit jeweils wie vielen CPU-Kernen, wird von SLURM wahrscheinlich über Umgebungsvariablen geliefert. Aber Slurm kenn ich auch nicht konkret. Das Jobskript muss komplett automatisch ohne jegliche Benutzerabfragen laufen können.
  3. Ein Submitskript, das dein Jobskript an Slurm übergibt. Notfalls geht es auch ohne, wenn du dir jedes mal die Kommandozeilenparameter des Submitbefehls heraussuchen willst. Eventuell findest du "Open OnDemand" nützlich.
Viele Grüße
Stephan
 
Oben