We currently register recurring performance degradations on HPCWORK directories which might be partly worsened by the on-going migration process leading on to the filesystem migration on April, 17th. The problems cannot be traced back to a single cause but are actively investigated.
Due to technical problems, we will have to postpone the maintenance (and the final lustre migration step) to 23.04.2024 07:00.
The whole clusters needs to be updated with a new kernel such that user namespaces can be reenabled again, please compare https://maintenance.itc.rwth-aachen.de/ticket/status/messages/14/show_ticket/8929 Simultaneously the Infiniband Stack will be updated for better performance and stability. During this maintenance, the dialog systems and the batchsystem will not be available. The dialog systems are expected to be reopened in the early morning. We do not believe that the maintenance will last the whole day but expect the cluster to open earlier.
Due to technical problems, we will have to postpone the maintenance to 23.04.2024 07:00.
Unfortunately, unplanned complications have arisen during maintenance, so that maintenance will have to be extended until midday tomorrow. We will endeavor to complete the work by then. We apologize for any inconvenience this may cause.
During the Claix HPC System Maintenance, the HPC JupyterHub will be updated to a newer version. This will improve Claix 2023 support as well mandatory security updates. The whole clusters needs to be updated with a new kernel.
The migration was successfully completed.
During the stated time Claix-2023 will not be available due to a benchmark run for the Top500 list[1]. Batch jobs which cannot finish before the start of this downtime or which are scheduled during this time period will be kept in queue and started after the cluster resumes operation. [1] https://www.top500.org
The nodes are available now again
There are currently longer waiting times in the ML partition as the final steps of the acceptance process are still being carried out.
The waiting times should be better now
+++ German version below +++ The RegApp will be updated on 2024-04-03. During the update window, the service will be unavailable for short time intervals. Active sessions should not be affected. +++ English version above +++ Am 03.04.2024 wird die RegApp aktualisiert. Während des Updatefensters kann der Dienst für kurze Zeit unterbrochen sein. Aktive Sitzungen sollten nicht betroffen sein.
There are currently problems when submitting jobs. We are working on fixing the problems and apologize for the inconvenience.
The problem is solved now.
(German version below) Due to an open security issue we are required to disable the feature of so-called user namespaces on the cluster. This feature is mainly used by containerization software and affects the way apptainer containers will behave. The changes are effective immediately. Most users should not experience any interruptions. If you experience any problems, please contact us as usual via servicedesk@itc.rwth-aachen.de with a precise description of the features you are using. We will reactivate user namespaces as soon as we can install the necessary fixes for the aforementioned vulnerability. Update: We have installed a bugfix release for the affected software component and enabled user namespaces again. --- Aufgrund eines ausstehenden Sicherheitsproblems müssen wir sogenannte User Namespaces auf dem Cluster vorübergehend deaktivieren. Dieses Feature wird hauptsächlich von Containervirtualisierungssoftware wie Apptainer genutzt und die Abschaltung hat einen Einfluss darauf, wie diese Container intern aufgesetzt werden. Die meisten Nutzer sollten von diesen Änderungen nicht direkt betroffen sein und nahtlos weiterarbeiten können. Sollten Sie dennoch Probleme entdecken, kontaktieren Sie uns bitte via servicedesk@itc.rwth-aachen.de und schildern Sie uns, wie konkret Sie Ihre Container starten. Sobald wir einen Patch für die Sicherheitslücke einspielen können, werden wir User Namespaces wieder aktivieren. Update: Wir haben einen Bugfix für die betroffene Softwarekomponente installiert und User Namespaces wieder aktiviert.
Zurzeit werden keine Daten auf /hpcwork angezeigt. Die Fachabteilung ist informiert und arbeitet an der Lösung. ---english--- At the moment, no data are shown on /hpcwork. We are working on a solution of the problem.
Die Störung wurde behoben. // The problem has been solved.
Both CLAIX18 copy nodes will be rebooted on Monday, January 29th, 6.00 am (CET) due to a scheduled kernel upgrade. The systems will temporarily unavailable and cannot be used until the kernel update is finished.
Aufgrund von Netzwerkromplemen kann es im angegeben Zeitraum zu Problemen bei der Nutzung des Clusters gekommen sein.
For the login to login18-4.hpc.itc.rwth-aachen.de it is again mandatory to use two-factor authentication. For details see https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/475152f6390f448fa0904d02280d292d/
Momentan kann keine Verbindung zum Windows-Cluster hergestellt werden. Die Kollegen sind informiert und arbeiten an der Behebung des Problems. -- english -- At the moment it is not possible to connect to the windows cluster. We are working on a solution of the problem.
--English Version Below-- Die Störung konnte behoben werden. Eine Verbindung mit dem Windows-Cluster ist wieder möglich. --English Version-- The error has been resolved. You can connect to the Windows cluster again.
The jupyterhub.hpc.itc.rwth-aachen.de DNS is Temporary out of Service for 20 Minutes. Problems accessing the hpc JupyterHub might arise from this failure. Please wait until the system comes back online.
Der DGX-2-Knoten nd20-02 wird voraussichtlich Montag, den 27.11. und Dienstag, den 28.11. ganztägig nicht zur Verfügung stehen. Grund hierfür ist das Betriebssystemupdate auf Rocky 8. -- The DGX-2 node nd20-02 will not be available on Monday (27.11.) and Tuesday (28.11.) for the whole day. We will be updating the operating system to Rocky 8 in the specified time
The node needs to be reinstalled and cannot be used until further notice.
The update of the system was successful.
Aufgrund von Wartungsmassnahmen erfolgt das Einrichten von HPC-Accounts verzoegert. Passwort-Aenderungen sind nicht moeglich.
login18-x-2 ist defekt und steht deshalb aktuell nicht zur Verfuegung.
Das System ist wieder ok.
The complete cluster will not be available from 8am to 12am due to system maintenance. Within the maintenance, the HPC Cluster will be upgraded to Rocky 8.9.
Due to technical problems, we have to postpone the maintenance to next week monday
due to technical problems, we have to prolong the maintenance
The maintenance could be finished successfully
Currently, some users receive an error message after logging into the regapp application.. We are already working on a solution. --- Aktuell kommt es bei einigen Nutzern nach dem Login in die Regapp zu einer Fehlermeldung. Wir arbeiten bereits an einer Lösung.
Am 17.10 finden Wartungsarbeiten an der Klimaanlage der Maschinenhalle statt. Aus diesem Grund muss der Batchbetrieb im angegeben Zeitraum angehalten werden und der Cluster leer laufen. Nach den Wartungsarbeiten wird der Batchbetrieb automatisch wieder gestartet. --- Maintenance work on the air conditioning system of the machine hall will take place on 17.10. For this reason, batch operation must be stopped in the specified period and the cluster must run empty. After the maintenance work, batch operation will be restarted automatically.
The maintenance is completed. Jobs are scheduled and executed again. -- Die Wartung ist abgeschlossen. Jobs werden wieder gescheduled und ausgeführt.
Due to a network maintenance in the IT Center building SW23, the HPC Service will be temporarily suspended. During the maintenance, the cluster (including all frontend nodes) will not be available. -- Wegen Wartungsarbeiten am Netzwerk im IT-Center SW23 wird der HPC-Betrieb vorübergehend unterbrochen. Während der Wartung ist der Cluster (alle Frontendknoten einbegriffen) nicht erreichbar.
The network maintenance is completed. Until all services of the cluster are restored, the HPC service will remain suspended.
The cluster is reachable again.
Lustre18 will be temporarily shut down during the maintanance. The frontend nodes will be mandatorily rebooted. -- Lustre18 wird während der Wartung temporär gestoppt. Die Frontendknoten werden erforderlicherweise neu-gestartet.
Aktuell laesst sich auf den HPC-Dialogsystemen das Programm gnome-terminal nicht direkt starten. Wir versuchen aktuell noch herauszufinden, was das Problem ist. Bitte nutzen Sie ersatzweise ein anderes Terminal-Programm wie xterm, mate-terminal oder xfce-terminal. Evtl. ist gnome-terminal auch als Default-Terminal-Applikation in ihrer Desktop-Umgebung eingestellt. In diesem Fall passiert nichts, wenn Sie auf das Terminal-Icon druecken. Sie muessten dann ebenfalls ein anderes Terminal-Programm als Default-Applikation konfigurieren: Currently the program gnome-terminal cannot be started directly on the HPC dialog systems. We are still trying to find out what the problem is. Please use another terminal program like xterm, mate-terminal or xfce-terminal instead. Maybe gnome-terminal is also set as default terminal application in your desktop environment. In this case nothing happens when you press the terminal icon. You would have to configure another terminal program as default application as well: MATE: System - Preferences - Preferred Applications - System - Terminal Emulator XFCE: Applications - Settings - Default Applications - Utilities - Terminal Emulator
One of the DGX-2 systems (nd20-01) will be temporarily unavailable due to a scheduled maintenance. We will be updating the system to Rocky Linux 8.8. Eines der DGX-2-Systeme (nd20-01) wird aufgrund geplanter Wartungsarbeiten vorübergehend nicht verfügbar sein. Wir werden das System auf Rocky 8.8 aktualisieren Update: Due to unforeseen problems, the maintenance has to be extended until Monday. We apologize for the inconvenience. Aufgrund unvorhergesehener Probleme müssen die Wartungsarbeiten bis Montag fortgesetzt werden. Wir bitten die Unannehmlichkeiten zu entschuldigen.
The two systems copy18-1 and copy18-2 will be rebooted for maintenance reasons.
Login - Node login18-2 steht am Dienstag 26.09 von 7 Uhr bis 15 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Node login18-2 will not be available on Tuesday 26.09. from 7 a.m. to 3 p.m. Work is being carried out to improve network stability.
Applikationen, die OpenMPI verwenden, können aufgrund von fehlerhaftem Pinning von MPI-Prozessen auf Cores eine verminderte Leistung/Performance aufweisen. Wir arbeiten an einer Lösung dieses Problems. Das Ersetzen von $MPIEXEC ./a.out durch srun --mpi=pmix ./a.out kann das Problem manchmal teilweise lösen. Wir bitten Nutzer die noch Probleme haben, in der Zwischenzeit IntelMPI zu verwenden. English: Applications that utilize OpenMPI might have reduced performance due to incorrect pinning of MPI processes to cores. We are currently working to solve this problem. Replacing $MPIEXEC ./a.out with srun --mpi=pmix ./a.out can sometimes partially solve the problem. Users who still experience problems, should use IntelMPI in the meantime instead.
HPC services may be disrupted currently, e.g. it may not be possible to login to our dialog nodes, to start JupyterLab notebooks or to submit batch jobs. We are working on fixing the issue.
The problems are solved.
Login - Node login18-4 steht am Mittwoch 30.08 von 6 Uhr bis 15 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Node login18-4 will not be available on Wednesday 30.08. from 6 a.m. to 3 p.m. Work is being carried out to improve network stability.
Login - Nodes: login18-2, login18-g-2, login18-3 stehen am Dienstag 29.08 von 6 Uhr bis 15 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Nodes: login18-2, login18-g-2, login18-3 will not be available on Tuesday 29.08. from 6 a.m. to 3 p.m. Work is being carried out to improve network stability.
Login - Nodes: login18-x-1, login18-g-1, login18-2 stehen am Montag 28.08 von 6 Uhr bis 14 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Nodes: login18-x-1, login18-g-1, login18-2 will not be available on Monday 28.08. from 6 a.m. to 2 p.m. Work is being carried out to improve network stability.
login18-4 acts currently as a test system for two-factor authentication. In order to able to login from external you need to add a 2FA token to your account, cf. https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/fb61d6c86ae245b5b7bba8c0cb7db6eb/ for more details.
Due to the 2FA configuration, login18-4 will not be migrated from CentOS and the old software stack to Rocky 8 and the new software stack until further notice.
login18-4 has been installed with Rocky 8.8 and is again available for all users.
Currently, we strongly recommend using IntelMPI instead of OpenMPI because OpenMPI jobs currently crash non-deterministically or remain in a "completing" state and do not complete successfully.
We have identified the root of the issue and are currently working on reverting the batch nodes to a working configuration. This might lead to slightly prolonged waiting times for new jobs. We will update this incident message as soon as all batch nodes are finished with the procedure.
The affected batch nodes are fully operational again.
The JARDS online submission system for filing applications for RWTH computing projects will be unavailable on 25.07.2023 between 7:00 and 17:00.
In der Wartung wird das aktuelle Betriebssystem Rocky Linux 8.7 auf Rocky Linux 8.8 aktualisiert. Auch die Frontends werden aktualisiert, so dass Sie nicht in der Lage sein werden, sich in den Cluster einzuloggen oder Zugriff auf Ihre Daten zu erhalten. Hierfuer gilt allerdings eine Ausnahme. Die MFA-Testmaschine login18-4 wird erreichbar bleiben, man kann sich dort jedoch nur mit einem zweiten Faktor [1] einloggen. Zeitweise wird aber auch hier $HPCWORK nicht erreichbar sein, da auch das Lustre Filesystem einer Wartung unterzogen wird. Wir gehen nicht davon aus, dass Sie Ihre Software neu kompilieren oder Ihre Jobskripte aendern muessen. Ihre Jobs sollten also nach dem Ende der Wartungsarbeiten normal anlaufen.
The Windows dialog systems (cluster-win.rz.rwth-aachen.de) will not be available due to a necessary relocation of the server hardware.
Several users are currently experiencing difficulties logging in to the login18-x-1 frontend. We are investigating the problem. For the meantime, please use login18-x-2 instead.
Due to network problems the login to login18-x-1 has been deactivated until further notice.
error fixed
Login - Nodes: login18-x-1, login18-g-1, login18-2 stehen am Montag 22.05 von 8 Uhr bis 14 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Nodes: login18-x-1, login18-g-1, login18-2 will not be available on Monday 22.05. from 8 a.m. to 2 p.m. Work is being carried out to improve network stability.
Data Transfer Node copy18-2 steht von Dienstag 16.5. 9:45 Uhr bis Mittwoch 17.5. 15:00 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Redundanz durchgeführt. --- Data Transfer Node copy18-2 will not be available from Tuesday 16.5. 9:45 a.m. to Wednesday 17.5. 3:00 p.m. Work will be done to improve network redundancy.
there will be a maintenance of our ACI tenant, which results in a network interrupt of all our VMs, including LDAP, Kerberos, cvmfs etc. pp. Thus, it is not possible to login during the maintenance, we would also expect that already logged in people could face problems. Regarding the runnning jobs (if there are some) we do not know, how this will be influenced exactly, but hope, that they can run through as expected.
We will have to postpone the maintenance. A new timeslot still needs to be found, so take the changed time as preliminary timeslot.
The maintenance will take place on Monday 15.05.2023 from 13:00 to 14:00
-- english version below -- In der angegebenen Zeit findet die Umstellung des Cluster von CentOS 7 auf Rocky 8 statt. Dabei werden von Woche zu Woche weitere Systeme mit Rocky 8 neuinstalliert und im Batchbetrieb zur Verfügung gestellt. Durch diese Umstellung kann es zu höheren Wartezeiten im Batchbetrieb kommen. Mehr Informationen finden Sie auf der folgenden Seite: https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/c3735af4173543b9b14a3f645a553e8a/ --- In the given time the changeover of the cluster from CentOS 7 to Rocky 8 takes place. From week to week more systems will be reinstalled with Rocky 8 and made available in batch mode. Due to this changeover, there may be longer waiting times in batch mode. More information can be found on the following page: https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/c3735af4173543b9b14a3f645a553e8a/
Incident JARDS online submission system
Aufgrund von einem ungeplanten Neustart vieler virtuellen Maschinen war der Zugang gestört.
Data Transfer Node copy18-2 steht am Donnerstag 13.04. zwischen 10:00 Uhr und 15:00 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Redundanz durchgeführt. --- Data Transfer Node copy18-2 will not be available on Thursday 13.04. between 10:00 and 15:00. Work is being carried out to improve network redundancy.
In this mantenance we will switch the operationg system from CentOS 7 to Rocky 8 on the following dialog systems: login18-2.hpc.itc.rwth-aachen.de login18-3.hpc.itc.rwth-aachen.de login18-x-2.hpc.itc.rwth-aachen.de login18-g-2.hpc.itc.rwth-aachen.de copy18-2.hpc.itc.rwth-aachen.de More backgroud information concerning this change will be provided on the rz-cluster mailinglist.
Das System steht in dem Wartungszeitraum nicht zur Verfuegung. Bitte weichen Sie auf copy18-1 aus.
Die Dialog-Systeme copy18-2, login18-2, login18-3 und login18-g-2 stehen in dem Wartungszeitraum nicht zur Verfuegung. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.
Waehrend der Wartung koennen keine neuen Passworte fuer den HPC-Dienst gesetzt werden. Neue HPC-Accounts werden erst mit Ablauf der Wartung tatsaechlich eingerichtet.
Wartung muss leider verlaengert werden
Die Wartung ist abgeschlossen.
Der Zugriff auf die Home-Verzeichnisse des RWTH Compute Cluster von Windows-Clients aus ist derzeit aus Wartungsgruenden nicht moeglich.
Zugriff funktioniert wieder.
To improve the backupability of the HOME file system, we need to restructure the home directories. To do this, login to the frontend nodes is disabled, no Slurm jobs are executed, and you cannot check the status of your jobs.
Die Systemwartung ist beendet.
Aktuell schlägt unter Umständen das Starten einer Web-Desktop-Session auf http://login18-x-1.hpc.itc.rwth-aachen.de:3000/ fehl. Bitte melden Sie sich stattdessen auf http://login18-x-2.hpc.itc.rwth-aachen.de:3000/ an oder nutzen Sie den FastX-Desktop-Client, s. https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/25f576374f984c888bb2a01487fef193/
JARDS online submission system for NHR projects (NHR large, NHR normal, Prep) will not be available on 09.02.23 between 8-9 o'clock.
JARDS online submission system for NHR projects (NHR large, NHR normal, Prep) will not be available on 06.02.23 between 7-9 o'clock.
Please note that the JARDS online submission system for filing applications for RWTH computing projects (rwth small, rwth thesis and rwth lecture) will not be available on 30.01.23 between 7-9 o'clock.
Please note that the JARDS online submission system for filing applications for NHR projects (NHR large, NHR normal, Prep) and RWTH computing projects (rwth small, rwth thesis and rwth lecture) will not be available on 26.01.23 between 7-8 o'clock.
Please note that the JARDS online submission system for filing applications for RWTH computing projects (rwth small, rwth thesis and rwth lecture) will not be available between 24.12.22.-05.01.23. Please finalize all open applications until 24.01.22. Application for NHR projects (NHR large, NHR normal, Prep) is still possible during this time. However, the online form looks a bit different after January, 1st. Please also consider to finalize all open application before January 1st.
Dear users, unfortunately the maintenance of the JARDS system has to be extended until January 10th
Die Korrektur der Daten war erfolgreich. The Data was fixed. ------------ Durch einen Bug in der Erkennung der Joblaufzeiten ist es bei einzelnen Nutzern zu Diskrepanzen zwischen der tatsächlich genutzten und der abgerechneten Rechenzeit gekommen. An einer Korrektur der Daten wird gearbeitet. -------- English: Due to a bug in the recognition of job runtimes, discrepancies between the actually used and the billed computing time occurred for some users. We are currently working on correcting the affected data.
The HPC JupyterHub will be down for maintenance!
Im angegebenen Zeitraum finden Wartungsarbeiten an den MySQL-Datenbankservern des IT Centers statt. Es werden die aktuellen MySQL- sowie Kernel- und OS-Updates eingespielt. Die vom IT Center gehosteten MySQL Datenbanken werden während dieser Wartung nicht zur Verfügung stehen. Betroffen davon sind auch alle abhängigen Services des IT Centers, d.h. unter anderem Gigamove, MailAdm, Backup Portal, Streamingserver, SeviRe, Laptop Leihpool, JARDS, RWTHblog
Im angegebenen Zeitraum finden Wartungsarbeiten an den MySQL-Datenbankservern des IT Centers statt. Es werden die aktuellen MySQL- sowie Kernel- und OS-Updates eingespielt. Die vom IT Center gehosteten MySQL Datenbanken werden während dieser Wartung nicht zur Verfügung stehen. Betroffen davon sind auch alle abhängigen Services des IT Centers, d.h. unter anderem Gigamove, MailAdm, Backup Portal, Streamingserver, SeviRe, Laptop Leihpool, JARDS, RWTHblog
Die Wartung ist beendet.
login18-2 ist aktuell nicht verfuegbar. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.
login18-2 ist wieder verfuegbar.
login18-4 steht aktuell nicht zur Verfuegung. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.
We will change the authentication and authorization infrastructure for all HPC accounts. During the migration process it will not be possible to change passwords for HPC accounts.
Wartung wurde verlaengert.
Die drei Dialogsysteme login18-2, login18-3 und login18-g-2 stehen am 25.10.22 ab 13:30 Uhr nicht zur Verfuegung. Bitte nutzen Sie eines der anderen Dialogsysteme.
login18-3 und login18-g-2 sind wieder verfuegbar.
login18-x-2 steht aktuell leider nicht zur Verfuegung. Bitte nutzen Sie eines der anderen Dialogsysteme.
login18-x-2 steht wieder zur Verfuegung.
Bei hybriden IntelMPI+OpenMP Applikationen kann es zu einer reduzierten Performance durch das Pinning von OpenMP Threads auf den gleichen Core kommen. Wir empfehlen unseren Nutzern, folgende zwei Umgebungsvariablen zu exportieren, um das Problem zu beheben: export OMP_PLACES=cores export OMP_PROC_BIND=spread English: Hybrid IntelMPI+OpenMP Applications will experience reduced performance due to pinning of OpenMP threads to the same core. We advice users to export these two environment variables to fix the problem: export OMP_PLACES=cores export OMP_PROC_BIND=spread
Auf login18-x-1 koennen aktuell keine neuen FastX-Sessions gestartet werden. Bitte nutzen Sie login-1.hpc.itc.rwth-aachen.de stattdessen.
Gegenwärtig kommt es leider zu wiederkehrenden Problemen, bei denen das Submittieren von Jobs und der Einsatz von Slurm Befehle manchmal nicht funktioniert. Die Ursache für die Probleme ist der Absturz des Slurm Controllers. Wir arbeiten mit Hochdruck an einer Dauerlösung und raten betroffenen Nutzenden, das Submittieren und die Befehle zeitnah erneut zu versuchen. We are currently facing issues where the submission of jobs and usage of SLURM commands does not always work. The source of the Problem is a hanging SLURM Controller Daemon. We are working on a permanent solution to this problem and advise affected users to retry submissions and commands after some time.
Leider treten die Hänger von Zeit zu Zeit weiterhin auf und wir versuchen weiterhin die Ursache zu finden. Inzwischen wurden weitere Prozesse implemnetiert um solche Hänger automatisiert schnell zu erkennen und die notwendigen Maßnahmen zum Neustart einleiten zu können. Unfortunately, the hangs still occur from time to time and we are still trying to find the cause. In the meantime, further processes have been implemented in order to quickly detect such hangs automatically and to be able to initiate the necessary measures for restarting.
Das Problem ist behoben --en-- The issue has been fixed.
Das Problem tritt wieder auf. The problem is back.
login18-x-2 ist gestoert und steht aktuell nicht zur Verfuegung. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.
login18-x-2 steht wieder zur Verfuegung.
due to necessary maintenance work on the network infrastructure of the RWTH Compute Cluster we have to do a complete maintenance of the cluster on 07.09.2022 from 09:00 to 13:00. During this time no jobs will start, working with jobs (submit, cancel etc. pp) will not be possible. Also the frontends will not be available during this time. So you will not be able to log in and view your data either.
due to unforseen circumstances, the maintenance has to be prolonged to 3 o'clock pm
Derzeit kann man sich nicht an die Windows Frontends der Clusters anmelden. Wir arbeiten an der Behebung. --en-- Currently it is not possible to log in to the Windows frontends of the cluster. We are working on it.
Das Problem ist behoben --en-- The issue has been fixed.
Die Dialog-Systeme copy18-2, login18-2, login18-3, login18-g-1, login18-g-2 stehen aktuell nicht zur Verfuegung. Bitte nutzen Sie stattdessen eines der anderen Dialogsysteme.
login18-g-1 steht jetzt wieder zur Verfuegung, login18-4 wurde fuer den Nutzerbetrieb gesperrt.
Die Dialog-Systeme copy18-2,login18-2,login18-3,login18-g-2 stehen jetzt wieder zur Verfuegung.
Gegenwärtig kommt es leider erneut zu wiederkehrenden Problemen, bei denen das Submittieren von Jobs, die GPUs anfordern, mit der Fehlermeldung "Batch job submission failed: Requested node configuration is not available" abgebrochen wird. Wir arbeiten mit Hochdruck an einer Lösung des Problems, können es aktuell aber nur vorübergehend beheben. Wir raten betroffenen Nutzenden, das Submittieren zeitnah erneut zu versuchen. We are currently facing again a recurrent issue where the submission of jobs requesting GPU nodes is aborted with the error message "Batch job submission failed: Requested node configuration is not available". We are working dedicatedly on a solution to this problem. However, we can only fix it temporarily at the moment. We advise affected users to retry submission after some time.
Die GPU-Partitionen funktionieren nach dem neuen SLURM-Update wie vorgesehen.
Dear cluster user, We scheduled a major update for our workload manager SLURM for Tuesday, 26.07.2022 from 8 am to 12 am. During this maintenance we will deactivate SLURM on each machine. Thus, * no new jobs will / can be submitted, * no jobs will run, * the job status cannot be queried. The login to the frontend nodes will still be possible. For further questions, please contact servicedesk@itc.rwth-aachen.de Best regards Your HPC team
The upgrade of the database takes longer, than we expected. We prolonged the maintenance by one hour.
login18-x-2 steht aktuell nicht zur Verfuegung.
login18-x-2 ist jetzt wieder verfuegbar.
Der Cluster steht in dem genannten Zeitraum nicht zur Verfuegung.
Gegenwärtig kommt es zu wiederkehrenden Problemen, bei denen das Submittieren von Jobs, die GPUs anfordern, mit der Fehlermeldung "Batch job submission failed: Requested node configuration is not available" abgebrochen wird. Wir arbeiten mit Hochdruck an einer Lösung des Problems, können es aktuell aber nur vorübergehend beheben. Wir raten betroffenen Nutzenden, das Submittieren zeitnah erneut zu versuchen. We are currently facing a recurrent issue where the submission of jobs requesting GPU nodes is aborted with the error message "Batch job submission failed: Requested node configuration is not available". We are working dedicatedly on a solution to this problem. However, we can only fix it temporarily at the moment. We advise affected users to retry submission after some time.
Zurzeit funktioniert das Submittieren. Wir bereiten aktuell ein Update von Slurm vor, mit einer Unterbrechung des Dienstes ist nicht zu rechnen. At the moment the submission is working. We are currently preparing an update of Slurm, service interruption is not expected.
Das SUbmitieren von GPU Jobs sollte wieder zuverlässig funktionieren.