Zurück | News

Rechner-Cluster - Performance Problems on HPCWORK

Montag 08.04.2024 11:00 - Mittwoch 24.04.2024 17:00

We currently register recurring performance degradations on HPCWORK directories which might be partly worsened by the on-going migration process leading on to the filesystem migration on April, 17th. The problems cannot be traced back to a single cause but are actively investigated.

Fr 12.04.2024 11:35

Updates

Due to technical problems, we will have to postpone the maintenance (and the final lustre migration step) to 23.04.2024 07:00.

Di 16.04.2024 16:21

Rechner-Cluster - System Maintenance

Dienstag 23.04.2024 07:00 - Mittwoch 24.04.2024 12:00

The whole clusters needs to be updated with a new kernel such that user namespaces can be reenabled again, please compare https://maintenance.itc.rwth-aachen.de/ticket/status/messages/14/show_ticket/8929 Simultaneously the Infiniband Stack will be updated for better performance and stability. During this maintenance, the dialog systems and the batchsystem will not be available. The dialog systems are expected to be reopened in the early morning. We do not believe that the maintenance will last the whole day but expect the cluster to open earlier.

Mi 10.04.2024 11:22

Updates

Due to technical problems, we will have to postpone the maintenance to 23.04.2024 07:00.

Di 16.04.2024 16:22

Unfortunately, unplanned complications have arisen during maintenance, so that maintenance will have to be extended until midday tomorrow. We will endeavor to complete the work by then. We apologize for any inconvenience this may cause.

Di 23.04.2024 16:27

Rechner-Cluster - HPC JupyterHub update

Dienstag 23.04.2024 07:00 - Mittwoch 24.04.2024 12:00

During the Claix HPC System Maintenance, the HPC JupyterHub will be updated to a newer version. This will improve Claix 2023 support as well mandatory security updates. The whole clusters needs to be updated with a new kernel.

Di 23.04.2024 07:03

Updates

The migration was successfully completed.

Mi 24.04.2024 13:40

Rechner-Cluster - Top500 - Benchmark

Donnerstag 11.04.2024 17:00 - Freitag 12.04.2024 09:10

During the stated time Claix-2023 will not be available due to a benchmark run for the Top500 list[1]. Batch jobs which cannot finish before the start of this downtime or which are scheduled during this time period will be kept in queue and started after the cluster resumes operation. [1] https://www.top500.org

Do 11.04.2024 17:09

Updates

The nodes are available now again

Fr 12.04.2024 09:27

Rechner-Cluster - Longer waiting times in the ML partition

Mittwoch 03.04.2024 16:00 - Donnerstag 11.04.2024 13:11

There are currently longer waiting times in the ML partition as the final steps of the acceptance process are still being carried out.

Do 04.04.2024 10:09

Updates

The waiting times should be better now

Do 11.04.2024 13:11

Rechner-Cluster - RegApp Service Update

Mittwoch 03.04.2024 14:00 - Mittwoch 03.04.2024 14:30

+++ German version below +++ The RegApp will be updated on 2024-04-03. During the update window, the service will be unavailable for short time intervals. Active sessions should not be affected. +++ English version above +++ Am 03.04.2024 wird die RegApp aktualisiert. Während des Updatefensters kann der Dienst für kurze Zeit unterbrochen sein. Aktive Sitzungen sollten nicht betroffen sein.

Mi 27.03.2024 13:59

Rechner-Cluster - Problems with submitting jobs

Mittwoch 03.04.2024 12:00 - Mittwoch 03.04.2024 14:03

There are currently problems when submitting jobs. We are working on fixing the problems and apologize for the inconvenience.

Mi 03.04.2024 12:36

Updates

The problem is solved now.

Mi 03.04.2024 14:03

Rechner-Cluster - Deactivation of User Namespaces

Freitag 12.01.2024 10:30 - Donnerstag 08.02.2024 08:00

(German version below) Due to an open security issue we are required to disable the feature of so-called user namespaces on the cluster. This feature is mainly used by containerization software and affects the way apptainer containers will behave. The changes are effective immediately. Most users should not experience any interruptions. If you experience any problems, please contact us as usual via servicedesk@itc.rwth-aachen.de with a precise description of the features you are using. We will reactivate user namespaces as soon as we can install the necessary fixes for the aforementioned vulnerability. Update: We have installed a bugfix release for the affected software component and enabled user namespaces again. --- Aufgrund eines ausstehenden Sicherheitsproblems müssen wir sogenannte User Namespaces auf dem Cluster vorübergehend deaktivieren. Dieses Feature wird hauptsächlich von Containervirtualisierungssoftware wie Apptainer genutzt und die Abschaltung hat einen Einfluss darauf, wie diese Container intern aufgesetzt werden. Die meisten Nutzer sollten von diesen Änderungen nicht direkt betroffen sein und nahtlos weiterarbeiten können. Sollten Sie dennoch Probleme entdecken, kontaktieren Sie uns bitte via servicedesk@itc.rwth-aachen.de und schildern Sie uns, wie konkret Sie Ihre Container starten. Sobald wir einen Patch für die Sicherheitslücke einspielen können, werden wir User Namespaces wieder aktivieren. Update: Wir haben einen Bugfix für die betroffene Softwarekomponente installiert und User Namespaces wieder aktiviert.

Fr 12.01.2024 10:43

Rechner-Cluster - Verzeichnis "hpcwork" ist leer // hpcwork directory is empty

Montag 29.01.2024 10:15 - Montag 29.01.2024 11:34

Zurzeit werden keine Daten auf /hpcwork angezeigt. Die Fachabteilung ist informiert und arbeitet an der Lösung. ---english--- At the moment, no data are shown on /hpcwork. We are working on a solution of the problem.

Mo 29.01.2024 10:26

Updates

Die Störung wurde behoben. // The problem has been solved.

Mo 29.01.2024 11:34

Rechner-Cluster - Scheduled Reboot of CLAIX18 Copy Nodes

Montag 29.01.2024 06:00 - Montag 29.01.2024 07:15

Both CLAIX18 copy nodes will be rebooted on Monday, January 29th, 6.00 am (CET) due to a scheduled kernel upgrade. The systems will temporarily unavailable and cannot be used until the kernel update is finished.

Fr 26.01.2024 17:15

Rechner-Cluster - Netzwerkprobleme

Freitag 19.01.2024 19:45 - Samstag 20.01.2024 09:30

Aufgrund von Netzwerkromplemen kann es im angegeben Zeitraum zu Problemen bei der Nutzung des Clusters gekommen sein.

Mo 22.01.2024 07:45

Rechner-Cluster - Two-factor authentication is again mandatory on login18-4

Montag 09.10.2023 11:00 - Montag 15.01.2024 10:30

For the login to login18-4.hpc.itc.rwth-aachen.de it is again mandatory to use two-factor authentication. For details see https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/475152f6390f448fa0904d02280d292d/

Mo 09.10.2023 11:28

Rechner-Cluster - Verbindung mit dem Windows-Cluster nicht möglich///Connection to windows cluster ist no possible

Freitag 29.12.2023 14:45 - Montag 01.01.2024 00:00

Momentan kann keine Verbindung zum Windows-Cluster hergestellt werden. Die Kollegen sind informiert und arbeiten an der Behebung des Problems. -- english -- At the moment it is not possible to connect to the windows cluster. We are working on a solution of the problem.

Fr 29.12.2023 14:55

Updates

--English Version Below-- Die Störung konnte behoben werden. Eine Verbindung mit dem Windows-Cluster ist wieder möglich. --English Version-- The error has been resolved. You can connect to the Windows cluster again.

Mi 03.01.2024 11:46

Rechner-Cluster - jupyterhub.hpc.itc.rwth-aachen.de DNS Temporary out of Service

Donnerstag 14.12.2023 15:30 - Donnerstag 14.12.2023 15:55

The jupyterhub.hpc.itc.rwth-aachen.de DNS is Temporary out of Service for 20 Minutes. Problems accessing the hpc JupyterHub might arise from this failure. Please wait until the system comes back online.

Do 14.12.2023 15:33

Rechner-Cluster - DGX-2 Node nd20-02 unavailable

Montag 27.11.2023 00:00 - Dienstag 12.12.2023 08:00

Der DGX-2-Knoten nd20-02 wird voraussichtlich Montag, den 27.11. und Dienstag, den 28.11. ganztägig nicht zur Verfügung stehen. Grund hierfür ist das Betriebssystemupdate auf Rocky 8. -- The DGX-2 node nd20-02 will not be available on Monday (27.11.) and Tuesday (28.11.) for the whole day. We will be updating the operating system to Rocky 8 in the specified time

Di 21.11.2023 12:21

Updates

The node needs to be reinstalled and cannot be used until further notice.

Di 28.11.2023 12:51

The update of the system was successful.

Di 12.12.2023 07:59

Rechner-Cluster - Wartung HPC-Benutzerverwaltung

Dienstag 05.12.2023 10:00 - Dienstag 05.12.2023 12:00

Aufgrund von Wartungsmassnahmen erfolgt das Einrichten von HPC-Accounts verzoegert. Passwort-Aenderungen sind nicht moeglich.

Di 05.12.2023 09:55

Rechner-Cluster - login18-x-2 gestoert

Montag 27.11.2023 12:45 - Dienstag 28.11.2023 14:40

login18-x-2 ist defekt und steht deshalb aktuell nicht zur Verfuegung.

Di 28.11.2023 12:50

Updates

Das System ist wieder ok.

Di 28.11.2023 14:40

Rechner-Cluster - System Maintenance & Upgrade to Rocky 8.9

Montag 27.11.2023 08:00 - Montag 27.11.2023 14:00

The complete cluster will not be available from 8am to 12am due to system maintenance. Within the maintenance, the HPC Cluster will be upgraded to Rocky 8.9.

Fr 17.11.2023 08:00

Updates

Due to technical problems, we have to postpone the maintenance to next week monday

Di 21.11.2023 11:54

due to technical problems, we have to prolong the maintenance

Mo 27.11.2023 11:34

The maintenance could be finished successfully

Mo 27.11.2023 14:57

Rechner-Cluster - Login problems regapp

Montag 23.10.2023 12:00 - Donnerstag 26.10.2023 12:00

Currently, some users receive an error message after logging into the regapp application.. We are already working on a solution. --- Aktuell kommt es bei einigen Nutzern nach dem Login in die Regapp zu einer Fehlermeldung. Wir arbeiten bereits an einer Lösung.

Mi 25.10.2023 13:00

Rechner-Cluster - Unterbrechung des Batchbetriebs

Dienstag 17.10.2023 07:30 - Dienstag 17.10.2023 10:50

Am 17.10 finden Wartungsarbeiten an der Klimaanlage der Maschinenhalle statt. Aus diesem Grund muss der Batchbetrieb im angegeben Zeitraum angehalten werden und der Cluster leer laufen. Nach den Wartungsarbeiten wird der Batchbetrieb automatisch wieder gestartet. --- Maintenance work on the air conditioning system of the machine hall will take place on 17.10. For this reason, batch operation must be stopped in the specified period and the cluster must run empty. After the maintenance work, batch operation will be restarted automatically.

Mo 18.09.2023 14:56

Updates

The maintenance is completed. Jobs are scheduled and executed again. -- Die Wartung ist abgeschlossen. Jobs werden wieder gescheduled und ausgeführt.

Di 17.10.2023 10:53

Rechner-Cluster - Interruption of HPC Service due to Network Maintenance

Dienstag 17.10.2023 09:00 - Dienstag 17.10.2023 10:15

Due to a network maintenance in the IT Center building SW23, the HPC Service will be temporarily suspended. During the maintenance, the cluster (including all frontend nodes) will not be available. -- Wegen Wartungsarbeiten am Netzwerk im IT-Center SW23 wird der HPC-Betrieb vorübergehend unterbrochen. Während der Wartung ist der Cluster (alle Frontendknoten einbegriffen) nicht erreichbar.

Di 17.10.2023 08:15

Updates

The network maintenance is completed. Until all services of the cluster are restored, the HPC service will remain suspended.

Di 17.10.2023 09:18

The cluster is reachable again.

Di 17.10.2023 10:48

Rechner-Cluster - Temporary Shutdown of Lustre18 & Reboot of Frontend Nodes

Dienstag 17.10.2023 07:30 - Dienstag 17.10.2023 10:10

Lustre18 will be temporarily shut down during the maintanance. The frontend nodes will be mandatorily rebooted. -- Lustre18 wird während der Wartung temporär gestoppt. Die Frontendknoten werden erforderlicherweise neu-gestartet.

Di 17.10.2023 07:38

Rechner-Cluster - gnome-terminal laesst sich nicht starten

Dienstag 30.05.2023 13:15 - Dienstag 10.10.2023 13:25

Aktuell laesst sich auf den HPC-Dialogsystemen das Programm gnome-terminal nicht direkt starten. Wir versuchen aktuell noch herauszufinden, was das Problem ist. Bitte nutzen Sie ersatzweise ein anderes Terminal-Programm wie xterm, mate-terminal oder xfce-terminal. Evtl. ist gnome-terminal auch als Default-Terminal-Applikation in ihrer Desktop-Umgebung eingestellt. In diesem Fall passiert nichts, wenn Sie auf das Terminal-Icon druecken. Sie muessten dann ebenfalls ein anderes Terminal-Programm als Default-Applikation konfigurieren: Currently the program gnome-terminal cannot be started directly on the HPC dialog systems. We are still trying to find out what the problem is. Please use another terminal program like xterm, mate-terminal or xfce-terminal instead. Maybe gnome-terminal is also set as default terminal application in your desktop environment. In this case nothing happens when you press the terminal icon. You would have to configure another terminal program as default application as well: MATE: System - Preferences - Preferred Applications - System - Terminal Emulator XFCE: Applications - Settings - Default Applications - Utilities - Terminal Emulator

Di 30.05.2023 13:37

Rechner-Cluster - Update Nvidia DGX-System

Mittwoch 04.10.2023 07:00 - Montag 09.10.2023 18:00

One of the DGX-2 systems (nd20-01) will be temporarily unavailable due to a scheduled maintenance. We will be updating the system to Rocky Linux 8.8. Eines der DGX-2-Systeme (nd20-01) wird aufgrund geplanter Wartungsarbeiten vorübergehend nicht verfügbar sein. Wir werden das System auf Rocky 8.8 aktualisieren Update: Due to unforeseen problems, the maintenance has to be extended until Monday. We apologize for the inconvenience. Aufgrund unvorhergesehener Probleme müssen die Wartungsarbeiten bis Montag fortgesetzt werden. Wir bitten die Unannehmlichkeiten zu entschuldigen.

Do 28.09.2023 16:12

Rechner-Cluster - Reboot of copy18-1 and copy18-2

Montag 02.10.2023 06:00 - Montag 02.10.2023 06:30

The two systems copy18-1 and copy18-2 will be rebooted for maintenance reasons.

Do 28.09.2023 13:05

Rechner-Cluster - Login - Node: login18-2

Dienstag 26.09.2023 07:00 - Dienstag 26.09.2023 15:00

Login - Node login18-2 steht am Dienstag 26.09 von 7 Uhr bis 15 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Node login18-2 will not be available on Tuesday 26.09. from 7 a.m. to 3 p.m. Work is being carried out to improve network stability.

Mo 25.09.2023 09:50

Rechner-Cluster - Schlechte OpenMPI Performance und Pinning

Montag 01.08.2022 11:00 - Mittwoch 20.09.2023 10:09

Applikationen, die OpenMPI verwenden, können aufgrund von fehlerhaftem Pinning von MPI-Prozessen auf Cores eine verminderte Leistung/Performance aufweisen. Wir arbeiten an einer Lösung dieses Problems. Das Ersetzen von $MPIEXEC ./a.out durch srun --mpi=pmix ./a.out kann das Problem manchmal teilweise lösen. Wir bitten Nutzer die noch Probleme haben, in der Zwischenzeit IntelMPI zu verwenden. English: Applications that utilize OpenMPI might have reduced performance due to incorrect pinning of MPI processes to cores. We are currently working to solve this problem. Replacing $MPIEXEC ./a.out with srun --mpi=pmix ./a.out can sometimes partially solve the problem. Users who still experience problems, should use IntelMPI in the meantime instead.

Di 09.08.2022 11:13

Rechner-Cluster - HPC services may be disrupted

Mittwoch 13.09.2023 18:00 - Donnerstag 14.09.2023 12:00

HPC services may be disrupted currently, e.g. it may not be possible to login to our dialog nodes, to start JupyterLab notebooks or to submit batch jobs. We are working on fixing the issue.

Do 14.09.2023 09:52

Updates

The problems are solved.

Do 14.09.2023 14:27

Rechner-Cluster - Login - Node: login18-4

Mittwoch 30.08.2023 06:00 - Mittwoch 30.08.2023 10:15

Login - Node login18-4 steht am Mittwoch 30.08 von 6 Uhr bis 15 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Node login18-4 will not be available on Wednesday 30.08. from 6 a.m. to 3 p.m. Work is being carried out to improve network stability.

Di 29.08.2023 15:19

Rechner-Cluster - Login - Nodes: login18-2, login18-g-2, login18-3

Dienstag 29.08.2023 06:00 - Dienstag 29.08.2023 15:00

Login - Nodes: login18-2, login18-g-2, login18-3 stehen am Dienstag 29.08 von 6 Uhr bis 15 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Nodes: login18-2, login18-g-2, login18-3 will not be available on Tuesday 29.08. from 6 a.m. to 3 p.m. Work is being carried out to improve network stability.

Di 29.08.2023 06:36

Rechner-Cluster - Login - Nodes: login18-x-1, login18-g-1, login18-2

Montag 28.08.2023 06:00 - Montag 28.08.2023 14:00

Login - Nodes: login18-x-1, login18-g-1, login18-2 stehen am Montag 28.08 von 6 Uhr bis 14 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Nodes: login18-x-1, login18-g-1, login18-2 will not be available on Monday 28.08. from 6 a.m. to 2 p.m. Work is being carried out to improve network stability.

Mo 28.08.2023 07:47

Rechner-Cluster - Login to login18-4 only with second factor

Freitag 04.11.2022 06:45 - Freitag 18.08.2023 12:50

login18-4 acts currently as a test system for two-factor authentication. In order to able to login from external you need to add a 2FA token to your account, cf. https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/fb61d6c86ae245b5b7bba8c0cb7db6eb/ for more details.

Fr 04.11.2022 07:04

Updates

Due to the 2FA configuration, login18-4 will not be migrated from CentOS and the old software stack to Rocky 8 and the new software stack until further notice.

Do 11.05.2023 14:19

login18-4 has been installed with Rocky 8.8 and is again available for all users.

Fr 18.08.2023 12:51

Rechner-Cluster - Slurm - Jobs not completing

Montag 17.07.2023 17:00 - Mittwoch 26.07.2023 12:00

Currently, we strongly recommend using IntelMPI instead of OpenMPI because OpenMPI jobs currently crash non-deterministically or remain in a "completing" state and do not complete successfully.

Di 18.07.2023 12:39

Updates

We have identified the root of the issue and are currently working on reverting the batch nodes to a working configuration. This might lead to slightly prolonged waiting times for new jobs. We will update this incident message as soon as all batch nodes are finished with the procedure.

Do 20.07.2023 13:41

The affected batch nodes are fully operational again.

Mi 26.07.2023 19:15

Rechner-Cluster - Maintenance for the RWTH JARDS online submission system

Dienstag 25.07.2023 07:00 - Dienstag 25.07.2023 17:00

The JARDS online submission system for filing applications for RWTH computing projects will be unavailable on 25.07.2023 between 7:00 and 17:00.

Mo 24.07.2023 11:09

Rechner-Cluster - Komplettwartung des Clusters

Montag 17.07.2023 07:00 - Montag 17.07.2023 17:00

In der Wartung wird das aktuelle Betriebssystem Rocky Linux 8.7 auf Rocky Linux 8.8 aktualisiert. Auch die Frontends werden aktualisiert, so dass Sie nicht in der Lage sein werden, sich in den Cluster einzuloggen oder Zugriff auf Ihre Daten zu erhalten. Hierfuer gilt allerdings eine Ausnahme. Die MFA-Testmaschine login18-4 wird erreichbar bleiben, man kann sich dort jedoch nur mit einem zweiten Faktor [1] einloggen. Zeitweise wird aber auch hier $HPCWORK nicht erreichbar sein, da auch das Lustre Filesystem einer Wartung unterzogen wird. Wir gehen nicht davon aus, dass Sie Ihre Software neu kompilieren oder Ihre Jobskripte aendern muessen. Ihre Jobs sollten also nach dem Ende der Wartungsarbeiten normal anlaufen.

Di 11.07.2023 09:42

Rechner-Cluster - Windows Frontends not available

Mittwoch 14.06.2023 11:00 - Mittwoch 14.06.2023 12:00

The Windows dialog systems (cluster-win.rz.rwth-aachen.de) will not be available due to a necessary relocation of the server hardware.

Mo 12.06.2023 15:56

Rechner-Cluster - Login problems with login18-x-1

Freitag 19.05.2023 14:00 - Donnerstag 25.05.2023 14:45

Several users are currently experiencing difficulties logging in to the login18-x-1 frontend. We are investigating the problem. For the meantime, please use login18-x-2 instead.

Fr 19.05.2023 14:06

Updates

Due to network problems the login to login18-x-1 has been deactivated until further notice.

Mo 22.05.2023 14:31

error fixed

Do 25.05.2023 14:49

Rechner-Cluster - cluster : Login - Nodes: login18-x-1, login18-g-1, login18-2

Montag 22.05.2023 08:00 - Montag 22.05.2023 11:45

Login - Nodes: login18-x-1, login18-g-1, login18-2 stehen am Montag 22.05 von 8 Uhr bis 14 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Stabilität durchgeführt. Login - Nodes: login18-x-1, login18-g-1, login18-2 will not be available on Monday 22.05. from 8 a.m. to 2 p.m. Work is being carried out to improve network stability.

Fr 19.05.2023 14:08

Rechner-Cluster - Data Transfer Node copy18-2

Dienstag 16.05.2023 09:45 - Mittwoch 17.05.2023 15:00

Data Transfer Node copy18-2 steht von Dienstag 16.5. 9:45 Uhr bis Mittwoch 17.5. 15:00 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Redundanz durchgeführt. --- Data Transfer Node copy18-2 will not be available from Tuesday 16.5. 9:45 a.m. to Wednesday 17.5. 3:00 p.m. Work will be done to improve network redundancy.

Mo 08.05.2023 15:55

Rechner-Cluster - Maintenance of whole cluster

Montag 15.05.2023 13:00 - Montag 15.05.2023 14:00

there will be a maintenance of our ACI tenant, which results in a network interrupt of all our VMs, including LDAP, Kerberos, cvmfs etc. pp. Thus, it is not possible to login during the maintenance, we would also expect that already logged in people could face problems. Regarding the runnning jobs (if there are some) we do not know, how this will be influenced exactly, but hope, that they can run through as expected.

Fr 05.05.2023 12:42

Updates

We will have to postpone the maintenance. A new timeslot still needs to be found, so take the changed time as preliminary timeslot.

Di 09.05.2023 10:16

The maintenance will take place on Monday 15.05.2023 from 13:00 to 14:00

Do 11.05.2023 07:26

Rechner-Cluster - Migration from CentOS 7 Linux to Rocky 8 Linux

Mittwoch 08.03.2023 07:30 - Dienstag 02.05.2023 17:00

-- english version below -- In der angegebenen Zeit findet die Umstellung des Cluster von CentOS 7 auf Rocky 8 statt. Dabei werden von Woche zu Woche weitere Systeme mit Rocky 8 neuinstalliert und im Batchbetrieb zur Verfügung gestellt. Durch diese Umstellung kann es zu höheren Wartezeiten im Batchbetrieb kommen. Mehr Informationen finden Sie auf der folgenden Seite: https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/c3735af4173543b9b14a3f645a553e8a/ --- In the given time the changeover of the cluster from CentOS 7 to Rocky 8 takes place. From week to week more systems will be reinstalled with Rocky 8 and made available in batch mode. Due to this changeover, there may be longer waiting times in batch mode. More information can be found on the following page: https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/c3735af4173543b9b14a3f645a553e8a/

Di 28.03.2023 10:18

Rechner-Cluster -

Freitag 21.04.2023 09:20 - Freitag 21.04.2023 10:00

Incident JARDS online submission system

Technische Erläuterung

Aufgrund von einem ungeplanten Neustart vieler virtuellen Maschinen war der Zugang gestört.

Fr 21.04.2023 10:59

Rechner-Cluster -

Donnerstag 13.04.2023 10:00 - Donnerstag 13.04.2023 12:10

Data Transfer Node copy18-2 steht am Donnerstag 13.04. zwischen 10:00 Uhr und 15:00 Uhr nicht zur Verfügung. Es werden Arbeiten zur Verbesserung der Netzwerk-Redundanz durchgeführt. --- Data Transfer Node copy18-2 will not be available on Thursday 13.04. between 10:00 and 15:00. Work is being carried out to improve network redundancy.

Do 06.04.2023 09:47

Rechner-Cluster - Linux migration on some dialog systems

Mittwoch 08.03.2023 07:00 - Mittwoch 08.03.2023 12:00

In this mantenance we will switch the operationg system from CentOS 7 to Rocky 8 on the following dialog systems: login18-2.hpc.itc.rwth-aachen.de login18-3.hpc.itc.rwth-aachen.de login18-x-2.hpc.itc.rwth-aachen.de login18-g-2.hpc.itc.rwth-aachen.de copy18-2.hpc.itc.rwth-aachen.de More backgroud information concerning this change will be provided on the rz-cluster mailinglist.

Mi 01.03.2023 08:15

Rechner-Cluster - Wartung fuer copy18-2

Dienstag 07.03.2023 12:30 - Mittwoch 08.03.2023 08:00

Das System steht in dem Wartungszeitraum nicht zur Verfuegung. Bitte weichen Sie auf copy18-1 aus.

Di 07.03.2023 12:38

Rechner-Cluster - Wartung fuer copy18-2, login18-2, login18-3 und login18-g-2

Montag 06.03.2023 06:00 - Dienstag 07.03.2023 13:00

Die Dialog-Systeme copy18-2, login18-2, login18-3 und login18-g-2 stehen in dem Wartungszeitraum nicht zur Verfuegung. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.

Fr 03.03.2023 14:11

Rechner-Cluster -

Mittwoch 22.02.2023 12:00 - Mittwoch 22.02.2023 15:15

Waehrend der Wartung koennen keine neuen Passworte fuer den HPC-Dienst gesetzt werden. Neue HPC-Accounts werden erst mit Ablauf der Wartung tatsaechlich eingerichtet.

Mi 22.02.2023 09:59

Updates

Wartung muss leider verlaengert werden

Mi 22.02.2023 13:54

Die Wartung ist abgeschlossen.

Mi 22.02.2023 15:12

Rechner-Cluster - Kein Zugriff auf Home-Verzeichnisse ueber SMB

Montag 13.02.2023 08:45 - Montag 13.02.2023 12:30

Der Zugriff auf die Home-Verzeichnisse des RWTH Compute Cluster von Windows-Clients aus ist derzeit aus Wartungsgruenden nicht moeglich.

Mo 13.02.2023 08:52

Updates

Zugriff funktioniert wieder.

Mi 15.02.2023 15:15

Rechner-Cluster - System Maintenance

Montag 13.02.2023 07:00 - Montag 13.02.2023 08:45

To improve the backupability of the HOME file system, we need to restructure the home directories. To do this, login to the frontend nodes is disabled, no Slurm jobs are executed, and you cannot check the status of your jobs.

Mo 06.02.2023 09:17

Updates

Die Systemwartung ist beendet.

Mo 13.02.2023 08:53

Rechner-Cluster - Starten von FastX-Web-Sessions auf login18-x-1 schlaegt fehl

Donnerstag 02.02.2023 16:00 - Montag 13.02.2023 07:00

Aktuell schlägt unter Umständen das Starten einer Web-Desktop-Session auf http://login18-x-1.hpc.itc.rwth-aachen.de:3000/ fehl. Bitte melden Sie sich stattdessen auf http://login18-x-2.hpc.itc.rwth-aachen.de:3000/ an oder nutzen Sie den FastX-Desktop-Client, s. https://help.itc.rwth-aachen.de/service/rhr4fjjutttf/article/25f576374f984c888bb2a01487fef193/

Do 02.02.2023 16:16

Rechner-Cluster - Wartung JARDS

Donnerstag 09.02.2023 08:00 - Donnerstag 09.02.2023 09:00

JARDS online submission system for NHR projects (NHR large, NHR normal, Prep) will not be available on 09.02.23 between 8-9 o'clock.

Mi 08.02.2023 10:24

Rechner-Cluster - Rechner-Cluster - Wartung JARDS

Montag 06.02.2023 07:00 - Montag 06.02.2023 09:00

JARDS online submission system for NHR projects (NHR large, NHR normal, Prep) will not be available on 06.02.23 between 7-9 o'clock.

Di 17.01.2023 13:44

Rechner-Cluster - Rechner-Cluster - Wartung JARDS

Montag 30.01.2023 07:00 - Montag 30.01.2023 09:00

Please note that the JARDS online submission system for filing applications for RWTH computing projects (rwth small, rwth thesis and rwth lecture) will not be available on 30.01.23 between 7-9 o'clock.

Mo 23.01.2023 07:51

Rechner-Cluster - Rechner-Cluster - Wartung JARDS

Donnerstag 26.01.2023 07:00 - Donnerstag 26.01.2023 08:00

Please note that the JARDS online submission system for filing applications for NHR projects (NHR large, NHR normal, Prep) and RWTH computing projects (rwth small, rwth thesis and rwth lecture) will not be available on 26.01.23 between 7-8 o'clock.

Di 17.01.2023 13:41

Rechner-Cluster - Wartung JARDS

Samstag 24.12.2022 00:00 - Dienstag 10.01.2023 23:59

Please note that the JARDS online submission system for filing applications for RWTH computing projects (rwth small, rwth thesis and rwth lecture) will not be available between 24.12.22.-05.01.23. Please finalize all open applications until 24.01.22. Application for NHR projects (NHR large, NHR normal, Prep) is still possible during this time. However, the online form looks a bit different after January, 1st. Please also consider to finalize all open application before January 1st.

Di 13.12.2022 18:41

Updates

Dear users, unfortunately the maintenance of the JARDS system has to be extended until January 10th

Mi 04.01.2023 08:06

Rechner-Cluster - Fehler in Abrechnung von Projekt- und Nutzerquoten

Mittwoch 06.07.2022 14:30 - Montag 12.12.2022 13:37

Die Korrektur der Daten war erfolgreich. The Data was fixed. ------------ Durch einen Bug in der Erkennung der Joblaufzeiten ist es bei einzelnen Nutzern zu Diskrepanzen zwischen der tatsächlich genutzten und der abgerechneten Rechenzeit gekommen. An einer Korrektur der Daten wird gearbeitet. -------- English: Due to a bug in the recognition of job runtimes, discrepancies between the actually used and the billed computing time occurred for some users. We are currently working on correcting the affected data.

Mi 06.07.2022 14:40

Rechner-Cluster - HPC JupyterHub Maintenance

Dienstag 06.12.2022 09:00 - Mittwoch 07.12.2022 09:00

The HPC JupyterHub will be down for maintenance!

Do 17.11.2022 10:54

Rechner-Cluster - Wartungsarbeiten MySQL Datenbankserver

Donnerstag 10.11.2022 07:00 - Donnerstag 10.11.2022 08:00

Im angegebenen Zeitraum finden Wartungsarbeiten an den MySQL-Datenbankservern des IT Centers statt. Es werden die aktuellen MySQL- sowie Kernel- und OS-Updates eingespielt. Die vom IT Center gehosteten MySQL Datenbanken werden während dieser Wartung nicht zur Verfügung stehen. Betroffen davon sind auch alle abhängigen Services des IT Centers, d.h. unter anderem Gigamove, MailAdm, Backup Portal, Streamingserver, SeviRe, Laptop Leihpool, JARDS, RWTHblog

Fr 04.11.2022 17:37

Rechner-Cluster - Wartungsarbeiten MySQL Datenbankserver

Donnerstag 10.11.2022 07:00 - Donnerstag 10.11.2022 07:35

Im angegebenen Zeitraum finden Wartungsarbeiten an den MySQL-Datenbankservern des IT Centers statt. Es werden die aktuellen MySQL- sowie Kernel- und OS-Updates eingespielt. Die vom IT Center gehosteten MySQL Datenbanken werden während dieser Wartung nicht zur Verfügung stehen. Betroffen davon sind auch alle abhängigen Services des IT Centers, d.h. unter anderem Gigamove, MailAdm, Backup Portal, Streamingserver, SeviRe, Laptop Leihpool, JARDS, RWTHblog

Fr 04.11.2022 14:22

Updates

Die Wartung ist beendet.

Do 10.11.2022 07:35

Rechner-Cluster - login18-2 nicht verfuegbar

Mittwoch 02.11.2022 08:00 - Montag 07.11.2022 11:40

login18-2 ist aktuell nicht verfuegbar. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.

Mi 02.11.2022 08:01

Updates

login18-2 ist wieder verfuegbar.

Mo 07.11.2022 11:40

Rechner-Cluster - login18-4 nicht verfuegbar

Donnerstag 01.09.2022 11:30 - Freitag 04.11.2022 06:57

login18-4 steht aktuell nicht zur Verfuegung. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.

Do 01.09.2022 11:39

Rechner-Cluster -

Mittwoch 02.11.2022 08:00 - Donnerstag 03.11.2022 18:00

We will change the authentication and authorization infrastructure for all HPC accounts. During the migration process it will not be possible to change passwords for HPC accounts.

Do 20.10.2022 07:07

Updates

Wartung wurde verlaengert.

Mi 02.11.2022 15:12

Rechner-Cluster - login18-2, login18-3, login18-g-2 nicht verfuegbar

Dienstag 25.10.2022 13:30 - Mittwoch 02.11.2022 08:00

Die drei Dialogsysteme login18-2, login18-3 und login18-g-2 stehen am 25.10.22 ab 13:30 Uhr nicht zur Verfuegung. Bitte nutzen Sie eines der anderen Dialogsysteme.

Di 25.10.2022 10:10

Updates

login18-3 und login18-g-2 sind wieder verfuegbar.

Mi 02.11.2022 08:01

Rechner-Cluster - login18-x-2 steht aktuell nicht zur Verfuegung

Montag 24.10.2022 11:45 - Mittwoch 02.11.2022 07:59

login18-x-2 steht aktuell leider nicht zur Verfuegung. Bitte nutzen Sie eines der anderen Dialogsysteme.

Mo 24.10.2022 11:51

Updates

login18-x-2 steht wieder zur Verfuegung.

Mi 02.11.2022 07:59

Rechner-Cluster - Reduzierte Performance von hybriden IntelMPI+OpenMP Applikationen

Dienstag 09.08.2022 11:15 - Montag 31.10.2022 12:15

Bei hybriden IntelMPI+OpenMP Applikationen kann es zu einer reduzierten Performance durch das Pinning von OpenMP Threads auf den gleichen Core kommen. Wir empfehlen unseren Nutzern, folgende zwei Umgebungsvariablen zu exportieren, um das Problem zu beheben: export OMP_PLACES=cores export OMP_PROC_BIND=spread English: Hybrid IntelMPI+OpenMP Applications will experience reduced performance due to pinning of OpenMP threads to the same core. We advice users to export these two environment variables to fix the problem: export OMP_PLACES=cores export OMP_PROC_BIND=spread

Di 09.08.2022 11:37

Rechner-Cluster - Auf login18-x-1 lassen sich keine neuen FastX-Sessions start

Mittwoch 26.10.2022 15:15 - Montag 31.10.2022 06:30

Auf login18-x-1 koennen aktuell keine neuen FastX-Sessions gestartet werden. Bitte nutzen Sie login-1.hpc.itc.rwth-aachen.de stattdessen.

Do 27.10.2022 15:17

Rechner-Cluster - Hängender SLURM Controller

Mittwoch 27.07.2022 13:30 - Montag 17.10.2022 16:00

Gegenwärtig kommt es leider zu wiederkehrenden Problemen, bei denen das Submittieren von Jobs und der Einsatz von Slurm Befehle manchmal nicht funktioniert. Die Ursache für die Probleme ist der Absturz des Slurm Controllers. Wir arbeiten mit Hochdruck an einer Dauerlösung und raten betroffenen Nutzenden, das Submittieren und die Befehle zeitnah erneut zu versuchen. We are currently facing issues where the submission of jobs and usage of SLURM commands does not always work. The source of the Problem is a hanging SLURM Controller Daemon. We are working on a permanent solution to this problem and advise affected users to retry submissions and commands after some time.

Do 04.08.2022 13:46

Updates

Leider treten die Hänger von Zeit zu Zeit weiterhin auf und wir versuchen weiterhin die Ursache zu finden. Inzwischen wurden weitere Prozesse implemnetiert um solche Hänger automatisiert schnell zu erkennen und die notwendigen Maßnahmen zum Neustart einleiten zu können. Unfortunately, the hangs still occur from time to time and we are still trying to find the cause. In the meantime, further processes have been implemented in order to quickly detect such hangs automatically and to be able to initiate the necessary measures for restarting.

Mi 17.08.2022 10:36

Das Problem ist behoben --en-- The issue has been fixed.

Mi 21.09.2022 12:21

Das Problem tritt wieder auf. The problem is back.

Mi 05.10.2022 13:24

Rechner-Cluster - login18-x-2 gestoert

Montag 19.09.2022 08:15 - Freitag 23.09.2022 08:30

login18-x-2 ist gestoert und steht aktuell nicht zur Verfuegung. Bitte weichen Sie auf eines der anderen Dialog-Systeme aus.

Mo 19.09.2022 08:17

Updates

login18-x-2 steht wieder zur Verfuegung.

Mo 26.09.2022 09:55

Rechner-Cluster - Maintenance RWTH Compute Cluster

Mittwoch 07.09.2022 09:00 - Mittwoch 07.09.2022 15:00

due to necessary maintenance work on the network infrastructure of the RWTH Compute Cluster we have to do a complete maintenance of the cluster on 07.09.2022 from 09:00 to 13:00. During this time no jobs will start, working with jobs (submit, cancel etc. pp) will not be possible. Also the frontends will not be available during this time. So you will not be able to log in and view your data either.

Di 30.08.2022 08:32

Updates

due to unforseen circumstances, the maintenance has to be prolonged to 3 o'clock pm

Mi 07.09.2022 12:08

Rechner-Cluster - Windows HPC-Frontends nicht erreichbar///WIndows HPC-Frontends not available

Montag 05.09.2022 12:15 - Montag 05.09.2022 14:21

Derzeit kann man sich nicht an die Windows Frontends der Clusters anmelden. Wir arbeiten an der Behebung. --en-- Currently it is not possible to log in to the Windows frontends of the cluster. We are working on it.

Mo 05.09.2022 12:23

Updates

Das Problem ist behoben --en-- The issue has been fixed.

Mo 05.09.2022 14:20

Rechner-Cluster - Einige Dialog-Systeme stehen nicht zur Verfuegung

Donnerstag 07.07.2022 16:00 - Donnerstag 01.09.2022 11:36

Die Dialog-Systeme copy18-2, login18-2, login18-3, login18-g-1, login18-g-2 stehen aktuell nicht zur Verfuegung. Bitte nutzen Sie stattdessen eines der anderen Dialogsysteme.

Do 07.07.2022 16:11

Updates

login18-g-1 steht jetzt wieder zur Verfuegung, login18-4 wurde fuer den Nutzerbetrieb gesperrt.

Mo 18.07.2022 11:12

Die Dialog-Systeme copy18-2,login18-2,login18-3,login18-g-2 stehen jetzt wieder zur Verfuegung.

Do 01.09.2022 11:37

Rechner-Cluster - Submittieren von GPU-Jobs teilweise gestört

Montag 13.06.2022 10:00 - Mittwoch 03.08.2022 13:33

Gegenwärtig kommt es leider erneut zu wiederkehrenden Problemen, bei denen das Submittieren von Jobs, die GPUs anfordern, mit der Fehlermeldung "Batch job submission failed: Requested node configuration is not available" abgebrochen wird. Wir arbeiten mit Hochdruck an einer Lösung des Problems, können es aktuell aber nur vorübergehend beheben. Wir raten betroffenen Nutzenden, das Submittieren zeitnah erneut zu versuchen. We are currently facing again a recurrent issue where the submission of jobs requesting GPU nodes is aborted with the error message "Batch job submission failed: Requested node configuration is not available". We are working dedicatedly on a solution to this problem. However, we can only fix it temporarily at the moment. We advise affected users to retry submission after some time.

Di 14.06.2022 15:15

Updates

Die GPU-Partitionen funktionieren nach dem neuen SLURM-Update wie vorgesehen.

Do 04.08.2022 13:34

Rechner-Cluster - Maintenance RWTH Compute Cluster

Dienstag 26.07.2022 08:00 - Dienstag 26.07.2022 13:00

Dear cluster user, We scheduled a major update for our workload manager SLURM for Tuesday, 26.07.2022 from 8 am to 12 am. During this maintenance we will deactivate SLURM on each machine. Thus, * no new jobs will / can be submitted, * no jobs will run, * the job status cannot be queried. The login to the frontend nodes will still be possible. For further questions, please contact servicedesk@itc.rwth-aachen.de Best regards Your HPC team

Di 19.07.2022 08:02

Updates

The upgrade of the database takes longer, than we expected. We prolonged the maintenance by one hour.

Di 26.07.2022 11:34

Rechner-Cluster - login18-x-2 steht aktuell nicht zur Verfuegung

Freitag 22.07.2022 13:45 - Dienstag 26.07.2022 12:12

login18-x-2 steht aktuell nicht zur Verfuegung.

Fr 22.07.2022 13:56

Updates

login18-x-2 ist jetzt wieder verfuegbar.

Di 26.07.2022 12:12

Rechner-Cluster - Systemwartung

Mittwoch 06.07.2022 06:00 - Donnerstag 07.07.2022 18:00

Der Cluster steht in dem genannten Zeitraum nicht zur Verfuegung.

Di 28.06.2022 13:38

Rechner-Cluster - Submittieren von GPU-Jobs gestört

Freitag 06.05.2022 12:15 - Freitag 20.05.2022 12:00

Gegenwärtig kommt es zu wiederkehrenden Problemen, bei denen das Submittieren von Jobs, die GPUs anfordern, mit der Fehlermeldung "Batch job submission failed: Requested node configuration is not available" abgebrochen wird. Wir arbeiten mit Hochdruck an einer Lösung des Problems, können es aktuell aber nur vorübergehend beheben. Wir raten betroffenen Nutzenden, das Submittieren zeitnah erneut zu versuchen. We are currently facing a recurrent issue where the submission of jobs requesting GPU nodes is aborted with the error message "Batch job submission failed: Requested node configuration is not available". We are working dedicatedly on a solution to this problem. However, we can only fix it temporarily at the moment. We advise affected users to retry submission after some time.

Fr 06.05.2022 12:40

Updates

Zurzeit funktioniert das Submittieren. Wir bereiten aktuell ein Update von Slurm vor, mit einer Unterbrechung des Dienstes ist nicht zu rechnen. At the moment the submission is working. We are currently preparing an update of Slurm, service interruption is not expected.

Mi 11.05.2022 10:09

Das SUbmitieren von GPU Jobs sollte wieder zuverlässig funktionieren.

Di 24.05.2022 09:48