Zurück | Archiv

Object Storage (Pilot) - Ceph-Störung

Montag 19.07.2021 09:55 - Dienstag 05.10.2021 12:00

***english version below*** Derzeit liegt eine Störung der Object-Storage-Infrastruktur vor. Davon betroffen sind aktuell die Services Backup/Restore und Software Engineering Services (GitLab). Letzterer wird in einer eigenen Störungsmeldung behandelt. Der Service Gigamove wurde mittels Migration bereits entstört. Ausgenommen von der Störung ist der Service Archiv. Seit dem Beginn der Störung wurden bzw. werden mehrere Maßnahmen zur Stabilisierung und Entlastung der Infrastruktur durchgeführt: - Gigamove: abgeschlossene Migration auf einen anderen Speicherort - GitLab: laufende Migration auf einen anderen Speicherort - Einbeziehung des Hersteller-Supports - Erweiterung der Infrastruktur mit virtuellen und physischen Ressourcen - Zeitweise Deaktivierung der Nutzerschnittstelle zwecks Entlastung und Verringerung von Risiken bei Änderungen Aktueller Status und weiteres Vorgehen: Der Service Backup/Restore bleibt grundsätzlich verfügbar. Der Restore von Daten einzelner Knoten ist eventuell nicht möglich (Knoten bis 2TB). Die gegebenenfalls betroffenen Nutzenden werden bis spätestens 06.08. per E-Mail mit weiteren Informationen kontaktiert. Bis zum Abschluss der Inbetriebnahme und der Integration weiterer Ressourcen bleibt die Nutzerschnittstelle deaktiviert. Aktuelle Informationen zur Migration und Behebung der Störung werden in den Updates zur dieser Störungsmeldung kommuniziert. Wir arbeiten weiterhin mit Hochdruck an der Behebung des Problems und bitten um Verzeihung für die Einschränkungen ***english version*** There is currently a disruption in the object storage infrastructure. This currently affects the services Backup/Restore and Software Engineering Services (GitLab). The latter is dealt with in a separate incident message. Gigamove has already been suppressed by means of migration. The Archive service is not affected by the disruption. Since the beginning of the disruption, several measures have been and are being implemented to stabilize and reduce the workload on the infrastructure: - Gigamove: completed migration to another location - GitLab: ongoing migration to another location - Involvement of vendor support - Expansion of the infrastructure with virtual and physical resources - Temporarily disable user interface to reduce workload and decrease risk when changes are made. Current status and next steps: The Backup/Restore service remains generally available. Restoring data from certain nodes may not be possible (nodes up to 2TB). Any affected users will be contacted by email with further information by 06.08 at the latest. The user interface will remain deactivated until the commissioning and integration of further resources is completed. The latest information on the migration and remediation of the disruption will be communicated in the updates to this disruption message. We continue to work at full speed to resolve the issue and apologize for any inconvenience.

Mo 19.07.2021 13:19

Updates

Die Migration des S3 Storages wurde erfolgreich abgeschlossen und somit steht GitLab wieder wie gewohnt zur Verfügung. // The migration of the S3 storage has been successfully completed and therefore GitLab is available again as usual.

Mo 09.08.2021 14:15

Die Arbeiten zur Behebung der Störung sind so weit fortgeschritten, dass die Nutzerschnittstelle im Laufe des heutigen Tages wieder aktiviert werden konnte. Mit der Reaktivierung wird der Uploadprozess stabilisiert und der Restore ist ohne vorherige Rücksprache möglich. Die Arbeiten zur Entstörung werden fortgesetzt, bei Problemen, wenden Sie sich bitte weiterhin an das IT-ServiceDesk. ***english version*** The Repairs on the storage system are making progress, therefore the user interface was reactivated during the day. Reactivating the user interface makes the upload process more stable and users can run the restore process on their own. The repairs continue, in case of problems please contact the IT-ServiceDesk.

Do 12.08.2021 19:33

***english version below*** Mit Hilfe des Hersteller-Supports wurde zwischenzeitlich ein Bug in der verwendeten Software identifiziert. Nach Bereitstellung und erfolgreichen Tests des Patches auf den Servern BAS35, BAS37 und BAS48, werden am Montag, 23.08.2021 von 08:00 bis 16:00 Uhr die Softwareupdates auf allen weiteren Backup Servern installiert. Damit soll die Stabilität der Backup Server verbessert werden. Die Archiv Server BAS19 und BAS45 sind davon nicht betroffen. Weitere Informationen können der Wartungsankündigung entnommen werden: https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7016 Die Erweiterung der Infrastruktur mit virtuellen und physischen Ressourcen wird seit Beginn der Störung kontinuierlich durchgeführt. ***english version*** With the help of the vendor support, a bug in the software has been identified in the meantime. After deployment and successful testing of the patch on the BAS35, BAS37 and BAS48 servers, the software updates will be installed on all other backup servers on Monday, 23.08.2021 from 08:00 to 16:00. This is intended to improve the stability of the backup servers. The archive servers BAS19 and BAS45 are not affected. Further information can be found in the maintenance announcement: https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7016 The expansion of the infrastructure with virtual and physical resources has been carried out continuously since the beginning of the disruption.

Fr 20.08.2021 12:09

wir haben heute ein weiteres Problem der Backup Server identifiziert, durch dass die Ablage neuer Daten auf dem Object Storage behindert wird. In folge dieses Fehlers sind die Caches vieler Server bereits im laufe der Nacht auf den 25.08. voll gelaufen und Backups sind mit der Meldung "server out of storagespace" abgebrochen. Wir arbeiten zusammen mit den Softwareherstellern weiter an der nachhaltigen Behebung der Probleme.

Do 26.08.2021 11:00

***english version below*** Wir konnten gemeinsam mit dem Hersteller die Ursache für die fehlgeschlagenen Backups der letzten Tage identifizieren. In der heutigen Wartung (https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7026) wurde ein weiterer Patch zur Behebung dieses Problems eingespielt. Dadurch sollte sich das Backup-System in den kommenden Tagen wieder stabilisieren. ***english version*** Together with the manufacturer, we were able to identify the cause of the failed backups over the last few days. In today's maintenance (https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7026), another patch was applied to fix this problem. This should stabilize the backup system again in the coming days.

Fr 27.08.2021 14:01

***english version below *** Das Update der Backupserver von Freitag hat die Kommunikation zwischen dem Backupdsystem und dem Ceph-Storage wieder hergestellt. Leider ist der Cache so voll, dass dieser über das Wochenende noch nicht ausreichend geleert werden konnte. Der Ausfall eines Bandlaufwerkes der Tape-Libary hat zu einer weiteren Verzögerung beim Leeren des Chaces geführt. Daher sind über das Wochenende weiterhin viele Bakcups fehlgeschlagen. ***english version*** Friday's backup server update restored the communication between the backup dsystem and Ceph storage. Unfortunately, the cache is so full that it could not yet be sufficiently emptied over the weekend. The failure of a tape drive in the tape library has caused a further delay in emptying the cache. As a result, many backups continued to fail over the weekend.

Mo 30.08.2021 13:01

Zusammen mit dem Backup Software Hersteller konnten wir eine weiteres Problem identifizieren das verhinderte, dass der Speicherplatz in den Cache Speicherbereichen der Backup Server, nach erfolgreicher Übertragung in die Persistenzschicht (Tape/Disk Storage), freigegeben wird. Erste Tests legen nahe, dass mit den nun vorgenommenen Anpassungen ein Backup ab der Nacht vom 02.09. auf den 03.09. wieder möglich sein wird.

Do 02.09.2021 16:23

***english version below*** Leider haben die letzten durchgeführten Anpassungen an den Backupservern nicht zu einer Lösung der aktuellen Probleme geführt, so dass es weiterhin teilweise zu fehlerhaften Backups kommt. IBM arbeitet weiter an der Alyse der Probleme um eine Verbesserung der Stabilität herbeizuführen. ***english version*** Unfortunately, the last adjustments made to the backup servers have not led to a solution of the current problems, so that there are still partially faulty backups. IBM continues to work on the analysis of the problems in order to improve the stability.

Do 09.09.2021 13:13

***english version below*** Leider gestalten sich die Analysen durch IBM sehr komplex und zeitaufwendig. Mehrere Lösungsansätze wurden inzwischen verfolgt, eine Entstörung des Backupsystems konnte aber leider noch nicht herbeigeführt werden, so dass es weiterhin zu fehlgeschlagenen Backups kommt. ***english version*** Unfortunately, IBM's analyses are very complex and time-consuming. In the meantime, several approaches to a solution have been pursued, but unfortunately it has not yet been possible to resolve the backup system, so that failed backups continue to occur.

Fr 17.09.2021 13:14

***english version below*** Inzwischen konnte IBM einen weiteren Fehler innerhalb des Systems identifizieren und hat uns heute eine weitere Konfigurationsänderung mitgeteilt. Diese wird heute auf einigen besonders problematischen Backupservern eingespielt um die Auswirkung zu bewerten. ***english version*** In the meantime, IBM was able to identify another error within the system and has informed us today of another configuration change. This will be applied today on some particularly problematic backup servers to evaluate the impact.

Di 21.09.2021 11:49

***english version below*** Durch weitere Systemanpassungen von IBM konnte die Quote der erfolgreichen Backups seit der Nacht vom 21. auf den 22.9 deutlich verbessert werden. Da noch nicht mit Sicherheit gesagt werden kann, ob die Anpassungen das Problem dauerhaft beheben bleibt die Störungsmeldung aber weiterhin aktiv. ***english version*** Due to further system adjustments by IBM, the rate of successful backups could be improved significantly since the night from 21. to 22.9. Since it cannot yet be said with certainty whether the adjustments will permanently solve the problem, the error message remains active.

Fr 24.09.2021 11:39

***english version below*** In den letzten Tagen konnten wir intern keine fehlgeschlagene Backups mehr mit dem Hinweis "Server out of storage space" mehr feststellen. Wir gehen daher davon aus, dass diese Störung damit behoben werden konnte. Wir beobachten die Situation sicherheitshalber noch bis kommenden Dienstag und würden die Störung dann offiziell als beendet erklären. Wir bitten die lange Zeit bis zur Behebung nochmals zu entschuldigen. ***english version*** In the last few days, we have not been able to detect any more failed backups internally with the message "Server out of storage space". We therefore assume that this malfunction has been resolved. To be on the safe side, we will continue to monitor the situation until next Tuesday and would then officially declare the malfunction to be over. We apologize again for the long time it took to fix the problem.

Do 30.09.2021 15:34