Zurück | Archiv

Object Storage (Pilot) - Ceph-Störung

Montag 19.07.2021 08:30 - unbekannt

***english version below*** Derzeit liegt eine Störung der Object-Storage-Infrastruktur vor. Leider waren die bisherigen Reparaturarbeiten nicht erfolgreich. Folgende Dienste sind hiervon betroffen: - Backup- und Archivsystem: System grundsätzlich verfügbar, Restore von Daten einzelner Knoten eventuell nicht möglich (Knoten bis 2TB) - s3 Storage: System eingeschränkt verfügbar Die beiden folgenden Systeme werden nun auf einen anderen Speicherort migriert: - GitLab: System grundsätzlich verfügbar, aber Aussetzer (TimeOuts) und Fehlermeldungen möglich; während der Migration können einzelne Komponenten nur lesend zur Verfügung stehen. Wir beginnen jetzt mit der Docker registry. Diese Migration dauert bis zu 72 Stunden. Währenddessen können keine neuen Images angelegt und keine Änderungen an Images vorgenommen werden. - GigaMove: System grundsätzlich verfügbar, aber Aussetzer (TimeOuts) und Fehlermeldungen möglich. Hier gilt auch während der Zeit der Migration, dass Uploads und Downloads zeitweise nicht möglich sind. Aktuelle Informationen zur Migration werden in den Updates zur Störungsmeldung kommuniziert. Wir arbeiten weiterhin mit Hochdruck an der Behebung des Problems. ***english version*** There are currently problems with the Object Storage Infrastructure. Unfortunately, the repair work carried out so far has not been successful. The following services are affected: - Backup and archive system: System basically available; Restore of data of single nodes may not be possible (nodes up to 2TB) - s3 Storage: System limited available The following two systems are now migrated to a different location: - GitLab: System basically available, but timeouts and error messages possible; during migration, individual components may be available read-only. We now start with the Docker registry. This migration takes up to 72 hours. During this time, no new images can be created and no changes can be made to images. - GigaMove: System basically available, but timeouts and error messages possible. Uploads and downloads are also temporarily not possible during the migration. Current information about the migration will be communicated in the updates to this incident message. We continue working at high pressure to fix the problem.

Updates

Die Migration der Services Gitlab und Gigamove haben begonnen und laufen auch über das Wochenende. An der Behebung der Störung wird weiterhin gearbeitet. Der Zustand ist also weiterhin unverändert. ***english version*** The migration of the Gitlab and Gigamove services have begun and will continue over the weekend. Work is still underway to resolve the disruption. So the state is still unchanged.

***english version below*** Aufgrund eines Ausfalls war die gesamte Object Storage Infrastruktur zwischen 18:30 und 5:30 Uhr nicht erreichbar. Die Migration der Daten von Gitlab und Gigamove läuft weiter und wird noch mehrere Tage in Anspruch nehmen. Anonsten bleibt der Zustand unverändert. Wir arbeiten auf eine grundsätzliche Behebung der Störung durch eine Erweiterung des Systems hin. ***english version*** Due to an outage, the entire Object Storage infrastructure was unavailable between 6:30pm and 5:30am. The migration of data from Gitlab and Gigamove is ongoing and will take several more days. Otherwise, the condition remains unchanged. We are working towards a basic fix of the disruption by extending the system.

Um 9:00 Uhr findet eine Wartung von git.rwth-aachen.de statt. in dieser Zeit wird der Bucket, der die GitLab Uploads enthält umgezogen und GitLab ist kurzzeitig nicht erreichbar. Wir bitten um Ihr Verständnis

Um 9:15 Uhr findet der Umzug des LFS Bucket von git-ce.rwth-aachen.de statt. Dazu ist ein kurzer Neustart des Dienstes nötig.

Aktuelle Verbindungsprobleme werden untersucht.

Die Verbindungsprobleme dauern an, die Nutzerschnittstellen wurden abgeschaltet. An der Entstörung wird gearbeitet.

Die Verbindungsprobleme konnten gelöst werden, die resultierenden Einschränkungen sind nicht mehr gegeben. Auch wenn im weiteren Verlauf noch Nacharbeiten nötig sind, wurde die Nutzerschnittstelle wieder freigegeben und der Störungsstatus herabgesetzt. ***english version*** The connection loss was repaired, the resulting constraints are not present any more. In due course further repairs need to be carried out, nevertheless the user interface was reactivated and the incident status reduced.

Um 13 Uhr findete der Umzug des Upload Buckets von git-ce.rwth-aachen.de statt.

Object Storage (Pilot) - Ceph-Störung

Freitag 16.07.2021 00:00 - Freitag 16.07.2021 15:26

***english version below*** Zur Zeit gibt es Probleme mit der Objektinfrastruktur. An der Störungsbehebung wird zur Zeit mit dem Hersteller gearbeitet. ***english version*** There are currently problems with the object infrastructure. We are currently working with the manufacturer on fixing the problem.

Object Storage (Pilot) -

Donnerstag 01.07.2021 09:00 - Donnerstag 01.07.2021 10:00

Zur Zeit finden Arbeiten an der Netzwerkinfrastruktur der Objektinfrastruktur statt. Hierdurch kann es zu Abbrüchen und Timeouts kommen

Object Storage (Pilot) -

Samstag 12.06.2021 08:00 - Montag 14.06.2021 09:00

am Wochenende ist es durch Ausfall einzelner Services zu erhöhten Antwortzeiten und timeouts gekommen. Das Problem wurde breites behoben.