Zurück | News

Backup- und Archivsystem - Umstellung Archiv auf "Read Only" Modus

Mittwoch 08.12.2021 11:45 - Sonntag 25.09.2022 09:00

Im Zuge der Archivmigration steht das Archiv ab dem 08.12.2021 nur noch im „Read Only“ Modus zur Verfügung. Daten ohne Forschungskontext können ab sofort über das DigitalArchiv langfristig archiviert werden. Dieses ist über SeviRe [1] erreichbar. Zum Archivieren von Forschungsdaten nutzen Sie bitte die entsprechende Funktion über Coscine [2]. [1] https://sevire.rwth-aachen.de/de [2] https://coscine.rwth-aachen.de/ Weitere Informationen finden Sie entnehmen Sie bitte dem IT Center Blog: https://blog.rwth-aachen.de/itc/2021/11/26/archiv-wird-digitalarchiv/ ***English version*** In the course of the archive migration, the archive will only be available in "Read Only" mode from 08 December 2021. Data without a research context can now be archived long-term via the DigitalArchive. This can be accessed via SeviRe [1]. To archive research data, please use the corresponding function via Coscine [2]. [1] https://sevire.rwth-aachen.de/de [2] https://coscine.rwth-aachen.de/ For more information, please refer to the IT Center Blog: https://blog.rwth-aachen.de/itc/2021/11/26/archiv-wird-digitalarchiv/

Updates

Der Großteil der Archivknoten ist erfolgreich klassifiziert und mit Metadaten versehen worden. Die Migration der Archivknoten ist gestartet und läuft. Die hinterlegten Knotenansprechpersonen erhalten eine Abschlussbenachrichtigung per E-Mail sobald der Migrationsprozess der jeweiligen Archivknoten abgeschlossen ist. Ziel ist es bis 30.06.2022 alle Archivknoten, die klassifiziert worden sind, in die Zielsysteme Coscine und DigitalArchiv überführt zu haben. In der Zwischenzeit stehen die Services Coscine und DigitalArchive zum Archivieren zur Verfügung. Vielen Dank für Ihr Mitwirken und Verständnis. ***English version*** The majority of the archive nodes have been successfully classified and provided with metadata. The migration of the archive nodes has started and is in progress. The stored node contact persons receive a final notification by e-mail as soon as the migration process of the respective archive nodes has been completed. The objective is to have all archive nodes that have been classified migrated to the target systems Coscine and DigitalArchive by June 30, 2022 at the latest. In the meantime, the Coscine and DigitalArchive services will be available for archiving. Thank you for your cooperation and understanding.

Aufgrund von zwingend erforderlichen Anpassungen am technischen Migrationsprozess kommt es in der Migration der Archivdaten zu einer Verzögerung. Aktuell werden Migrationsskripte angepasst, um den Migrationsprozess fortzusetzen. Der Zugriff auf die bisher im Archiv vorgehaltenen Daten ist weiterhin gewährleistet. Für die Archivierung von Daten nutzen Sie bitte seit Dezember 2021 das DigitalArchiv.

Im Zuge der gerade stattfinden Migration kann es vorkommen, dass Sie in Coscine leere Ressourcen sehen. Dies bedeutet nicht, dass Ihre Daten nicht migriert wurden, sondern stellt lediglich einen Zwischenschritt im Migrationsprozess für Forschungsdaten dar. Erst wenn Sie für Ihren Archivknoten eine Abschlussbenachrichtigung via E-Mail erhalten, wird dieser Archivknoten migriert sein und Sie finden Ihre Forschungsdaten in Coscine. Auch für sonstige Daten, die ins DigitalArchiv migriert werden, findet eine Abschlussbenachrichtigung via E-Mail statt. Wir bitten die Verzögerung der Migration zu entschuldigen und bitten weiterhin um Ihre Geduld.

Backup- und Archivsystem - Wartungsarbeiten an der Backupinfrastruktur

Donnerstag 22.09.2022 08:00 - Donnerstag 22.09.2022 18:00

Für Wartungsarbeiten Software-Aktualisierungen müssen Prozesse im Wartungszeitraum vorübergehend gestoppt werden und die Server rebootet werden. Unterbrochene Backup-Jobs werden automatisch fortgesetzt, sobald die Services wieder verfügbar sind. Backups und Restores über Commvault sind im Wartungszeitraum nicht möglich.

Updates

zur zeit gibt es noch Probleme mit dem User Login. Backup Operation sollten allerdings ohne Einschränkungen laufen

Auch den Login ist nun wieder möglich.

Backup- und Archivsystem - Backup-Jobs brauchen eventuell länger als gewöhnlich

Dienstag 20.09.2022 14:00 - Mittwoch 21.09.2022 17:00

Da einige Partitionen der Dedup Datenbanken von Commvault aktuell einen Resync durchführen, kann es vorkommen, dass einige Backup-Jobs länger benötigen, bis die Partitionen wieder verfügbar werden. Solange ein Backup-Job nicht den Status "failed" hat, wird dieser Job automatisch fortgesetzt. Sonst wird planmäßig ein neuer Job gestartet, ohne dass Sie aktiv werden müssen.

Backup- und Archivsystem - Zugriff auf https://console1.dasi.rwth-aachen.de/ gestört

Dienstag 13.09.2022 18:00 - Mittwoch 14.09.2022 09:05

Aktuell ist der Zugriff auf die Webschnittstelle https://console1.dasi.rwth-aachen.de/ gestört.

Updates

Das System ist wieder erreichbar.

Backup- und Archivsystem - Wartung Commvault umgebung

Dienstag 06.09.2022 13:00 - Dienstag 06.09.2022 13:45

Im genannten Zeitraum werden Updates im Commvault Backup System eingespielt. im Zeitraum der Wartung kann es zu Ausfällen des Webinterface (console1.dasi.rwth-aachen.de) kommen. Backup und Restore Aktivitäten werden unter Umständen pausiert.

Updates

Die Arbeiten wurden abgeschlossen

Backup- und Archivsystem -

Samstag 13.08.2022 15:00 - Dienstag 16.08.2022 18:00

Aufgrund eines Hardwaredefektes kommt es zur Zeit zu Fehlermeldungen beim Backup, sowie beim Restore. Wir arbeiten an der Störungsbeseitigung.

Backup- und Archivsystem - Umbau SDN-Core

Freitag 03.06.2022 08:30 - Freitag 03.06.2022 10:30

Besagte Router werden getauscht um das Konzept in den Produktiv-Betrieb zu überführen. Es sollte zu keinen Komplettausfall kommen.

Backup- und Archivsystem - DigitalArchiv - Wartungsarbeiten MySQL Datenbankserver

Donnerstag 12.05.2022 07:00 - Donnerstag 12.05.2022 08:00

MySQL Datenbanken werden während dieser Wartung nicht zur Verfügung stehen. Betroffen davon sind auch alle abhängigen Services des IT Centers, d.h. unter anderem Gigamove, MailAdm, Backup Portal, Streamingserver, DigitalArchiv (SeviRe), Laptop Leihpool, Webhosting (hier nur die Datenbanken, die noch nicht zur FH migriert sind).

Technische Erläuterung

Es werden aktuelle Kernel-, OS- und MySQL-Updates eingespielt.

Backup- und Archivsystem - Neustart Bas47

Donnerstag 07.04.2022 13:00 - Donnerstag 07.04.2022 14:00

Der Backup-Server BAS47 muss im genannten Zeitraum neu gestartet werden.

Backup- und Archivsystem - Neustart Bas19 und BAS54

Donnerstag 31.03.2022 15:30 - Donnerstag 31.03.2022 16:00

Aufgrund eines Hardwareaustauschs, müssen die Archiv Server BAS19 und BAS54 im genannten Zeitraum neu gestartet werden.

Updates

Die Archivserver wurden neu gestartet und können wieder genutzt werden.

Backup- und Archivsystem - Ausfall Bandspeichereinheit///Failure central tape storage

Montag 21.03.2022 00:15 - Dienstag 22.03.2022 08:00

In der Nacht von Sonntag auf Montag ist es zu einem Ausfall der zentralen Bandspeichereinheit gekommen. Hierdurch kann es zu Fehlern bei Backups kommen. Darüber hinaus sind Restores und Retrives zur Zeit teilweise nicht möglich. An der Beseitigung des Problem wird zur Zeit gearbeitet. --eng-- In the night from Sunday to Monday there was a failure of the central tape storage unit. This can lead to errors during backups. Furthermore, restores and retrives are partially not possible at the moment. We are currently working on the elimination of this problem.

Updates

die Defekte Hardware wurde repariert. Der dienst ist wieder uneingeschränkt nutzbar.

Backup- und Archivsystem -

Dienstag 01.02.2022 12:00 - Dienstag 01.02.2022 17:30

Es ist zu einem Ausfall an einer zentralen Komponente des Bandspeichersystems gekommen. Die gespeicherten Daten sind nicht in Gefahr, allerdings bestehen bis zum Austausch der Komponente folgende Einschränkungen: * Backups können mit der Meldung "Server out of storage space" fehlschlagen. Restore ist für knoten über 2TB nicht möglich. * Archivieren von Daten wird für Knoten die größer als 2TB sind ebenfalls mit "Server out of storage space" fehlschlagen. * Retrieves von Archivdaten sind nur für knoten unter 2 TB möglich. Unter Umständen müssen die Server wieder für den Clientzugriff gesperrt werden.

Updates

Die Störung wurde behoben

Backup- und Archivsystem -

Freitag 10.12.2021 00:00 - Montag 31.01.2022 00:00

Eine Komponente des Spectrum Protect Clients ist von der log4j Sicherheitslücke (CVE-2021-44228) betroffen. Wir empfehlen daher die log4j library wie in dem unten stehenden Link beschrieben, falls vorhanden, auszutauschen, auch wenn die genannten Komponenten (Webclient und VM Sicherung) nicht aktiv genutzt sind. https://www.ibm.com/support/pages/node/6527080

Backup- und Archivsystem -

Montag 24.01.2022 15:15 - Montag 24.01.2022 16:40

Aufgrund eines Problems in der zugrundeliegenden Infrastruktur, ist das Backup Portal zur Zeit nicht erreichbar. Die eigentliche Backupinfrastruktur ist von dem Ausfall nicht betroffen. Wir arbeiten bereits an der Behebung

Updates

Die Störung wurde behoben, das Backup Portal ist wieder erreichbar.

Backup- und Archivsystem - Websrvice für Gigamove, Sevire und Digitalarchiv nicht erreichbar

Montag 24.01.2022 15:20 - Montag 24.01.2022 16:30

Aktuell ist der Webservice, der die Dienste Gigamove, Sevire und DigitalArchiv bereitstellt gestört. An der Behebung der Störung wird bereits gearbeitet.

Updates

Die Störung wurde behoben

Die Störung wurde behoben, Gigamove und das Digitalarchiv sind wieder nutzbar.

Backup- und Archivsystem - Ausfall Tapelibrary

Samstag 01.01.2022 10:15 - Mittwoch 05.01.2022 18:15

Aufgrund eines Hardwaredefekts an einer zentralen Speicherkomponente kann es zur Zeit zu Problemen beim Backup und Restore kommen. Wir arbeiten bereits an einer Lösung.

Updates

Einzelne TSM Server sind in folge des Ausfalls zur Zeit nicht erreichbar.

Backup- und Archivsystem - Neustart Backup Server BAS02

Dienstag 28.12.2021 11:30 - Dienstag 28.12.2021 12:30

Um kleinere Anpassungen vornehmen zu können, muss der Backup Server BAS02 im genannten Zeitraum neu gestartet werden.

Backup- und Archivsystem - [Log4j] Hinweis zur Eingabe von Metadaten über das Webformular | [Log4j] Note on entering metadata via the web form

Freitag 17.12.2021 15:30 - Montag 20.12.2021 16:45

--English version below-- Aufgrund der kritischen Zero-Day-Sicherheitslücke (Log4Shell) in der Java-Logging-Bibliothek Log4j sind unter anderem die Systeme Coscine und auch das DigitalArchiv bis auf weiteres gesperrt. Aus diesem Grund ist aktuell die Eingabe von Metadaten über das Webformular nicht möglich. An einer Lösung wird bereits gearbeitet. Sobald die Systeme wieder verfügbar sind und die Eingabe der Metadaten über das Webformular wieder möglich ist, wird die vorliegende Statusmeldung aktualisiert. Das neue Digitalarchiv wurde aufgrund der Sicherheitslücke vorerst deaktiviert Vielen Dank für Ihr Verständnis. --English version— Due to the critical zero-day security vulnerability (Log4Shell) in the Java logging library Log4j, the systems Coscine and also the DigitalArchive, among others, are blocked until further notice. For this reason, it is currently not possible to enter metadata via the web form. A solution is already being worked on. As soon as the systems are available again and the input of metadata via the web form is possible again, this status message will be updated. Thank you for your understanding.

Updates

---english version below--- Der Zugriff auf beide Systeme wurde wieder freigegeben. Die Eingabe von Metadaten über das Webformular ist wieder möglich. ---english version--- Access to both systems has been enabled again. Entering metadata via the web form is possible again.

Backup- und Archivsystem -

Montag 13.12.2021 10:45 - Montag 13.12.2021 16:30

Aus Sicherheitsgründen ist es nötig alle Backup und Archiv Server sofort zu aktualisieren. Dementsprechend werden die Backup und Archiv Server im Verlauf des heutigen Tages nicht zur Verfügung stehen. Darüber hinaus empfehlen wie dringend alle Clients (insbesondere auf Unix/Linux Systemen) auf die Version 8.1.13 zu aktualisieren. Nähere Informationen, sowie Download-Links finden sie hier: https://www.ibm.com/support/pages/node/6524706?myns=swgtiv&mynp=OCSSEQVQ&mync=E&cm_sp=swgtiv-_-OCSSEQVQ-_-E

Updates

Die Updates wurden erfolgreich installiert

Backup- und Archivsystem - Ausfall Backup Server BAS07

Mittwoch 01.12.2021 08:25 - Mittwoch 01.12.2021 09:20

Der Backupserver ist abgestürzt und wird gerade neu gestartet. Die Ursache wird analysiert.

Updates

Der Server ist wieder aktiv und kann genutzt werden.

Backup- und Archivsystem - Neustart Backup Server BAS35

Donnerstag 25.11.2021 11:00 - Donnerstag 25.11.2021 12:00

Um kleinere Anpassungen vornehmen zu können, muss der Backup Server BAS35 im genannten Zeitraum neu gestartet werden.

Backup- und Archivsystem - Neustart Backup Server BAS02

Donnerstag 18.11.2021 11:00 - Donnerstag 18.11.2021 12:00

Um kleinere Anpassungen vornehmen zu können, muss der Backup Server BAS02 im genannten Zeitraum neu gestartet werden.

Backup- und Archivsystem - Neustart Backup Server BAS48

Freitag 29.10.2021 11:00 - Freitag 29.10.2021 12:00

Um kleinere Anpassungen vornehmen zu können, muss der Backup Server BAS48 im genannten Zeitraum neu gestartet werden.

Backup- und Archivsystem - Neustart BAS04

Mittwoch 13.10.2021 13:00 - Mittwoch 13.10.2021 13:30

Aufgrund einer akuter Störung ist ein Neustart des Servers BAS04 erforderlich. In dem Zeitraum können keine Bakups und Restores durchgeführt werden.

Updates

Der Server ist wieder online und kann genutzt werden.

Backup- und Archivsystem - Ceph-Störung

Montag 19.07.2021 09:55 - Dienstag 05.10.2021 12:00

***english version below*** Derzeit liegt eine Störung der Object-Storage-Infrastruktur vor. Davon betroffen sind aktuell die Services Backup/Restore und Software Engineering Services (GitLab). Letzterer wird in einer eigenen Störungsmeldung behandelt. Der Service Gigamove wurde mittels Migration bereits entstört. Ausgenommen von der Störung ist der Service Archiv. Seit dem Beginn der Störung wurden bzw. werden mehrere Maßnahmen zur Stabilisierung und Entlastung der Infrastruktur durchgeführt: - Gigamove: abgeschlossene Migration auf einen anderen Speicherort - GitLab: laufende Migration auf einen anderen Speicherort - Einbeziehung des Hersteller-Supports - Erweiterung der Infrastruktur mit virtuellen und physischen Ressourcen - Zeitweise Deaktivierung der Nutzerschnittstelle zwecks Entlastung und Verringerung von Risiken bei Änderungen Aktueller Status und weiteres Vorgehen: Der Service Backup/Restore bleibt grundsätzlich verfügbar. Der Restore von Daten einzelner Knoten ist eventuell nicht möglich (Knoten bis 2TB). Die gegebenenfalls betroffenen Nutzenden werden bis spätestens 06.08. per E-Mail mit weiteren Informationen kontaktiert. Bis zum Abschluss der Inbetriebnahme und der Integration weiterer Ressourcen bleibt die Nutzerschnittstelle deaktiviert. Aktuelle Informationen zur Migration und Behebung der Störung werden in den Updates zur dieser Störungsmeldung kommuniziert. Wir arbeiten weiterhin mit Hochdruck an der Behebung des Problems und bitten um Verzeihung für die Einschränkungen ***english version*** There is currently a disruption in the object storage infrastructure. This currently affects the services Backup/Restore and Software Engineering Services (GitLab). The latter is dealt with in a separate incident message. Gigamove has already been suppressed by means of migration. The Archive service is not affected by the disruption. Since the beginning of the disruption, several measures have been and are being implemented to stabilize and reduce the workload on the infrastructure: - Gigamove: completed migration to another location - GitLab: ongoing migration to another location - Involvement of vendor support - Expansion of the infrastructure with virtual and physical resources - Temporarily disable user interface to reduce workload and decrease risk when changes are made. Current status and next steps: The Backup/Restore service remains generally available. Restoring data from certain nodes may not be possible (nodes up to 2TB). Any affected users will be contacted by email with further information by 06.08 at the latest. The user interface will remain deactivated until the commissioning and integration of further resources is completed. The latest information on the migration and remediation of the disruption will be communicated in the updates to this disruption message. We continue to work at full speed to resolve the issue and apologize for any inconvenience.

Updates

Die Migration des S3 Storages wurde erfolgreich abgeschlossen und somit steht GitLab wieder wie gewohnt zur Verfügung. // The migration of the S3 storage has been successfully completed and therefore GitLab is available again as usual.

Die Arbeiten zur Behebung der Störung sind so weit fortgeschritten, dass die Nutzerschnittstelle im Laufe des heutigen Tages wieder aktiviert werden konnte. Mit der Reaktivierung wird der Uploadprozess stabilisiert und der Restore ist ohne vorherige Rücksprache möglich. Die Arbeiten zur Entstörung werden fortgesetzt, bei Problemen, wenden Sie sich bitte weiterhin an das IT-ServiceDesk. ***english version*** The Repairs on the storage system are making progress, therefore the user interface was reactivated during the day. Reactivating the user interface makes the upload process more stable and users can run the restore process on their own. The repairs continue, in case of problems please contact the IT-ServiceDesk.

***english version below*** Mit Hilfe des Hersteller-Supports wurde zwischenzeitlich ein Bug in der verwendeten Software identifiziert. Nach Bereitstellung und erfolgreichen Tests des Patches auf den Servern BAS35, BAS37 und BAS48, werden am Montag, 23.08.2021 von 08:00 bis 16:00 Uhr die Softwareupdates auf allen weiteren Backup Servern installiert. Damit soll die Stabilität der Backup Server verbessert werden. Die Archiv Server BAS19 und BAS45 sind davon nicht betroffen. Weitere Informationen können der Wartungsankündigung entnommen werden: https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7016 Die Erweiterung der Infrastruktur mit virtuellen und physischen Ressourcen wird seit Beginn der Störung kontinuierlich durchgeführt. ***english version*** With the help of the vendor support, a bug in the software has been identified in the meantime. After deployment and successful testing of the patch on the BAS35, BAS37 and BAS48 servers, the software updates will be installed on all other backup servers on Monday, 23.08.2021 from 08:00 to 16:00. This is intended to improve the stability of the backup servers. The archive servers BAS19 and BAS45 are not affected. Further information can be found in the maintenance announcement: https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7016 The expansion of the infrastructure with virtual and physical resources has been carried out continuously since the beginning of the disruption.

wir haben heute ein weiteres Problem der Backup Server identifiziert, durch dass die Ablage neuer Daten auf dem Object Storage behindert wird. In folge dieses Fehlers sind die Caches vieler Server bereits im laufe der Nacht auf den 25.08. voll gelaufen und Backups sind mit der Meldung "server out of storagespace" abgebrochen. Wir arbeiten zusammen mit den Softwareherstellern weiter an der nachhaltigen Behebung der Probleme.

***english version below*** Wir konnten gemeinsam mit dem Hersteller die Ursache für die fehlgeschlagenen Backups der letzten Tage identifizieren. In der heutigen Wartung (https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7026) wurde ein weiterer Patch zur Behebung dieses Problems eingespielt. Dadurch sollte sich das Backup-System in den kommenden Tagen wieder stabilisieren. ***english version*** Together with the manufacturer, we were able to identify the cause of the failed backups over the last few days. In today's maintenance (https://maintenance.itc.rwth-aachen.de/ticket/status/messages/16/show_ticket/7026), another patch was applied to fix this problem. This should stabilize the backup system again in the coming days.

***english version below *** Das Update der Backupserver von Freitag hat die Kommunikation zwischen dem Backupdsystem und dem Ceph-Storage wieder hergestellt. Leider ist der Cache so voll, dass dieser über das Wochenende noch nicht ausreichend geleert werden konnte. Der Ausfall eines Bandlaufwerkes der Tape-Libary hat zu einer weiteren Verzögerung beim Leeren des Chaces geführt. Daher sind über das Wochenende weiterhin viele Bakcups fehlgeschlagen. ***english version*** Friday's backup server update restored the communication between the backup dsystem and Ceph storage. Unfortunately, the cache is so full that it could not yet be sufficiently emptied over the weekend. The failure of a tape drive in the tape library has caused a further delay in emptying the cache. As a result, many backups continued to fail over the weekend.

Zusammen mit dem Backup Software Hersteller konnten wir eine weiteres Problem identifizieren das verhinderte, dass der Speicherplatz in den Cache Speicherbereichen der Backup Server, nach erfolgreicher Übertragung in die Persistenzschicht (Tape/Disk Storage), freigegeben wird. Erste Tests legen nahe, dass mit den nun vorgenommenen Anpassungen ein Backup ab der Nacht vom 02.09. auf den 03.09. wieder möglich sein wird.

***english version below*** Leider haben die letzten durchgeführten Anpassungen an den Backupservern nicht zu einer Lösung der aktuellen Probleme geführt, so dass es weiterhin teilweise zu fehlerhaften Backups kommt. IBM arbeitet weiter an der Alyse der Probleme um eine Verbesserung der Stabilität herbeizuführen. ***english version*** Unfortunately, the last adjustments made to the backup servers have not led to a solution of the current problems, so that there are still partially faulty backups. IBM continues to work on the analysis of the problems in order to improve the stability.

***english version below*** Leider gestalten sich die Analysen durch IBM sehr komplex und zeitaufwendig. Mehrere Lösungsansätze wurden inzwischen verfolgt, eine Entstörung des Backupsystems konnte aber leider noch nicht herbeigeführt werden, so dass es weiterhin zu fehlgeschlagenen Backups kommt. ***english version*** Unfortunately, IBM's analyses are very complex and time-consuming. In the meantime, several approaches to a solution have been pursued, but unfortunately it has not yet been possible to resolve the backup system, so that failed backups continue to occur.

***english version below*** Inzwischen konnte IBM einen weiteren Fehler innerhalb des Systems identifizieren und hat uns heute eine weitere Konfigurationsänderung mitgeteilt. Diese wird heute auf einigen besonders problematischen Backupservern eingespielt um die Auswirkung zu bewerten. ***english version*** In the meantime, IBM was able to identify another error within the system and has informed us today of another configuration change. This will be applied today on some particularly problematic backup servers to evaluate the impact.

***english version below*** Durch weitere Systemanpassungen von IBM konnte die Quote der erfolgreichen Backups seit der Nacht vom 21. auf den 22.9 deutlich verbessert werden. Da noch nicht mit Sicherheit gesagt werden kann, ob die Anpassungen das Problem dauerhaft beheben bleibt die Störungsmeldung aber weiterhin aktiv. ***english version*** Due to further system adjustments by IBM, the rate of successful backups could be improved significantly since the night from 21. to 22.9. Since it cannot yet be said with certainty whether the adjustments will permanently solve the problem, the error message remains active.

***english version below*** In den letzten Tagen konnten wir intern keine fehlgeschlagene Backups mehr mit dem Hinweis "Server out of storage space" mehr feststellen. Wir gehen daher davon aus, dass diese Störung damit behoben werden konnte. Wir beobachten die Situation sicherheitshalber noch bis kommenden Dienstag und würden die Störung dann offiziell als beendet erklären. Wir bitten die lange Zeit bis zur Behebung nochmals zu entschuldigen. ***english version*** In the last few days, we have not been able to detect any more failed backups internally with the message "Server out of storage space". We therefore assume that this malfunction has been resolved. To be on the safe side, we will continue to monitor the situation until next Tuesday and would then officially declare the malfunction to be over. We apologize again for the long time it took to fix the problem.

Backup- und Archivsystem - Knoten Password reset

Dienstag 14.09.2021 08:00 - Dienstag 21.09.2021 23:00

Aufgrund eines Softwarefehler war die Funktion zum Setzen von Knotenpasswörtern (Backup und Archiv) im Zweitraum vom 14.9 bis zum 21.9, gestört. Das Problem wurde bereits behoben.

Backup- und Archivsystem -

Freitag 03.09.2021 14:00 - Freitag 03.09.2021 15:00

Die gestern implementierten Änderungen haben nur Teilweise Besserung gebracht, so dass ca. 30% der Backups in der vergangenen Nacht erfolgreich waren. Um für alle Systeme erfolgreiche Backups zu ermöglichen, werden heute Nachmittag erneut Arbeiten an einigen oder allen Backup Servern notwendig.

Backup- und Archivsystem -

Donnerstag 02.09.2021 13:00 - Donnerstag 02.09.2021 14:00

Zwischen 13:00 Uhr und 14:00 Uhr am 02.09.21 müssen alle Backup Server kurzfristig neu gestartet werden, um eine dringende Konfigurationsanpassung umzusetzen. Die Archiv Server sind nicht betroffen.

Technische Erläuterung

Zusammen mit dem Softwarehersteller konnten wir eine weiteres Problem identifizieren das zur Zeit verhindert, dass der Speicherplatz in den Cache Speicherbereichen der Backup Server, nach erfolgreicher Übertragung in die Persistenzschicht (Tape/Disk Storage), freigegeben wird. Erste Tests legen nahe, dass mit den neuen Anpassungen ein Backup ab der Nacht vom 02.09. auf den 03.09. wieder möglich sein wird.

Backup- und Archivsystem -

Freitag 27.08.2021 08:45 - Freitag 27.08.2021 17:00

Es müssen kurzfristig Updates zur Stabilisierung des Systems installiert werden. Hierfür werden alle Backup Server im angegebenen Zeitraum gestoppt. Die Archivserver sind nicht betroffen.

Technische Erläuterung

Die Updates beheben einen Fehler, der zur Zeit dazu führt dass die Caches der Backup Server nicht geleert werden können und die Backups daher mit der Meldung "server out of storage space" abbrechen. Da die Caches der Backups Server nach der installieren erst einmal wieder geleert werden müssen, kann es sein, dass sich die Verbesserungen erst im laufe der nächsten Tage bemerkbar machen.

Backup- und Archivsystem -

Dienstag 24.08.2021 08:00 - Dienstag 24.08.2021 11:00

Im angegebenen Zeitraum sind auf dem Backup Server BAS37 und dem Archiv Server BAS19 kurzfristige Wartungsarbeiten notwendig, um von IBM empfohlene Anpassungen vorzunehmen.

Backup- und Archivsystem -

Montag 23.08.2021 08:00 - Montag 23.08.2021 16:00

Um die Stabilität der Backup Server zu verbessern, müssen im angegebenen Zeitraum Softwareupdates auf allen Backup Server mit ausnehme der Server BAS35, BAS37 und BAS48 installiert werden. Die Archiv Server BAS19 und BAS45 sind nicht betroffen.

Technische Erläuterung

Seit einiger Zeit kämpfen wir auf einigen Backup Servern mit sehr häufigen Abstürzen. Die Ursache war für den Softwarehersteller lange nicht zu ermitteln. Nun wurde uns ein Patch zur Verfügung gestellt, der der Problem beheben soll. Dieser Patch wurde am 17.8. bereits auf den Server BAS35, BAS37 und BAS48 installiert.

Backup- und Archivsystem -

Dienstag 17.08.2021 12:00 - Dienstag 17.08.2021 16:00

Um die Stabilität der Backup Server zu verbessern, müssen im angegebenen Zeitraum Softwareupdates auf den Server BAS35, BAS37 und BAS48 installiert werden.

Technische Erläuterung

Seit einiger Zeit kämpfen wir auf einigen Backup Servern mit sehr häufigen Abstürzen. Die Ursache war für den Softwarehersteller lange nicht zu ermitteln. Nun wurde uns ein Patch zur Verfügung gestellt, der der Problem beheben soll.

Backup- und Archivsystem - Aktuelle Beeinträchtigungen von Backupprozessen

Montag 12.04.2021 15:15 - Samstag 31.07.2021 16:15

Zurzeit treten auf den Spectrum-Protect-Backupservern immer wieder Fehler bei der Sicherung einzelner Systeme auf. Auf Clientseite äußern sich diese Probleme dadurch, dass eine Meldung „Server out of storage space“ ausgegeben wird und das Backup abbricht. Hintergrund dieser Probleme ist ein Fehlerkomplex, den wir zurzeit zusammen mit dem Softwarehersteller untersuchen. Sollten Sie derartige Probleme auf Ihren Backupknoten erfahren, bitten wir Sie sich erst bei uns zu melden, wenn die Probleme mehrere Tage hintereinander aufgetreten sind. Im Rahmen dieses Fehlerkomplexes kommt es leider auch immer wieder zu Abstürzen einzelner Backupserver. Wir bemühen uns solche Abstürze zu verhindern und abgestürzte Server so schnell wie möglich wieder online zu nehmen. Über Ausfälle informieren wir jeweils in gesonderten Störungsmeldungen.

Technische Erläuterung

Architektonische Hintergründe: Das Backupsystem nimmt nachts die zu sichernden Daten von den Backup-Clients in einen Cache-Speicherbereich entgegen. Tagsüber werden diese Daten dann auf ihre endgültigen Speicherzeihe (Tape oder Objektspeicher) verschoben. Die aktuellen Fehler treten beim Verschieben der Daten auf ihre endgültigen Speicherorte auf. Hierdurch steht dann, im Fehlerfall, nicht genügend Speicherplatz im Cache-Bereich zur Verfügung, um neue Daten aufzunehmen. Die ebenfalls genannten Abstürze hängen vermutlich mit einem Memory Leak im Verschiebeprozess zusammen.

Backup- und Archivsystem - Ceph-Störung

Freitag 16.07.2021 00:00 - Freitag 16.07.2021 15:26

***english version below*** Zur Zeit gibt es Probleme mit der Objektinfrastruktur. An der Störungsbehebung wird zur Zeit mit dem Hersteller gearbeitet. ***english version*** There are currently problems with the object infrastructure. We are currently working with the manufacturer on fixing the problem.

Backup- und Archivsystem -

Freitag 09.07.2021 06:40 - Montag 12.07.2021 14:00

Aufgrund von Störungen an Storagesystemen kann es zu kann es zu Abbrüchen und Timeouts kommen. An der Behebung wird gearbeitet.

Updates

Seit ca. 14:30 arbeitet das Storage-System wieder stabil - wir arbeiten weiterhin gemeinsam mit dem Hersteller an der Analyse und einer dauerhaften Behebung.

Der Fehler ist seit Freitag nicht wieder aufgetreten.

Backup- und Archivsystem - RWTH Single Sign On Störung / Malfunction

Donnerstag 08.07.2021 10:45 - Donnerstag 08.07.2021 11:03

Aktuell ist der Login über den RWTH SSO bei allen angebundenen Diensten gestört. Wir arbeiten zügig an der Behebung -- Currently, the login via the RWTH SSO is disrupted for all connected services. We are working quickly on the fix.

Updates

Die Störung wurde behoben -- The issues have been fixed

Backup- und Archivsystem -

Donnerstag 01.07.2021 09:00 - Donnerstag 01.07.2021 10:00

Zur Zeit finden Arbeiten an der Netzwerkinfrastruktur der Objektinfrastruktur statt. Hierdurch kann es zu Abbrüchen und Timeouts kommen

Backup- und Archivsystem -

Mittwoch 23.06.2021 20:30 - Donnerstag 24.06.2021 16:00

Es ist zu ernuet einem Ausfall an einer zentralen Komponente des Bandspeichersystems gekommen. Die gespeicherten Daten sind nicht in Gefahr, allerdings bestehen bis zum Austausch der Komponente folgende Einschränkungen: * Backups können mit der Meldung "Server out of storage space" fehlschlagen. Restore ist für knoten über 2TB nicht möglich. * Archivieren von Daten wird für Knoten die größer als 2TB sind ebenfalls mit "Server out of storage space" fehlschlagen. * Retrieves von Archivdaten sind nur für knoten unter 2 TB möglich. Unter Umständen müssen die Server wieder für den Clientzugriff gesperrt werden.

Updates

Der Defekt wurde behoben und die Server sind wieder normal nutzbar.

Backup- und Archivsystem -

Dienstag 22.06.2021 13:45 - Mittwoch 23.06.2021 13:30

Es ist zu ernuet einem Ausfall an einer zentralen Komponente des Bandspeichersystems gekommen. Die gespeicherten Daten sind nicht in Gefahr, allerdings bestehen bis zum Austausch der Komponente folgende Einschränkungen: * Backups können mit der Meldung "Server out of storage space" fehlschlagen. Restore ist für knoten über 2TB nicht möglich. * Archivieren von Daten wird für Knoten die größer als 2TB sind ebenfalls mit "Server out of storage space" fehlschlagen. * Retrieves von Archivdaten sind nur für knoten unter 2 TB möglich. Unter Umständen müssen die Server wieder für den Clientzugriff gesperrt werden.

Updates

Der Defekt wurde behoben und die Server sind wieder normal nutzbar.

Backup- und Archivsystem - Netzwerkwartung

Dienstag 22.06.2021 09:30 - Dienstag 22.06.2021 10:30

Aufgrund von Arbeiten an der Netzwerkinfrastruktur, kann es zu kurzen Unterbrechungen bei der Erreichbarkeit des Backup und Archiv Systems kommen

Backup- und Archivsystem -

Samstag 19.06.2021 12:50 - Montag 21.06.2021 18:30

Es ist zu einem Ausfall an einer zentralen Komponente des Bandspeichersystems, das für das Backup und Archiv System genutzt wird, gekommen. Die gespeicherten Daten sind nicht in Gefahr, allerdings bestehen bis zum Austausch der Komponente folgende Einschränkungen: * Backups können mit der Meldung "Server out of storage space" fehlschlagen. Restore ist für knoten über 2TB nicht möglich. * Archivieren von Daten wird für Knoten die größer als 2TB sind ebenfalls mit "Server out of storage space" fehlschlagen. * Retrieves von Archivdaten sind nur für knoten unter 2 TB möglich.

Updates

Zur Zeit sind die Backup und Archiv Server für den Zugriff gesperrt, um weitere Ausfälle zu verhindern.

Backup- und Archivsystem -

Donnerstag 10.06.2021 15:30 - Freitag 18.06.2021 18:00

Nach den kurzfristigen Sicherheitsupdates kommt es leider zu vereinzelten abstürzen der Spectrum Protect Server. Wir arbeiten bereits mit dem Softwarehersteller an einer Lösung. In der Zwischenzeit bemühen wir uns die Server nach einem Ausfall kurzfristig wieder in Betrieb zu nehmen.

Backup- und Archivsystem - Security Update

Donnerstag 10.06.2021 08:45 - Donnerstag 10.06.2021 15:00

Aufgrund einer kritische Sicherheitslücke in der Spechtrum Protect Server Software, müssen heute kurzfristig Updates eingespielt werden. Das Backup und Archivsystem steht daher ab sofort bis zu ende der Wartungsfreien nicht für Backups, Archiv, Restores und Retrieves zur Verfügung.

Updates

die Arbeiten wurden erfolgreich abgeschlossen

Backup- und Archivsystem -

Dienstag 08.06.2021 06:00 - Dienstag 08.06.2021 18:00

Zur Sicherung der Dienstqualität müssen im angegebenen Zeitraum Wartungsarbeiten an allen Backup und Archiv Servern durchgeführt werden. Daher werden im angegebenen Zeitraum keine Verbindungen mit den Servern möglich sein und keine Änderungen an Backup und Archiv Knoten über das Backup Portal (backup.itc.rwth-aachen.de) möglich sein.

Backup- und Archivsystem -

Donnerstag 03.06.2021 20:00 - Freitag 04.06.2021 14:00

Auf dem Archiv Server BAS19 ist es zu einem Fehler an einer Hardwarekomponente gekommen. In der Folge kommt es zu Fehlern beim zugriff auf diverse Speicherbereiche. Wir arbeiten an dem Behebung des Problem. Voraussichtlich wird ein Neustart des Systems unumgänglich sein.

Updates

Die Speicherbereiche sind jetzt (ohne Neustart des Systems) wieder zugänglich. Zur Zeit laufen noch einige Überprüfungsprozesse, die nach beschädigten Daten suchen und diese gegebenenfalls wiederherstellen.

Backup- und Archivsystem - Ausfall von storage Komponenten

Mittwoch 26.05.2021 12:15 - Mittwoch 26.05.2021 17:00

Bei Routinearbeiten an einem Speichersystem ist es zu einem Ausfall gekommen. Wir analysieren zur Zeit noch die genauen Ausmaße der Störung und abrieten an einer möglichst schnellen Behebung des Problems.

Updates

Durch den Ausfall ist vorübergehend der zugriff aus Cach und Log Speicherbereiche verloren gegangen. Der Zugriff konnte weitgehend wiederhergestellt werden, eigne nacharbeiten laufen zur Zeit aber noch.

Die nacharbeiten sind abgeschlossen. Es kann allerdings in der Sicherung diese Nacht zu Speicherengpässen (Server out of Storage Space) kommen, da nicht alle Caches rechtzeitig geleert werden können.

Backup- und Archivsystem - Arbeiten an BAS08

Dienstag 18.05.2021 09:00 - Dienstag 18.05.2021 13:00

Um Softwareanpassungen durchzuführen sind Wartungsarbeiten am Server BAS08 erforderlich. In dem Zeitraum der Wartungsarbeiten können keine Bakups und Restores durchgeführt werden.

Backup- und Archivsystem - Ausfall BAS08

Dienstag 11.05.2021 13:15 - Dienstag 11.05.2021 13:40

Aus noch ungeklärter Ursache ist es zu einem kurzen Ausfall des Backup Servers BAS08 gekommen. Der Server wurde neu gestartet und kann wieder genutzt werden.

Backup- und Archivsystem - Ausfall BAS08

Donnerstag 06.05.2021 17:20 - Donnerstag 06.05.2021 17:45

Aus noch ungeklärter Ursache ist es zu einem Ausfall des Backup Servers BAS08 gekommen. An der Behebung der Störung wird gearbeitet.

Updates

Der Server wurde neu gestartet und ist wieder verfügbar.

Backup- und Archivsystem - Arbeiten an BAS36

Donnerstag 06.05.2021 10:00 - Donnerstag 06.05.2021 11:00

Um einen hängen gebliebenen Prozess zu beenden und von IBM empfohlene Prozeduren auszuführen ist ein Neustart des Servers erforderlich.

Backup- und Archivsystem -

Dienstag 04.05.2021 13:15 - Dienstag 04.05.2021 18:20

Es ist zu einem Ausfall an einer zentralen Komponente des Bandspeichersystems, das für das Backup und Archiv System genutzt wird, gekommen. Die gespeicherten Daten sind nicht in Gefahr, allerdings bestehen bis zum Austausch der Komponente folgende Einschränkungen: * Backups können mit der Meldung "Server out of storage space" fehlschlagen. Restore ist für knoten über 2TB nicht möglich. * Archivieren von Daten wird für Knoten die größer als 2TB sind ebenfalls mit "Server out of storage space" fehlschlagen. * Retrieves von Archivdaten sind nur für knoten unter 2 TB möglich.

Updates

Der Fehler wurde behoben, die Tape Library arbeitet wieder.

Backup- und Archivsystem - Backup- und Archivsystem

Mittwoch 21.04.2021 10:30 - Donnerstag 22.04.2021 18:00

Aufgrund einer Störung des Bandroboters der Tape-Library kann es zu Fehlern bei Backup- und Restore-Vorgängen kommen. An der Fehlerbehebung wird gearbeitet.

Updates

Art der Meldung auf "Störung" geändert

Das defekte Teil kann erst am Donnertag ersetzt werden. In der Zwischenzeit wird das Backup in den Meisten fällen mit der Meldung "Server out of storage space" fehlschlagen. Restore ist für knoten über 2TB nicht möglich. Archivieren von Daten wird für Knoten die größer als 2TB sind ebenfalls mit "Server out of storage space" fehlschlagen. Retrieves von Archivdaten sind nur für knoten unter 2 TB möglich.

Backup- und Archivsystem - Ausfall BAS08

Mittwoch 21.04.2021 11:00 - Mittwoch 21.04.2021 18:00

Aus noch ungeklärter Ursache ist es zu einem Ausfall des Backup Servers BAS08 gekommen. Ein zusammenhauen mit der Störung der Tapelibrary ist möglich

Backup- und Archivsystem - Kurzer Ausfall BAS15

Dienstag 20.04.2021 08:10 - Dienstag 20.04.2021 08:45

Heute um 08:10 ist es zu einem kurzen Ausfall des Backup Servers BAS15 gekommen. Der Server wurde wieder gestartet und ist wieder nutzbar.

Backup- und Archivsystem - Kurzer Ausfall BAS15

Donnerstag 15.04.2021 08:05 - Donnerstag 15.04.2021 08:45

Heute um 08:07 ist es zu einem kurzen Ausfall des Backup Servers BAS15 gekommen. Der Server wurde wieder gestartet und ist wieder nutzbar.

Backup- und Archivsystem - Umbauarbeiten an der Datenorganisation

Dienstag 09.03.2021 08:00 - Samstag 10.04.2021 18:00

Im angegebenen Zeitraum finden Arbeiten an der Datenorganisation des verteilten Speichersystems statt. Hierdurch werden große Datenbewegungen verursacht, was Auswirkungen auf die Performance des Systems haben kann. Ziel der Änderungen ist die Resistenz gegen Ausfälle ganzer Standorte zu verbessern. Von den Änderungen können folgende Dienste beeinträchtigt werden: * Backup/Restore * GitLab * RWTHjupyter

Technische Erläuterung

Aufgrund der Arbeiten besteht innerhalb der ersten 4 Stunden des Wartungsfensters ein erhöhtes Risiko, dass es zu Ausfällen kommt. In den anschließenden 4 Wochen müssen größere Datenmengen umverteilt werden, was zu geringen Performance Einbußen führen kann.

Backup- und Archivsystem - Wartungsarbeiten an BAS15

Donnerstag 08.04.2021 08:00 - Donnerstag 08.04.2021 13:00

Um einen von IBM bereitgestellten EFix zu installieren, wird kurzfristig eine Wartung durchgeführt.

Backup- und Archivsystem - Ausfall BAS02

Donnerstag 08.04.2021 03:00 - Donnerstag 08.04.2021 08:50

Am Donnerstag früh gegen 03:00 Uhr ist es zu einem Ausfall des Servers BAS02 gekommen. Wir analysieren zu Zeit die Ursache und werden den Server so schnell wie möglich wieder in Betrieb nehmen.

Updates

Der Server bas02 ist wieder in Betrieb und kann genutzt werden.

Backup- und Archivsystem - Ausfall BAS38

Montag 05.04.2021 08:45 - Mittwoch 07.04.2021 18:00

Am Ostermontag ist es zu einem Ausfall des Servers BAS38 gekommen. Wir analysieren zu Zeit die Ursache und werden den Server so schnell wie möglich wieder in Betrieb nehmen.

Backup- und Archivsystem - Missed Schedule auf grund der Zeitumstellung

Samstag 27.03.2021 00:45 - Montag 29.03.2021 19:45

Uns erreichen Bericht, über eine größere Anzahl von Systemen, die in der Nach von Samstag auf Sonntag kein Backup durchgeführt haben. Bitte überprüfen Sie in einem solchen Fall, ob Sie in Ihrer dsmerror.log file dein Eintrag "ANS1815E Either the window has elapsed or the schedule has been deleted" finden. Dieser Fehler ist durch die Zeitumstellung entstanden und stellt kein grundsätzliches Problem dar. Es ist jedoch kein Backup erfolgt.

Backup- und Archivsystem - Ausfall BAS15

Sonntag 28.03.2021 06:00 - Montag 29.03.2021 12:00

Es ist am Sonntag leider erneut zu einem Ausfall des Servers BAS15 gekommen. Wir arbeiten an der Wiederinbetriebnahme, sowie an alternativen Lösungen.

Backup- und Archivsystem - Ausfall BAS15

Freitag 26.03.2021 04:00 - Freitag 26.03.2021 12:00

Leider ist es erneut zu einem Ausfall des Backup Servers BAS15 gekommen. Wir arbeiten weiter mit hoch druck an dem Problem.

Backup- und Archivsystem - Anpassungen BAS38

Donnerstag 25.03.2021 11:00 - Donnerstag 25.03.2021 12:00

Um Ressourcenanpassungen vornehmen zu können, muss der Server BAS38 im genannten Zeitraum neu gestartet werden.

Backup- und Archivsystem - Arbieten an BAS08

Dienstag 23.03.2021 12:00 - Dienstag 23.03.2021 13:00

Um die Backup Performance zu verbessern und "Out of Storage" Meldungen zu vermieden, müssen Arbeiten am Server BAS08 durchgeführt werden. Während der Arbeiten wir das System Verbindungen ablehnen und bestehende Verbindungen werden zu beginn der Arbeiten abgebrochen.

Backup- und Archivsystem - Ausfall BAS15

Sonntag 21.03.2021 19:00 - Montag 22.03.2021 08:30

Am Abend des Sonntags ist es erneut zu einem Ausfall des Server BAS15 gekommen. Wir weiden den erneut aufgetretenen Fehler, gemeinsam mit dem Softwarehersteller weiter analysieren, um den Server zu stabilisieren.

Backup- und Archivsystem - Ausfall des Backup-Servers BAS15

Freitag 12.03.2021 17:30 - Montag 15.03.2021 12:00

Es ist nicht möglich Sessions auf dem Backupserver BAS15 zu starten. Wir arbeiten gemeinsam mit IBM an einer Lösung des Problems.

Updates

Server läuft wieder, Sessions sind wieder möglich.

Backup- und Archivsystem -

Freitag 12.03.2021 15:00 - Montag 15.03.2021 12:00

Freitag Nachmittag ist es leider erneut zu einem Ausfall des Servers BAS15 gekommen. Wir abrieten weiter an der Stabilisierung des Systems

Backup- und Archivsystem - Ausfall des Backup-Servers BAS35

Sonntag 14.03.2021 08:00 - Montag 15.03.2021 09:00

Am Sonntag Morgen gegen 08:00 Uhr ist es zu einem Ausfall des Servers BAS35 gekommen. Der Server wurde neu gestartet und kann wieder genutzt werden.

Backup- und Archivsystem - Arbeiten am Backup und Archiv System

Dienstag 09.03.2021 08:00 - Dienstag 09.03.2021 18:00

Zur Sicherung der Dienstqualität müssen im angegebenen Zeitraum Wartungsarbeiten an allen Backup und Archiv Servern durchgeführt werden. Im Angegebenen Zeitraum werden keine Verbindungen mit den Servern möglich sein. Darüber hinaus werden Änderungen an Backup und Archiv Knoten über das Backup Portal (backup.itc.rwth-aachen.de) nicht möglich sein.

Updates

Im Zuge der Wartungsarbeiten ist ein Hardwaredefekt aufgetreten. Dieser verhindert die planmäßige Inbetriebnahme der Backup Server BAS14, BAS16, BAS18, BAS30, BAS31 und BAS36. Das benötigte Ersatzteil wir morgen erwartet.

Uns ist es gelungen die ausgefallenen Systeme auf andere Hardware zu vereiteln, so dass ein reguläres Backup auf allen Server in der Nacht erfolgen kann.

Backup- und Archivsystem - Ausfall BAS15

Montag 08.03.2021 18:00 - Montag 08.03.2021 19:15

Am Montag ist es gegen 18:00 zu einem erneuten Ausfall des Backup Servers BAS15 gekommen. An einer langfristigen stabilisieren des Systems wird bereits gearbeitet.

Backup- und Archivsystem - Ausfall BAS15

Samstag 06.03.2021 18:00 - Montag 08.03.2021 10:00

Am Samstag ist gegen 18:00 zu einem Ausfall des Backup Servers BAS15 gekommen. An einer langfristigen stabilisieren des Systems wird bereits gearbeitet.

Backup- und Archivsystem - Ausfall BAS15

Donnerstag 04.03.2021 06:00 - Donnerstag 04.03.2021 12:00

Es ist gegen 6:00 zu einem Ausfall des Backup Servers BAS15 gekommen. An einer langfristigen stabilisieren des Systems wird bereits gearbeitet.

Backup- und Archivsystem - Wartungsarbeiten Ceph / ObjectStorage

Dienstag 23.02.2021 06:00 - Dienstag 23.02.2021 14:00

Aufgrund von Arbeiten an den Ceph- / ObjectStorage-Servern kann es in dem Zeitraum der Wartung zu einer eingeschränkten Performance und zu vereinzelten Timeouts bei der Nutzung kommen.

Updates

Aufgrund eines ungeplanten Systemverhaltens ist es leider zu einem Ausfall des Speichersystems gekommen. Hierdurch sind Restore Operationen unter Umständen erst ab ende der Arbeiten wieder möglich. Darüber hinaus kann es in der kommenden Nacht zu Abbrüchen von Backupprozessen Kommen

Die Arbeiten konnten beschleunigt werden, so dass einem Backup und Restore nun nichts mehr im Wege steht.

Backup- und Archivsystem - Ausfall BAS15

Montag 22.02.2021 13:30 - Montag 22.02.2021 18:00

Aufgrund eines Software Fehlers ist es erneut zu einem Ausfall des Servers BAS15 gekommen. Wir arbeiten weiter mit dem Software Hersteller an der langfristigen Stabilisierung des Systems.

Backup- und Archivsystem - Ausfall BAS15

Freitag 19.02.2021 17:30 - Freitag 19.02.2021 18:30

Aufgrund eines Software Fehlers ist es erneut zu einem Ausfall des Servers BAS15 gekommen. Wir arbeiten weiter mit dem Software Hersteller an der langfristigen Stabilisierung des Systems.

Updates

Der Backup-Server wurde neugestartet. IBM arbeitet weiterhin an einer Lösung.

Backup- und Archivsystem - Ausfall BAS15

Mittwoch 17.02.2021 13:45 - Mittwoch 17.02.2021 18:00

Aufgrund eines Software Fehlers ist es erneut zu einem Ausfall des Servers BAS15 gekommen. Wir abrieten weiter mit dem Software Hersteller an der langfristigen Stabilisierung des Systems.

Backup- und Archivsystem - Ausfall des Backup-Servers BAS15

Samstag 13.02.2021 01:00 - Dienstag 16.02.2021 18:00

Aufgrund eines Software Fehlers ist es am Samstagmorgen zu einem Absturz des Backup-Servers BAS15 gekommen. An der Behebung des Problems arbeiten wir und versuchen mit dem Hersteller eine langfristige Lösung zu finden.

Updates

Der Server ist gestartet und kann wieder genutzt werden.

Es ist leider erneut zu einem Ausfall des Servers gekommen

Backup- und Archivsystem - Ausfall des Backup-Servers BAS35

Sonntag 07.02.2021 07:30 - Montag 15.02.2021 13:15

Der Backup-Server BAS35 ist aufgrund eines Softwarefehlers ausgefallen und wurde neugestartet.

Backup- und Archivsystem - Neustart BAS15

Donnerstag 11.02.2021 18:00 - Freitag 12.02.2021 12:30

Aufgrund eines Software Fehler ist es in der vergangen Nacht zu Abbrüchen beim Backup auf dem Server BAS15 gekommen. Zu Behebung des Problems ist ein Neustart des Systems nötig. Hierbei werden alle bestehenden Verbindungen abgebrochen und neue Verbindungen abgelehnt. Wir abrieten zur Zeit mit dem Hersteller an einer langfristigen Lösung.

Backup- und Archivsystem - Verfügbarkeit Backup Portal

Mittwoch 10.02.2021 08:00 - Mittwoch 10.02.2021 08:00

Im angegebenen Zeitraum kann es zu Ausfällen im Backup Portal kommen. Grund hierfür sind Wartungsarbeiten an der zugrunde liegenden Datenbank. Die Backup und Archiv Server sind hiervon nicht beeinträchtigt.

Backup- und Archivsystem - Neustart BAS15

Donnerstag 04.02.2021 18:00 - Freitag 05.02.2021 12:00

Aufgrund eines fehlerhaften Prozesses ist es bei Sicherung auf den Backup Server BAS15 zu Fehlermeldungen und abgebrochen Backups gekommen. Zur Behebung des Problems sind kurzfristige Arbeiten an dem System nötig.

Backup- und Archivsystem - neustart BAS45

Mittwoch 03.02.2021 08:30 - Mittwoch 03.02.2021 09:30

Aufgrund eines Softwarefehler muss der Backup Server BAS45 kurzfristig neu gestartet werden.

Backup- und Archivsystem - Backupfehler BAS38

Montag 01.02.2021 18:00 - Dienstag 02.02.2021 18:00

Für einige Backupknoten auf dem Server BAS38 ist das Backup heute Nacht mit einem Fehler "Server out of storage space" abgebrochen. Die Ursache wurde bereits identifiziert und an der Behebung wird bereits gearbeitet.

Backup- und Archivsystem -

Dienstag 02.02.2021 08:00 - Dienstag 02.02.2021 16:00

Im genannten Zeitraum finden Wartungsarbeiten an Speichersystemen, auf die das Backup System aufbaut statt. Mit Ausfällen ist nicht zu rechnen, es kann jedoch zu zu Einschränkungen bei der Restore Performance kommen. Das Archiv System ist nicht betroffen.

Backup- und Archivsystem - Verfügbarkeit Backup Portal

Mittwoch 27.01.2021 07:00 - Mittwoch 27.01.2021 08:00

Im angegebenen Zeitraum kann es aufgrund einer Datenbankwartung zu Einschränkungen in der Verfügbarkeit des Backup Portals kommen. Die Backup und Archiv Server sind nicht betroffen.

Backup- und Archivsystem - Eingeschränkte Verfügbarkeit BAS16

Mittwoch 20.01.2021 18:00 - Donnerstag 21.01.2021 12:00

Zur Zeit kann es zu Verbindungsabbrüchen mit dem Backup Server BAS16 kommen. An der Behebung wird bereits gearbeitet.

Backup- und Archivsystem - Arbien an BAS35

Dienstag 15.12.2020 08:00 - Dienstag 15.12.2020 18:00

Zur Verbesserung der Systemperformance sind im angegebenen Zeitraum abrieten an dem Backup Server BAS35 notwendig. Backups werden in diesem Zeitraum nicht möglich sein. Restores stehe weiter zur Verfügung.

Backup- und Archivsystem - Arbeiten am Backup und Archiv System

Dienstag 17.11.2020 08:00 - Dienstag 17.11.2020 18:00

Zur Sicherung der Dienstqualität müssen im angegebenen Zeitraum Wartungsarbeiten an allen Backup und Archiv Servern durchgeführt werden. Im Angegebenen Zeitraum werden keine Verbindungen mit den Servern möglich sein. Darüber hinaus werden Änderungen an Backup und Archiv Knoten über das Backup Portal (backup.itc.rwth-aachen.de) nicht möglich sein.

Backup- und Archivsystem - Arbieten an Backup Servern

Montag 16.11.2020 08:00 - Montag 16.11.2020 18:00

Um die Systemstabilität zu verbessern müssen auf den unten genannten Backup Servern Updates installiert werden. Im genannten Zeitraum sind keine Verbindungen mit den Servern möglich. Bestehende Verbindungen werden abgebrochen. Betroffene Server: BAS01 BAS02 BAS03 BAS04 BAS05 BAS07 BAS08

Technische Erläuterung

Aufgrund technischer Schwierigkeiten am 5.11. müssen die Wartungsarbeiten erneut eingeplant werden.

Backup- und Archivsystem - Backup Server Wartung

Dienstag 10.11.2020 09:00 - Dienstag 10.11.2020 18:00

Um die Systemstabilität zu verbessern müssen auf den unten genannten Backup Servern Updates installiert werden. Im genannten Zeitraum sind keine Verbindungen mit den Servern möglich. Bestehende Verbindungen werden abgebrochen. Betroffene Server: BAS30 BAS31 BAS35 BAS36 BAS37 BAS38 BAS44

Backup- und Archivsystem - Backup und Archiv Server Wartung

Montag 09.11.2020 08:00 - Montag 09.11.2020 18:00

Um die Systemstabilität zu verbessern müssen auf den unten genannten Backup/Archiv Servern Updates installiert werden. Im genannten Zeitraum sind keine Verbindungen mit den Servern möglich. Bestehende Verbindungen werden abgebrochen. Betroffene Server: BAS14 BAS15 BAS16 BAS18 BAS19 BAS20 BAS21

Backup- und Archivsystem - Backup Server BAS01 und BAS02 gestört

Donnerstag 05.11.2020 18:00 - Freitag 06.11.2020 18:45

Nach Problemen mit der heute durchgeführten Wartung der Backup Server BAS01 und BAS02, sind diese zur Zeit nicht erreichbar. Der Hersteller arbeite bereits an einer Lösung.

Updates

BAS02 ist ab soft wieder verfügbar

BAS01 ist ebenfalls wieder verfügbar

Backup- und Archivsystem - Ausfall BAS48

Freitag 06.11.2020 04:00 - Freitag 06.11.2020 09:15

Aufgrund eines Software Fehlers ist es bei BAS48 gegen 04:00 Uhr zu einem Ausfall gekommen. Das Sysetm ist nun wieder verfügbar. Des Problem wurde bereits identifiziert und einspielen von Patches ist eingeplant.

Backup- und Archivsystem - Backup Server Wartung

Donnerstag 05.11.2020 08:00 - Donnerstag 05.11.2020 18:00

Um die Systemstabilität zu verbessern müssen auf den unten genannten Backup Servern Updates installiert werden. Im genannten Zeitraum sind keine Verbindungen mit den Servern möglich. Bestehende Verbindungen werden abgebrochen. Betroffene Server: BAS01 BAS02 BAS03 BAS04 BAS05 BAS07 BAS08

Backup- und Archivsystem - BAS02 Inaktiv

Donnerstag 29.10.2020 02:00 - Donnerstag 29.10.2020 09:25

Aus noch nicht geklärten Grüngden ist der Backup Serve BAS02 seit heute nach ca. 2 Uhr nicht erreichbar. Wir abrieten an der Störungsbehebung.

Updates

der Server ist jetzt wieder in Betrieb.

Backup- und Archivsystem - BAS35

Dienstag 13.10.2020 00:00 - Dienstag 13.10.2020 18:00

In der verengen Nacht ist es an BAS35 vermehrt zu Fehlern beim sicher von Knoten unter 2TB gekommen. Der zugrundeliegende Fehler wurde bereits identifiziert und beseitigt.