update: #bitnl storage storing
NL: Een groot deel van de PG's die nu geïsoleerd worden, zullen niet apart teruggeplaatst hoeven te worden omdat er andere OSD's zijn waar die PG wel beschikbaar is. Voor PG's die niet automatisch kunnen recoveren is uit tests duidelijk geworden dat ze wel apart geïmporteerd kunnen worden. Er wordt geen dataverlies verwacht als gevolg van dit incident.
EN: The majority of the PG's that are now being isolated, will recover automatically because there will be other OSD that have these PG's mapped. Tests show that PG's that won't recover automatically will import successfully later on. No data loss is expected from this incident.
NL: Het cluster is weer operationeel. De backfills en recoveries zijn gereed en alle diensten zijn weer beschikbaar. De komende dagen zal er her en der nog wat gerebalanced worden in het cluster. In een enkel geval kan dat nog wat beperkte performance issues geven.
EN: The cluster is operational. The backfills and recoveries are done and all services are available. The cluster will be rebalanced coming days. Occasionally this might cause some minor performance issues.
update: #bitnl storage storing
NL: Komende dagen wordt er nader onderzoek gedaan naar de exacte oorzaak van het incident. De expertise van één van de core developers van Ceph wordt hierbij ingeschakeld. Zodra dit onderzoek gereed is zal er een definitieve RFO op www.bit.nl gepubliceerd worden. Het is zeker dat het incident zich alleen voor heeft kunnen doen omdat er op dat moment capaciteit in het cluster toegevoegd werd. Totdat duidelijk is wat de oorzaak was zal er geen capaciteit toegevoegd worden en is er daarom geen risico op herhaling van het incident.
EN: The incident and its cause will be investigated further coming days. The expertise of one of the core developers of Ceph will be added to our team. As soon as the investigation reaches a conclusion a definitive RFO will be published on www.bit.nl. It is clear that the incident could only occur because at that moment extra capacity was being added to the cluster. Untill the root cause is known we will not add extra capacity and therefor there is no risk that the same incident will re-occur.
https://www.bit.nl/news/3353/88/Storage-incident-vrijdag-14-april-gepubliceerd-op-www.bit.org
RFO incident 14-04-2023
De RFO voor het incident dat zich op 14 april j.l. voor deed is gereed. Reguliere operaties op het Ceph shared storaged cluster van BIT lopen op vrijdag 14 april om 11.55 uur tegen een tot op dat moment onbekende bug in de Ceph code aan. Het cluster wordt onbeschikbaar en hersteloperaties zorgen ervoor dat op 15 april om 00.39 uur het cluster weer beschikbaar is. Er is geen data corrupt geraakt of verloren gegaan als gevolg van dit incident.
meer info op en daar staat rfo compleet
https://www.bit.nl/news/3357/88/RFO-incident-14-04-2023
Thread collapsed
Thread collapsed
Thread collapsed