Vyjádření k výpadku konektivity 17.11.

Vždy jsme k vám, našim zákazníkům, upřimní a otevření. Žádné problémy, které nás postihly a mohly ovlivnit vaše služby, před vámi nikdy netajíme. Ani nedělní výpadek konektivity není výjimkou. Vzhledem k rozsahu jsme si pro vás připravili oficiální vyjádření zde na našem blogu.

Dne 17. 11. 2019 mezi 12:27 a 12:44, tedy zhruba 17 minut, došlo k výpadku konektivity na jedné z tras našeho datacentra.  Situaci jsme se věnovali s maximální prioritou.

Výpadek u našeho dodavatele konektivity společnosti Kaora

V datacentru Ce Colo (dříve Sitel), kde má Kaora své páteřní technologie, došlo k výpadku elektřiny na jedné z napájecích větví. Podle oficiálního vyjádření společnosti Kaora však zaznamenali problém i na druhé větvi napájení, což vedlo k výpadku jejich technologií. Navíc po obnovení dodávky elektřiny některé jejich přístupové switche nefungovaly. Museli tak přistoupit k výměně hardwarových prvků a přepojování optických tras.

Proč nefungovala naše záložní trasa?

Máme celkem 3 trasy a platíme si u nich drahou konektivitu do Internetu (celkem 3x 100 Gbps přípojku + další přípojky 10 Gbps). Každá trasa je vedena jinou geografickou cestou, protože největším nebezpečím je fyzické přerušení trasy. Například, když nějaký bagrista překopne optický kabel, což se reálně občas stává. Tento rok to bylo hned 2x a nikdo z našich zákazníků si toho ani nevšiml.

  • Trasa 1 přes Tábor na SITEL (Ce Colo) v Praze, dodavatel O2 (Cetin).
  • Trasa 2 přes Písek na SITEL (Ce Colo) v Praze, dodavatel O2 (Cetin).
  • Trasa 3 přes Havlíčkův Brod na GTS v Praze, dodavatel ČD Telematika, která fyzicky končí na žižkovské věži ČRa.

Jak vidíte, tak trasa 1 a 2 se sbíhají v datacentru Ce Colo, které bylo postiženo výpadkem napájení. Pro případ, že by se něco podobného anebo ještě horšího stalo, tak máme záložní trasu 3, která vede do datacentra GTS a je pro jistotu i od jiného dodavatele. Ve smluvních podmínkách s ČDT máme velice jasně napsané, že za žádných okolností nesmí po této trase přes Ce Colo projít ani paket.

Proč tedy tato třetí záložní trasa nefungovala jak měla?

Trasa jako taková fungovala. Fungovala dokonce bez chyby. Problém byl  opět u společnosti Kaora. Bez našeho vědomí provedli (někdy v poslední době – jednotky dní nebo týdnů) zásah do nastavení síťové infrastruktury (BGP routování) a to tak, že nám nepropagovali výchozí routu, což mělo za následek nepřehození routování na záložní trasu. Takže nám fyzicky záložní trasa fungovala, ale problém byl v tom, že  naše interní routování založené na protokolu OSPF (získává routy z BGP protokolu) nevědělo kam má pakety posílat, a proto je neposílalo nikam. Je to zjednodušeně řečeno…

Zjištění tohoto problému, nalezení řešení a nastavení jiné konfigurace nám trvalo několik minut, ale mezitím se v pražském datacentru obnovilo napájení a vše běželo. Byli jsme připraveni na změnu konfigurace. Jednalo se o velký manuální zásah do naší síťové infrastruktury, který je třeba provádět s maximální obezřetností.

Ačkoliv chyba nebyla na naší straně, tak je nutné přiznat, že náš podíl je v tom, že jsme primárně tolik důvěřovali našemu dodavateli Kaora. Přiznáváme i to, že jsme na tuhle variantu hledali řešení již několik měsíců a máme dokonce rozpracovaný projekt s dalšími nezávislými dodavateli a další trasou. Bohužel přípojky 100 Gbps jsou v ČR stále výjimečné a nezřídí je nikdo na počkání.

Co uděláme, aby se to neopakovalo

Ačkoliv se nejednalo o chybu na naší straně – nemůžeme za to, že došlo k výpadku napájení v datacentru Ce Celo, že Kaora správně nefungovalo záložní napájení přes druhou větev a ani za to, že provedli změny, kvůli kterým se nepřehodilo routování na naší třetí trasu. I tak víme, že s tím je nutné něco dělat, protože dříve anebo později podobná situace nastane znovu. Hostuje u nás skoro každá 5. cz doména, stěhuje se k nám stále více a více velkých projektů a v příštím roce pustíme WEDOS Cloud, WMS a pár dalších služeb, které budou závislé na takřka stoprocentní dostupnosti.

Hned včera jsme upravili konfiguraci našich páteřních routerů tak, abychom nebyli závislí na tom, jaké konfigurace BGP routování dostáváme od našich dodavatelů a neměli problém, pokud provedou změnu bez našeho vědomí.

Dále naši technici, kteří mají na starosti sítě, dostali za úkol připravit návrh pravidelných ostrých testů výpadků různých tras. Bude se jednat o podobně přísné a zátěžové testy, jaké musí každý měsíc podstupovat naše motorgenerátory. Viz článek  Hluboká byla na hodinu bez proudu, až na WEDOS.

Ano, každý týden testujeme generátory, UPS, chlazení a jednou za měsíc děláme ostrý test pod zátěží (jednoduše shodíme jističe a sledujeme, co se děje). Totéž budeme nyní pravidelně dělat se sítí, jednotlivými síťovými prvky a přípojkami.

V souvislosti se spuštěním druhého datacentra vedení společnosti již dříve rozhodlo, že je nutné vybudovat další spolehlivou záložní trasu. Ta povede přes České Budějovice a využijeme k tomu optiku ČDT, která je provozovatelem doslova páteřní síťové infrastruktury státu. Pokud se nám to povede, nebudeme vůbec závislí na pražských datacentrech. Tedy ani na tom, co se v nich anebo s nimi stane. V Českých Budějovicích si připojíme další 100 Gbps propoje do dalších sítí. Změníme tím nezávislost na Praze na 100%. Tento incident je důvodem, aby se čtvrtá trasa stala prioritou. V původním plánu bylo dokončit ji příští rok. Rozhodli jsme se však to popohnat a dokončit ji do konce tohoto roku!

Každé naše datacentrum tedy bude mít 2 nezávislé trasy do dalších sítí a vzájemně jsou naše  obě datacentra propojena 2 nezávislými trasami (jedna okolo Hluboké, jedna přes zámek Hluboká). Vše je bez souběhu. Takže každé datacentrum má několik variant propojení.

Závěr

Aktuálně máme konektivitu přes tři výše uvedené trasy a bude tedy další – v pořadí čtvrtá. Konektivitu máme 100 Gbps od společnosti Cogent, 100 Gbps od Telia, 2 x 100 Gbps od Kaora (jednou na Ce Colo a druhou na věži ČRa) a potom máme záložní propoj 10 Gbps přímo do Telia a 10 Gbps do sítě ČDT.

Všem zákazníkům se omlouváme za vzniklé komplikace. Udělali jsme maximum proto, aby vaše služby jely co nejdříve a do budoucna plánujeme zavést opatření, díky kterým se minimalizují podobné problémy způsobené třetí stanou.