Jak jsme upravovali síťovou infrastrukturu aneb trable s IPv6

[gtranslate]

Když jsme na podzim s velkou slávou spustili VPS ON a nový NoLimit na cloudovém řešení a serverových skříních HPE Moonshot určených pro velké cloudy , mysleli jsme že nasazení IPv6 bude otázkou pár měsíců. Netušili jsme, ale na kolik komplikací narazíme.

Něco z historie IPv6 u WEDOS

Vzhledem k tomu, že jsme začínali o dost později než většina velkých hráčů na hostingovém trhu, tak jsme dostali jen minimum IPv4 adres. IPv4 adresy už v Evropě došly a začalo se s nimi hodně šetřit. O každý rozsah jsme museli tvrdě bojovat a pracně dokazovat, že z těch přidělených každou poctivě využíváme. Stejně jsme nakonec museli další rozsahy za nemalé peníze nakoupit. O tom můžeme napsat třeba příště.

To byl také jeden z hlavních důvodů, proč jsme IPv6 už od začátku propagovali a doufali v jejich rychlé rozšíření. Jenomže jak se ukázalo IPv6 přináší spíše  komplikace a technologicky na ně svět ještě nebyl pořádně připraven.

Že IPv6 není (zatím) budoucnost jsme definitivně vzdali 11. srpna 2016, kdy naší síťovou infrastrukturu zasáhl velmi silný útok přes IPv6 a způsobil částečnou nedostupnost našich služeb. V té době už jsme měli naši DDoS ochranu, i když s tou dnešní už se rovnat nemůže. Pokud by útok byl veden přes IPv4 zvládli bychom to bez problémů.  Jenomže nebyl.  Na druhou stranu jsme se také odvážili spustit některé pokročilé experimentální ochrany. Když se na to zpětně díváme, tak nás tento incident posunul v nasazení pokročilých ochran zhruba o půl roku. Více informací najdete v našem článku Vyjádření k problému s konektivitou u VPS dne 12.08.2016.

Narychlo jsme museli překopat síť a rozdělit provoz na IPv4, které jsme uměli filtrovat a IPv6, které v případě tak velkých útoků můžeme prostě odstřihnout. Změnili jsme také cenovou politiku a IPv4 začali dávat za 1 Kč. Dříve jsme je měli za 50 Kč a z jejich prodejů jsme financovali nákupy nových IPv4 adres.

Od té doby jsme byli s IPv6 velice opatrní.

Modernizace síťové infrastruktury 2017/18

Pokud sledujete naše sociální sítě, tak víte že jsme se pustili do velké modernizace našeho DC1 “Bunkr” za zhruba 20 milionů Kč. Součástí je rozvrtání budovy jako ementál a kompletní předělání jednotlivých částí infrastruktury, aby bylo dosaženo co možná největší nezávislosti jedné části infrastruktury na druhé.

Nejde jen o redudanci, ta je u lepších datacenter dnes běžná, ale mít možnost plně fungovat, pokud bude nutné jednu část infrastruktury nejen servisovat, ale provádět i náročné dlouhotrvající technické úpravy. Tedy jednotlivé větve musí být dostatečně naddimenzované, aby dlouhodobě pokryly celý provoz datacentra.

Jedna z “luxusních” a drahých věcí, které jsme dopřáli i DC1 jsou nehořlavé (hnědé) kabely. Jsou mnohonásobně dražší, než běžné kabely.

Při návrhu a stavbě DC2 “Podskalí” podle požadavků TIER IV (proces certifikace už začal), jsme se posunuly úplně na jinou úroveň. Nový pohled a znalosti tak aplikujeme i na DC 1. Více informací se dozvíte v článku 8. narozeniny WEDOS aneb co máme nového, co se povedlo a co zas tak moc ne.

Oficiální dokumenty Uptime Institute, LLC. s žádostí o certifikaci našeho druhého datacentra.

Modernizace síťové infrastruktury byla spíše kompletní vymyšlení všeho od základů a přechod na nový hardware. Koncem roku 2017 jsme zapojili první 100 Gbps trasu, v roce 2018 pak další dvě. Námi postavené cloudové řešení má samozřejmě také daleko větší nároky. Pokud se mají stovky fyzických serverů stát jedním a vše musí fungovat v reálném čase tak jsou požadavky úplně někde jinde. A to nemluvíme jen o rychlosti.

Zapojení první 100 Gbps trasy v Praze v prosinci 2017.

Jak se nám (ne)dařilo

IPv4 nám nedělala žádné problémy. Téměř všechno klaplo podle plánů. Zato s IPv6 jsme naráželi na jeden problém za druhým.

Pokud chceme nabízet plnohodnotný cloud musíte se připravit na to, že vaši zákazníci začnou vytvářet i stovky virtuálních stojů. Náš cloud to umí automaticky anebo prostřednictvím uživatelských skriptů. Zatímco u IPv4 se všechno řeší přes jeden centrální virtuální stroj, tak s IPv6 může mít vlastní veřejnou IP adresu každý virtuální stroj.

To znamená že potřebujte router, který má neskutečné velké routovací tabulky. V dnešní době už samozřejmě takové jsou, ovšem stojí jako lepší osobní auto nebo i jako dům…

Naštěstí WEDOS už je poměrně známá značka a tak nám dodavatelé pravidelně nabízí hardware vyzkoušet, než jej koupíme. Dokonce přistoupili i na náš požadavek vyzkoušet hned dva stejné kusy naráz.

To byl důležitý požadavek, protože chceme, aby routery byly schopné mezi sebou synchronizovat routovací tabulky.

Jak se po čase ukázalo tohle nefungovalo podle našich představ právě kvůli IPv6. Řešili jsme to s výrobci, ti slibovali nápravu. Bylo tam hodně korespondence, úprav firmware. Nakonec nic nepomohlo a my jsme ztratili 3 měsíce.

Začali jsme tak s hledáním jiných routerů, které by splňovali naše požadavky a neměli problém s IPv6. Nakonec jsme našli co jsme hledali. Router co má switchovací kapacitu 800 Gbps a/nebo 720 milionů paketů za vteřinu a 350 tisíc záznamů do routovacích tabulek, z toho 128 tisíc sítí /64. Jedná se asi o nejlepší router (v našem případě L3 switch) od HPE co vyrábí ve velikosti 1U.

Provizorní stav kabeláže po testování. Samozřejmě vše bude patřičně “učesáno” 🙂

Po úspěšném testování jsme provedli objednávku a stala se další kuriozita. Během dopravy z palety někde odpadly ventilátory. Trvalo další týdny, než se to vyřešilo a mohli jsme začít s dalšími testy a následně je zapojit do jedné a druhé trasy.

Samozřejmě tím to neskončilo. Museli jsme předělat náš interní systém. I kvůli bezpečnosti zákazník vždy dostal ke stroji konkretní IPv6 adresy ze svého rozsahu. Ty si musel postupně naklikat. U VPS to nevadilo, ale u Cloudu, kde si budete automaticky vytvářet desítky anebo stovky virtuálních strojů už to je obtěžující. Proto jsme upravili systém, aby pracoval s rozsahy.

Další úprava našeho systému se týkala jedné z posledních novinek a to jsou proxy servery. A a AAAA záznamy bude mít více proxy serverů. Pokud chceme nabízet služby s vysokou dostupností tak to bez proxy serverů, které budou distribuovat obsah z více strojů nepůjde.

No a samozřejmě bylo nutné provést i úpravy v naší administraci.

Takhle by šlo pokračovat. Vše chystáme na provoz ve dvou datacentrech a to přináší další úpravy, které jsou u IPv6 složitější, než u IPv4.

Takže jak na tom jsme

Máme hotovo! V současné době už se nebudeme předělávat žádné kabely. Obě trasy jsou připravené a zcela funkční. Jedná se o finální řešení.

Celá síťová infrastruktura je robustnější a odolnější. Umíme už dokonce i daleko lépe a efektivněji filtrovat útoky přes IPv6.

A co služby?

IPv6 u webhostingů NoLimit je připravená a  v současné době probíhá neveřejný beta test. No teď když už jsme to prozradili, tak už veřejný 🙂 Stačí napsat kolegům přes kontaktní formulář, že chcete k vašemu NoLimit IPv6 a oni vám jí nastaví. Ačkoliv se jedná o veřejné “testy”, tak NoLimit s IPv6 má třeba už nás web wedos.cz a wedos.sk. Ano naše weby jedou na webhostingu NoLimit 🙂
Mimochodem naše nové weby jedou na WordPressu, ale o tom zase příště.

U VPS ON nechceme nic slibovat. Ačkoliv jsme už jsme všechny problémy vyřešili, stále kolem této služby chodíme po špičkách a jakákoliv úprava je prováděna s maximální opatrností. Technici tak nechtějí nic uspěchat a necháme to na nich. V podstatě ke zprovoznění IPv6 chybí jen evidence.

WEDOS disk jede na IPv6 bez problémů.

Dedikované servery, VPS a VPS SSD už IPv6 umí od začátku. Konkrétně u VPS jsme jen zlepšili možnosti filtrace.

Závěr

Bylo toho opravdu hodně co jsme museli udělat, abychom se dostali s IPv6 tam kde jsem teď. U software i hardware jsme naráželi na limity u IPv6. Pokud se na to podíváme zpětně, tak to vypadá, že spousta výrobců hardware a software bere IPv6 spíše jako hračku pro běžné uživatele, než něco co by mělo nahradit IPv4 v globálním měřítku.

Jsme jedničkou na českém trhu, provozujeme nejvíce hostingů v ČR a tak velikost přináší to, že narážíme na nové problémy, kterými jsou limity různých routovacích a switchovacích tabulek. Řešení vždy najdeme, ale někdy to trvá. Tak snad jsme to hezky a lidsky vysvětlili.