Redundanz vom Firmennetzwerk

asg

push it, don´t hype
Moin,

mal ne Frage bezgl. der Redundanz eines ganzen Firmennetzwerks.
Wie schaut es aus, Anbindung ans Internet via eines Kabels, ist das durch, Pustekuchen, Firmen verlieren Geld, gehen Pleite, Regress, wir müssen zahlen. Abhängigkeit der ständigen Verfügbarkeit der Daten also enorm. So sieht es bei uns aus.
Oder Strom. Strom weg, Server tot, Kunden können nicht mehr drauf, wir nicht mehr arbeiten, Geld weg.

Meine Frage, wie kann man solche Szenarien im Vorfeld planen und schon im Vorfeld für eine Redundanz hierfür sorgen?

Strom == Fetter fetter Akku oder Dieselaggregat?
Internet == WLAN (wenn alle Kabel durch sind - anderer Anbieter (was nichts bringt wenn Kabel vom Bagger durch ist)) oder via Stromnetz und dann intern via WLAN?
Ganzen Prozesse, Buchungen == gesammte Server (inkl. AS/400) in einem RZ spiegeln?

Kosten spielen dabei erstmal keine Rolle, mich interessiert nur wie das in anderen Firmen geregelt ist.
 
Hi,

ich habe einen Bekannten, der verantwortlich für die IT einer großen, bundesweit tätigen Organisation (nett anonymisiert...) ist. Die betreiben zwei RZ, die 70km voneinander entfernt und mit einer DICKEN Leitung verbunden sind.

Daten werden zeitnah synchronisiert und außerdem fährt ein Kurier nachts die Backupbänder in einen geschützen Bereich außerhalb der RZ.

So much if money is not the question :-)
 
asg schrieb:
Meine Frage, wie kann man solche Szenarien im Vorfeld planen und schon im Vorfeld für eine Redundanz hierfür sorgen?
Systeme wie Webserver, Datenbanken und so'n Zeug, die öffentlich verfügbar sein sollen, würde ich in Rechenzentren stellen, die dir hohe Verfügbarkeit garantieren. Die kümmern sich dann um Brandschutz, Hardwaresicherheit, Anbindung etc. Ich denke wegen einer einzelnen Maschine würde ich nicht so einen grossen Aufwand betreiben, um diese gegen alle möglichen Gefahren zu schützen.

Bei uns geht es in Sicherheitsfragen weniger um Computer, sondern mehr um Anlagenteile und Maschinen. Hier kann man halbwegs genau berechnen, wie hoch die Kosten/der Verlust bei einem Ausfall ist und welche Vorkehrungen ich für den Notfall treffen muss. So kommt es vor, das eine blöde Dichtung für 3 Euro einen Produktionsausfall von ein paar tausend Euro bedeutet und ich natürlich immer dafür sorge, das ich diese Dichtung auf Vorrat habe. Auf der anderen Seite habe ich vielleicht einen Motor für 10000 Euro, der aber im Falle eines Defektes durch eine andere Maschine ersetzt werden kann, bzw. den ich in kurzer Zeit beschaffen/reparieren kann. Den werde ich mir dann kaum als Ersatzteil hinlegen.
Ähnlich sollte man auch für den Bereich Computer/Netzwerk Berechnungen anstellen können. Ein von Aussen verfügbares System kostet im Falle eines Ausfalles Kunden und somit Geld, also muss ich dafür sorgen, dass es immer verfügbar ist. Ein System, das nur im Betrieb genutzt wird, kann vielleicht schon mal 2-3 Stunden offline sein, ohne gleich die Existenz zu bedrohen. Ein Mitarbeiter ist verärgert über einen Ausfall, wird ihn aber akzeptieren müssen, eine Kunde sucht sich einfach einen anderen Anbieter.

Strom == Fetter fetter Akku oder Dieselaggregat?
Beides wohl möglich, wobei Akkus wohl die elegantere Möglichkeit sind, wenn man nicht tagelange Ausfälle überbrücken muss. Eine eigene Stromversorgung mit Dieselaggregaten ist wohl nur sinnvoll, wenn man über einen längeren Zeitraum grosse Leistungen benötigt.

Internet == WLAN (wenn alle Kabel durch sind - anderer Anbieter (was nichts bringt wenn Kabel vom Bagger durch ist)) oder via Stromnetz und dann intern via WLAN?
Zwei räumlich getrennte Leitungen vielleicht? Es wird kaum vorkommen, dass sich dein Bagger einmal rund ums Gebäude knabbert und beide Leitungen zerstört. Und wenn doch würde ich diesen Fall mit Murphy begründen.

Ganzen Prozesse, Buchungen == gesammte Server (inkl. AS/400) in einem RZ spiegeln?
Hier gehts ums Geld, auch wenn Dir dieses ja erstmal egal sein will. Es ist unmöglich sich einen zweiten Betrieb hinzustellen, für den seltenen Fall, das einem die Anlage ausfällt. Wenn der Verlust in der Zeit, die ich benötige, um eine defekte Anlage auszutauschen oder zu reparieren höher ist, als die Kosten für die Anlage, dann darf ich sie mir gern hinstellen. Andernfalls erarbeite ich lieber eine Strategie, wie ich meine Anlage im Falle eines Defektes repariere und den Ausfall überbrücke.
 
Zuletzt bearbeitet:
Ich würde erstmal sagen das die absicherung der Server auch von der größe der Firma abhängt..das mal so in den Raum gestellt.
Ich persönlich würde mich bei der Internetanbindung nicht nur auf einer Leitung verlassen sondern mehrere, evtl. auch von verschiedenen Anbietern. USV sollte meines erachtens schon standart sein wenn man einen Server mit Geschäftskritischen Daten hat, und auch sonst würde ich den Server nicht in Liesel Müllers Büroschrank verstauen, sondern in einen extraraum, mit guter Belüftung/Kühlung, Brandschutzsystem, und: zugangskontrolle (Schlüssel halt ;))
Und wegen dem Backups: entweder auf Festplatte spiegeln oder wenn man den Kater das Haus zeigen will kann man auch Bandbibliotheken besorgen. Ganz wichtig: Backupserver nicht mit dem normalen Server in einem Raum stehen lassen. (Besonders dann wenn man für den Server einen eigenen kleinen Raum hat) Warum? Brennt es in dem Raum ist nicht nur der Server im after sondern auch der Backupserver.

Nun das ist meine kleine bescheidene Meinung zu diesem Thema. Muss man nicht ernst nehmen wenn man damit nicht einverstanden ist.
 
@ww
So stelle ich mir das persönlich auch vor. Die Frage ist dann bei einem solchen Szenario leider doch wieder das Geld. Ich werde das aber so aufnehmen.

@nickers
Hier gehts ums Geld, auch wenn Dir dieses ja erstmal egal sein will. Es ist unmöglich sich einen zweiten Betrieb hinzustellen, für den seltenen Fall, das einem die Anlage ausfällt. Wenn der Verlust in der Zeit, die ich benötige, um eine defekte Anlage auszutauschen oder zu reparieren höher ist, als die Kosten für die Anlage, dann darf ich sie mir gern hinstellen. Andernfalls erarbeite ich lieber eine Strategie, wie ich meine Anlage im Falle eines Defektes repariere und den Ausfall überbrücke.
Da ist allerdings was dran. Danke für den Hinweis, das muss man mal genau durchkalkulieren.

Ähnlich sollte man auch für den Bereich Computer/Netzwerk Berechnungen anstellen können. Ein von Aussen verfügbares System kostet im Falle eines Ausfalles Kunden und somit Geld, also muss ich dafür sorgen, dass es immer verfügbar ist. Ein System, das nur im Betrieb genutzt wird, kann vielleicht schon mal 2-3 Stunden offline sein, ohne gleich die Existenz zu bedrohen. Ein Mitarbeiter ist verärgert über einen Ausfall, wird ihn aber akzeptieren müssen, eine Kunde sucht sich einfach einen anderen Anbieter.

Wir arbeiten da sehr zeitkritisch. Sollo heissen Buchungen müssen gemacht werden, Kunden müssen Daten beziehen können und auch senden. Ein Ausfall von 24-72 Stunden kostet einigen Kunden den Kragen, sprich sie gehen ein. Von den Klagen gegen uns möchte ich dann nicht sprechen...

@lars
Stimmt, das überaus geliebte BSI mit dem Grundschutzhandbuch was ja nur über 3000 Seiten hat. Ne, im ernst, guter Gedanken, werde mal durchblättern.

@Thinker
Wie geschrieben, es geht nur um eine Redundanz der Server, Leitungen und Stromversorgung (Server nach extern in ein RZ evtl.). Alles andere, Datenschutzhaus, Backup und weiteres ist schon seit Jahr und Tag implementiert und wird auch nach extern jeden Abend ausgelagert.
 
Mal ganz generell:

1. Das wichtigste an der Hochverfügbarkeit ist das Personal, weil letztendlich die meisten Ausfälle auf mangelnde Eignung/Sorgfalt des Personals zurückzuführen sind...

2. Wenn ha eine Rolle spielt, dann geht das nur durch redundante hardware, und daß kann wirklich nur hot standby heissen. Weil selbst redundante Festplatten/Netzteile/$FOO den spof nur an eine andere Stelle verlagern.

3. Anbindung: Die muss klar redundant sein, am besten mehrere Leitungen (mindestens 2) an verschiedenen Ecken eines Gebäudes, damit der berühmte Bagger im Zweifel nur eine Leitung erwischt.

4. Sicherheit an sich vor Feuer, Diebstahl, Einbruch, Bomben usw: Da geht nur ein 2. RZ.

5. USV als Diesel oder Batterie-Lösung: Die Batterie-Lösung ist zuverlässiger, weil keine bewegten Teile etc. Wenn der Ausfall länger ist kann man im Zweifel innerhalb von max. 4 Stunden eine entsprechende Firma vor der Haustüre haben, die mit einem fahrbaren Generator anrückt (selber schon erlebt nach Brand in NAchbargebäude). Das muss aber vorher geklärt sein mit einem entsprechenden Anbieter (die gibt es aber ausreichend).

6. Backup ist backup, nicht mehr und nicht minder. Axel will ha haben (high availability), das hat primär mal nichts mit Backup zu tun. Backup ist notwendig, hilft aber nur, um den Schaden zu Begrenzen. Bildlich: Backup ist die Leiter, die dem Kind aus dem Brunnen hilft, Axel will einen Zaun um den Brunnen, der verhindert, daß das Kind da reinfällt.
 
Daniel Seuffert schrieb:
Mal ganz generell:
1. Das wichtigste an der Hochverfügbarkeit ist das Personal, weil letztendlich die meisten Ausfälle auf mangelnde Eignung/Sorgfalt des Personals zurückzuführen sind...

98% der Ausfälle kann man so beheben, ohne das der Aufall mit einem Fehler ausserhalb zu tun hat, das stimmt.

2. Wenn ha eine Rolle spielt, dann geht das nur durch redundante hardware, und daß kann wirklich nur hot standby heissen. Weil selbst redundante Festplatten/Netzteile/$FOO den spof nur an eine andere Stelle verlagern.

Für eine Redundanz der Server ist gesorgt (CARP und pfsync sind einfach nett). Aber eben keine wirkliche räumliche Trennung vorhanden.

3. Anbindung: Die muss klar redundant sein, am besten mehrere Leitungen (mindestens 2) an verschiedenen Ecken eines Gebäudes, damit der berühmte Bagger im Zweifel nur eine Leitung erwischt.

DAS ist ein wichtiger Punkt der auch schnellstmöglich umgesetzt wird. Nur wenn ein Held am nächsten verteiler Mist baut, an dem die beiden Kabel dann doch wieder enden, dann wieder pustekuche. Ja, ich such ne Eierlegendewollmilchsau, bzw. will alles mögliche ausschliessen und Ideen, Gefahren hier sammeln.

4. Sicherheit an sich vor Feuer, Diebstahl, Einbruch, Bomben usw: Da geht nur ein 2. RZ.

Dafinitiv. Da sind die Kosten allein für die AS/400 wieder bei 1/2 Millionen. Aber so ist das eben.
Aber wie nickers schon schrieb, auch eine Frage der Kalkulation.

5. USV als Diesel oder Batterie-Lösung: Die Batterie-Lösung ist zuverlässiger, weil keine bewegten Teile etc. Wenn der Ausfall länger ist kann man im Zweifel innerhalb von max. 4 Stunden eine entsprechende Firma vor der Haustüre haben, die mit einem fahrbaren Generator anrückt (selber schon erlebt nach Brand in NAchbargebäude). Das muss aber vorher geklärt sein mit einem entsprechenden Anbieter (die gibt es aber ausreichend).

Gute Idee, ist aufgenommen.

6. Backup ist backup, nicht mehr und nicht minder. Axel will ha haben (high availability), das hat primär mal nichts mit Backup zu tun. Backup ist notwendig, hilft aber nur, um den Schaden zu Begrenzen. Bildlich: Backup ist die Leiter, die dem Kind aus dem Brunnen hilft, Axel will einen Zaun um den Brunnen, der verhindert, daß das Kind da reinfällt.

Schön gesprochen :-)
Und Backup der Daten ist vorhanden...
 
Ich gehe mit den meisten hier vorgestellten Grobkonzepten konform. Insbesondere die Auflistung von Daniel Seuffert beinhaltet gute Hinweise.
In jedem Fall bedarf es bei einem HA-Konzept immer einer ausführlichen Planung welche unter anderem Punkte wie folgende berücksichtigt:

- wieviel Budget steht zur Verfügung,
- welche Risks will ich ausschliessen
(Kosten/Nutzenrechnung - lohnen sich 3 Mio. Euro mehr für evtl. Bombenangriffe o. Flugzeugabstürze)
- welche Alternativen habe ich
(Habe ich den Skill und die Technik, muss ich hierin investieren, ist Outsorcing eine Alternative)
- Sind meine OS und Applikationen Clusterfähig
- etc.

Gewisse Dinge sind sicherlich Vertraglich geregelt. hierzu gehört oftmals auch der berühmte Bagger welcher unter höhere Gewalt bzw. nicht beeinflussbare Störung fällt. Ebenso kann ein Ausfall beim Elektrizitätswerk nicht euer Problem sein (Gibt es wirklich, hat in einer Firma in der ich mal gearbeitet habe und den Rest des Ortes zu 4 Stunden Stromausfall geführt.)

So eine Planung geht man dann vom groben ins kleinere an. Und das kann sehr detailliert werden. Bis hin zur Planung der Hardware (redundanz) und Software (Clusterfähigkeit und Datenabgleich z.B. mit Hot-Standby-Datenbank). Dabei darf man dann auch nicht vergessen, dass aktive Monitoringtools benötigt werden die die Verfügbarkeit der Applikationen testen und den Admin im Falle eines Ausfalls informieren (mail, pager, sms). Und vieles mehr.
 
Es bietet sich auch an das ganze mal zu Modellieren (die Lieblingsaufgabe aller Infotiker :) ) und ein entsprechendes Worst-Case-Szenario durchzuspielen.

Wer bei Bundeswehr, Feuerwehr oder THW war, weiß was eine Alarmübung ist - und vor allem das sie extrem nützlich ist um Fehler in Design und Implementierung der Anlagen zu finden.
Außerdem muss auch das Personal entsprechend geschult sein, es nutzt idR wenig wenn redundante System und ein Schiffsdiesel bereitstehen, wenn der Admin wie ein kopfloses Huhn durch die Pampa tobt, hier hilft wirklich nur Übung.

Am besten ist es, einfach mal alle möglichen Fehler durchzugehen, da hätten wir ja schon den berühmten Bagger am Verteiler, oder nen Stromausfall der die halbe Landeshaupstadt für 3h lahm legte.
Feuer/Wasser/Sabotage sollte man auch nicht vergessen.


Petrinetze wären da bestimmt recht hilfreich.

Und auch externe Erfahrung. Ich denke in einschlägigen Newsgroups dürfte der ein oder andere professionelle Admin dabei sein, der derartige Probleme bereits lösen musste.
 
Axel, vielleicht bist Du am Samstag gegen 15.00 Uhr noch in KA, dann kann ich Dir die ganze Geschichte erzählen. Wenn Du magst, können wir auch mal zu dritt (asg, ww und mein Bekannter) ein Bier trinken und Du kannst ihn ausfragen.
 
@ww
Bin definitiv in KA am Samstag, auch noch um 15:00 Uhr.
Lass uns mal treffen auf dem LinuxTag. Am BSD-Stand?
 
Wie schonmal festgestellt worden ist:

Kosten spielen doch eine Rolle. Redundanz kostet auch wenn das viele Leute nicht wahrhaben wollen und einfach mal HA fordern. Kurz hochgerechnet was diese Ausfallsicherheit kostet und schon sind Ausfaelle von einigen Stunden bzw. auch mal von ein paar Tagen nicht mehr so schlimm. Kein Witz. Bereits mehrfach bei einigen Firmen erlebt.

Wichtigste Grundregel zum Aufbau von Redundanzen ist alle Abhaengigkeiten zu kennen und auf Dinge auf die man keinen Einfluss hat, Vertraege mit dejenigen abzuschliessen, die diesen haben.

Sonst traegt man das volle Risiko obwohl man gar nicht die Ursache war.

Wer Leitungen anspricht meint meistens den Leitungsanbieter. Leitungen pauschal an "zwei Enden eines Gebaeudes anschliessen zu lassen" um "den beruechtigten Bagger" auszuschliessen ist im uebrigen Bloedsinn. Diese werden i.d.R. wieder zu einer Kabelfuehrung zusammengefasst und die Kabeltrasse liegt keine 50m von einem Gebaeude an der Strasse. Man kann mit der Telekom Vertraege abschliessen um von denen sicherstellen zu lassen, dass zwei Anschluesse sich in einem gewissen Umkreis nicht dieselbe Kabelfuehrung teilen. Kostet entsprechend. Produktionswerke von BMW sind z.B. so angeschlossen. Hier kostet auch der Ausfall soviel, das sich diese Investitionen rechtfertigen. Vorallem durch Abhaengikeiten der Prozesse die eine JIT-Produktion erzeugt haben. Aber das ist ein anderes Thema.

Kleinere Firmen haben lediglich die Moeglichkeit Ihre Leitungsanbindung durch eine Funkverkehrsnetz zu sichern.

Geht es nur um den Provider, (Inet) dann bieten sich die ueblichen Moeglichkeit des ISDN-Backups. Hier bietet sich aber auch an ueber UMTS nachzudenken.

Betreibt Ihr ein RZ fuer Kunden und seit ihr Kleiner, empfiehlt es sich bei anderen RZs einzumieten. Das vereinfacht ein bisschen die Angelegenheit, da Ihr bereits Vertraege mit SLAs abschliesst, die Ihr mit einem kleinen Aufschlag fuer Dinge, die Ihr beeinflussen koennt, an eure Kunden weitergeben koennt. Themen wie Leitungsanbindung sind in der Regel im Paket dabei und ihr muesst euch nicht mit x-anbietern eigene Vertraege anbieten. Einige bieten auch die raeumliche Trennung von Servern an. Auch Dinge wie Stromversorgung sind dann geklaert.

So ungewoehnlich ist es auch nicht, das Anbieter von Diensten ihr RZ auslagern und nur die Server betreiben. Auch einige Firmen nutzen diese Moeglichkeit da die Kosten zum Betrieb eines eigenen RZs nicht zu unterschaetzen sind.

So ich denke ich hab erstmal genug geschrieben.

p.s.

Noch eine Bemerkung zu USVs. Klar sind diese praktisch. Aber auch sehr Wartungsintensiv, da die Akkus von Zeit zu Zeit ausgetauscht werden muessen. Im LRZ ist man deshalb vom grobflaechigen Einsatz von USVs abgekommen.
 
nickers schrieb:
Zwei räumlich getrennte Leitungen vielleicht? Es wird kaum vorkommen, dass sich dein Bagger einmal rund ums Gebäude knabbert und beide Leitungen zerstört. Und wenn doch würde ich diesen Fall mit Murphy begründen.

Sowas nennt man doppelte Hauseinführung, bringt aber nichts, wenn der Carrier die beiden Ende dann wieder in einer Vermittlungsstelle zusammenführt... (schon erlebt...)

Am besten den Internetzugang von zwei großen Carriern beziehen, die über eigene Leitungen verfügen. Es bringt nix, wenn der Carrier zur Anbindung an deine Lokation eine Leitung von dem anderem Carrier anmietet, wo du deine andere Anbindung her hast.

marty
 
asg schrieb:
@ww
Bin definitiv in KA am Samstag, auch noch um 15:00 Uhr.
Lass uns mal treffen auf dem LinuxTag. Am BSD-Stand?

Nein, ich werde ausschließlich am WfW3.11- Stand sein.
.
.
.
.
.
Just kidding.

Ich freue mich, ein paar Leute wiederzusehen oder kennenzulernen. W.
 
hi,

naja, viel richtiges (und fast nichts falsches :>) wurde schon gesagt; mal noch ein paar weitere Punkte:
- wirklich wichtig ist die angespr. Risikoanalyse ("wenn fuer zeit x $foo ausfaellt, was kostet das") -> beliebig Kohle hat niemand uebrig :-)
- redundanter Uplink: getrennte Hauszufuehrungen, redundante carrier, redundante ISPs (wirklich ueber unabhaengige IP-Upstreams: say, ISP1 routet dann effektiv doch alles ueber ISP2 und der zerschiesst zB sein BGP -> wieder mist)
- Strom: bei hohem Strombedarf -> Kreiselsysteme; bzw mehrere unabhaengige "kleine" batterie-USVs, einen Kreisel danach Diesel.. und bitte genug Sprit vor Ort :>)
- Prozesse: da wird's deutlich komplexer und hier hilft nur der Part: wieviel Geld ist da und
laesst sich das ueberhaupt abbilden. Das angespr. 2. RZ ist sicher ein Punkt - aber da muss
nicht schluss sein :-). Uebrigens gibt es da auch Unternehmen, die ueber mehrere RZ weltweit verteilt (async) arbeiten - frei nach dem Motto: "dann ist halt jetzt wenigstens nur
Europa weg". Das kann auch aus human-manpower-sicht her einen sinn ergeben: wenn
alles 'sync' ist, und in Australien was knallt, der power-admin aber in .de grad in der heia
liegt und gebraucht wird -> auch murks :)

das thema geht gegen unendlich.. aber mal noch 2 zitate, die ich da sehr mag:
The severity with which a system fails is directly proportional
to the intensity of the designer's belief that it cannot.
(http://catless.ncl.ac.uk/Risks/2.15.html#subj2)
Smile... Tomorrow will be worse.

dideldum,
 
Zurück
Oben