Management & Controlling
Kommentare 3

Entscheidungsmethoden – Probleme lösen mit der Fehlerbaumanalyse

Manchmal geht etwas schief, teilweise sogar ganz furchtbar schief! Maschinen fallen aus, Flugzeuge vom Himmel und auch kleinere Ereignisse im Unternehmerleben können manchmal eine Katastrophe nach sich ziehen.

Der beste Weg, sich gegen solche Risiken zu wappnen, ist VORHER die Risikopotentiale im eigenen Unternehmen zu identifizieren, ihre Ursachen zu ermitteln und dann frühzeitig geeignete Sicherungsmechanismen einzubauen. Denn schief gehen kann immer irgendetwas – hat man sich jedoch damit befasst BEVOR etwas passiert, kann der Worst Case oft vermieden werden.

Heute stelle ich euch eine Methode vor, die helfen kann Risiken und ihre Ursachen im Unternehmen aufzuspüren und so rechtzeitig Gegenmaßnahmen zu entwickeln: die Fehlerbaumanalyse.

Die Fehlerbaumanalyse

Mit Hilfe der Fehlerbaumanalyse, englisch Fault Tree Analysis (FTA), können mögliche Risiken und Probleme aufgezeigt werden,  die eine Situation oder ein System beinhalten kann. Dazu werden die möglichen Ursachen bestimmter Fehlerzustände untersucht und Systeme auf ihre Störanfälligkeit hin gecheckt. Das ist nicht nur in Bereichen der Sicherheitstechnik sinnvoll, auch andere Situationen können auf ihre Schwachpunkte hin untersucht werden, so dass mögliche Probleme im Optimalfall gar nicht erst auftreten. Natürlich ist mit der Fehlerbaumanalyse auch im Nachhinein die Ermittlung der Gründe für ein Problem oder einen Misserfolg möglich.

Dazu werden im Rahmen der Analyse logische Verknüpfungen zwischen den einzelnen Teilen eines Systems erstellt und diese auf ihre Fehleranfälligkeit hin untersucht.

Die große Frage dahinter: was muss passieren, damit das Gesamtsystem ausfällt? Wie ist der kritische Weg, der zu einem Gesamtsystemausfall führen kann?

Dazu wird mittels einer Baumstruktur der kritische Weg über die vielen kleinen Faktoren aufgezeigt, welche schließlich zum „Top Event“, dem betrachteten größtmöglichen Problem, führen. Ursachen können dabei entweder alleine oder in Kombination mit anderen Ursachen auftreten und zu einem definierten Fehler führen. Vorgegangen wird bei der Analyse von oben nach unten, um so bis ins letzte Detail zu prüfen, welcher (Minimal-)Faktor Auslöser für eine mögliche Katastrophe sein kann und so besonders früh Sicherheitsmaßnahmen einleiten oder installieren zu können.

Ganz grob dargestellt geht man bei der Fehlerbaumanalyse wir folgt vor:

1. Top-Event festlegen

Als Ausgangspunkt legt man einen klar definierten Zustand fest, der vermieden werden soll.

2. Ursachen top-down eintragen

Von oben nach unten zeichnet man dann die Ursachen für das Problem auf, bis alle möglichen Gründe für das Top-Event erfasst sind. Ihre jeweiligen Verknüpfungen miteinander und systematischen Abfolgen untereinander notiert man in den Ästen.

Dabei werden folgende Zeichen und Verknüpfungen genutzt:

  • Kreise = Basisereignisse, Rauten = Ereignisse, die nicht weiter betrachtet werden
  • Verknüpfungsparameter für die logische Struktur: UND, ODER, seltener auch NICHT (s.a. Boolesche Algebra)
    • UND (&) = alle Ereignisse müssen eintreten, damit das Ausgangsereignis eintritt
    • ODER (≥1) = wenn mindestens 1 Ereignis eintritt, dann tritt auch das Ausgangsereignis ein

3. Eintrittswahrscheinlichkeit

Jetzt wird für jedes Basis-Ereignis eine Eintrittswahrscheinlichkeit ermittelt. Manchmal kann man das messen, manchmal aber auch einfach nur schätzen. Diese Wahrscheinlichkeit bezieht sich immer auf einen zu definierenden Zeitraum, je nachdem, was wir untersuchen möchten.

Für die Berechnung gibt es natürlich tolle Formeln:

  • λ = Ausfallrate
  • t = betrachteter Zeitraum
  • e = Eulersche Zahl = 2,7182818…
  • P = Ausfallwahrscheinlichkeit
  • Formel: P = 1 – e– λt (wenn man davon ausgeht, dass der Ausfall gleichverteilt im definierten Zeitraum auftritt)

Für meine kleine Firma ist das viel zu kompliziert, ich nehme einfach ein Jahr als Basis und zähle die Tage, an denen ein Ereignis eintritt. Dann habe ich meine Eintrittswahrscheinlichkeit in Bezug auf ein Jahr 🙂

4. Ergebnis

Um zu entscheiden, wo sich das größte Risiko verbirgt, verknüpfe ich nun die Eintrittswahrscheinlichkeiten der Basis-Ereignisse miteinander. Dazu nutze ich folgende Formeln:

  • P (A und B) = P (A) * P (B)
    -> d.h. die Wahrscheinlichkeit, dass beide Ereignisse eintreten, z.B. beide Systeme oder Komponenten ausfallen, ergibt sich aus der Multiplikation der einzelnen Eintrittswahrscheinlichkeiten miteinander
  • P (A oder B) = P (A) + P (B) – P (A) * P (B)
    -> d.h. die Wahrscheinlichkeit, dass eines der beiden Ereignisse eintritt, z.B. eines der beiden Systeme oder Komponenten ausfällt, ergibt sich aus der Addition der beiden Eintrittswahrscheinlichkeiten abzüglich der Wahrscheinlichkeit, dass beide gemeinsam ausfallen (denn das wäre ja nicht ODER sondern UND)

Der Ast des Fehlerbaums, der am Ende die höchste Eintrittswahrscheinlichkeit hat, beinhaltet das größte Risiko.

Hier muss man ansetzen, wenn man das Risiko, dass das Top-Event eintritt, minimieren möchte.

Die Fehlerbaumanalyse in der Praxis – Beispiel 1

Da so eine Fehlerbaumanalyse in komplexen Systemen natürlich ebenfalls sehr kompliziert werden kann und teilweise nur mit Hilfe von Software überhaupt darstellbar ist, zeige ich euch das Ganze anhand eines einfachen Beispiels:

Beispiel: Meine Freundin Nicole und ich betreiben gemeinsam das Online-Magazin „Das Elternhandbuch“. Nicole ist für den Inhalt zuständig und ich für die Technik und die Vermarktung. Zusammen sorgen wir dafür, dass unsere Leser ca. zweimal die Woche neue Inhalte bei uns auf der Seite finden können.

Was wäre für uns der Worst Case? Das unsere Leser bei uns vorbei kommen und nichts (Neues) zu lesen finden.

Top-Event

Keine neuen Inhalte auf der Website.

Ursachen

Mir fallen dafür nur zwei Ereignisse ein:

  1. Wir haben keine neuen Inhalte.
  2. Die Website ist offline.

Und wie es zu diesen beiden Ereignissen kommen kann, male ich jetzt mal in den Fehlerbaum, um heraus zu finden, wie ich uns vor diesen Ereignissen am besten schützen kann.

2a: Wie kann es dazu kommen, dass wir keine neuen Inhalte haben, obwohl die Seite läuft?




    WERBUNG
  • Wir haben einfach keine neuen Inhalte, weil Nicole keine Zeit zum Schreiben hat.
  • Wir haben zwar neue Inhalte, aber eine technische Störung verhindert, dass diese online gehen.

2b: Wie kann es dazu kommen, dass die Seite offline ist?

  • Das gesamte Internet bricht zusammen.
  • Der Server ist ausgefallen. Entweder wegen eines Hacker-Angriffs oder weil eine sonstige technische Störung vorliegt.

Das sieht dann als Fehlerbaum so aus:

Fehrlerbaumanalyse

Fehrlerbaumanalyse

Eintrittswahrscheinlichkeiten

Als nächstes versuche ich heraus zu finden, wie hoch die Eintrittswahrscheinlichkeit der einzelnen Ereignisse ist:

  • A: Nicole hat keine Zeit zum Schreiben: es könnte ja vorkommen, dass Nicole mal nicht so viel Zeit für das Elternhandbuch hat, immerhin ist sie ja auch mit anderen Projekten erfolgreich, wie z. B. neuen DIY-Magazin „Glückswerk“ oder ihrem eigenen Blognicmag“. Nehmen wir daher einfach mal an, dass ihre Zeit für das Elternhandbuch plötzlich um 50% reduziert ist, d.h. die Eintrittswahrscheinlichkeit für dieses Ereignis beträgt ebenfalls 50%.
  • B: WordPress ist kaputt: das hatten wir in diesem Jahr genau ein Mal. Daher beträgt die Eintrittswahrscheinlichkeit hier 1/365 = 0,27%
  • C: Internet kaputt: nun ja, daran glaube ich nicht, daher 0%
  • D: Hacker-Angriff: das hatten wir im letzten Sommer (Holland in Not) und das dauerte tatsächlich mehrere Tage. Daher setzte ich jetzt mal 5 Tage an, ergibt also 5/365 = 1,37%
  • E: Technische Störung: das haben wir tatsächlich öfter, geschätzt so 1 – 2 mal pro Monat. Die Eintrittswahrscheinlichkeit ist also: 1,5*12/365 = 4,93%

Jetzt muss ich nur noch die einzelnen Wahrscheinlichkeiten miteinander verknüpfen und schon kann ich das Risiko, dass keine neuen Inhalte für unsere Leser zur Verfügung stehen, beurteilen:

  • Keine neuen Inhalte vorhanden: eine UND-Verknüpfung zwischen den beiden Ursachen „Keine Zeit“ und „Wordpress kaputt“ ist sinnlos, denn wenn WordPress quer schießt, dann kann Nicole schreiben so viel sie will, es geht nicht online. Daher wähle ich die ODER-Verknüpfung.
    P (A oder B) = P (A) + P (B) – P (A) * P (B): 50% + 0,27% – 50% * 0,27% = 51,35%
  • Website offline: auch hier nutze ich die ODER-Verknüpfung, da jede Ursache für sich alleine schon zu einem Ausfall der Seite bzw. des Servers führt. Allerdings muss ich einen Zwischenschritt bei der Berechnung machen, da der Serverausfall zwei Ursachen haben kann.
    Serverausfall: P (D oder E) = P (D) + P (E) – P (D) * P (E): 1,37% + 4,93% – 1,37% * 4,93% = 6,23%
    Website offline: P (C oder DE) = P (C) + P (DE) – P (C) * P (DE): 0% + 6,23% – 0% * 6,23% = 6,23%

Ergebnis

Das größte Risiko besteht tatsächlich darin, dass Nicole keine Zeit zum Schreiben hat. Das ist zum Glück kein aktuelles Problem, aber man weiß ja nie. Da sollten wir bei der nächsten Redaktionskonferenz direkt mal drüber sprechen, gell Nicole?

Die Fehlerbaumanalyse in der Praxis – Beispiel 2

Und jetzt noch eine Variante des oben gezeigten Beispiels: Ich plane für eine Woche in Urlaub zu fahren, daher ändert sich der betrachtete Zeitraum (d.h. alle Faktoren werden durch 52 Wochen geteilt) und zu dem Zeitpunkt auch einige der Voraussetzungen:

A: Nicole hat keine Zeit zum Schreiben: das ist für den betrachtenden Zeitraum nicht wichtig, denn es liegen schon Artikel vorbereitet im System. Eintrittswahrscheinlichkeit ist daher 0% 🙂

B: WordPress ist kaputt: Eintrittswahrscheinlichkeit für eine Woche = 1/365/52 = 0,005%

C: Internet Kaputt: nun ja, daran glaube ich nicht, daher 0%

D: Hacker-Angriff: Eintrittswahrscheinlichkeit für eine Woche = 5/365/52 = 0,026%

E: Technische Störung: Eintrittswahrscheinlichkeit für eine Woche = 1,5*12/365/52 = 0,095%

Wieder verknüpfe ich die einzelnen Eintrittswahrscheinlichkeiten miteinander:

  • Keine neuen Inhalte vorhanden: P (A oder B) = P (A) + P (B) – P (A) * P (B): 0% + 0,005% – 0% * 0,005% = 0,005%
  • Website offline: auch hier nutze ich die ODER-Verknüpfung, da jede Ursache für sich alleine schon zu einem Ausfall der Seite bzw. des Servers führt. Allerdings muss ich einen Zwischenschritt bei der Berechnung machen, da der Serverausfall zwei Ursachen haben kann.
    Serverausfall: P (D oder E) = P (D) + P (E) – P (D) * P (E): 0,026% + 0,095% – 0,026% * 0,095% = 0,121%
    Website offline: P (C oder DE) = P (C) + P (DE) – P (C) * P (DE): 0% + 0,121% – 0% * 0,121% = 0,121%

Fazit: während meines Urlaubs ist das größte Risiko also tatsächlich der Server-Ausfall! Und da ich für die Technik zuständig bin, aber zu der Zeit am Strand liege, ist das ein echtes Risiko!

Unsere Lösung: ich trage Nicole als Ansprechpartner bei unserem Provider ein, gebe ihr die entsprechenden Zugangsdaten und schon ist das Problem lösbar, auch wenn ich mal nicht da bin. Sie muss dort nämlich einfach nur anrufen und den Server neu starten lassen und ich kann beruhigt am Strand liegen 🙂

Weitere Methoden um Probleme zu lösen

Neben der Fehlerbaumanalyse habe ich noch weitere Techniken im Unternehmerhandbuch vorgestellt, die bei der Lösung von Problemen hilfreich sein können:

Mehr Informationen

Weitere Entscheidungsmethoden und ihre Anwendungsgebiete stelle ich euch in kommenden Artikeln vor. Alle bisher erschienenen Beiträge rund um das Thema findet ihr hier:

Entscheidungsmethoden

Foto: piyaphong / shutterstock.com

3 Kommentare

  1. Pingback: Entscheidungsmethoden – Probleme lösen mit der Fehlerbaumanalyse | Heikes Projekte

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.