Montag, 20. August 2012

Wie sicher wird ein Formsignal wirklich auf Halt gestellt?

In einem vorherigen Posting habe ich mit einigen angenommenen, aber hoffentlich halbwegs realistischen Zahlen die Größenordnung der Wahrscheinlichkeit berechnet, dass ein Zug auf ein fälschlicherweise auf Frei stehendes Form-Hauptsignal trifft, wenn die Technik und der Prozess (die "Vorschriften") für das Halt-Stellen naiv aufgebaut sind. Das Ergebnis war, dass diese Wahrscheinlichkeit hunderttausend mal so hoch ist, wie in modernen Vorgaben – wie etwa der Luftsicherheitsrichtlinie JAR 25.1309 – erlaubt ist. Tatsächlich ist aber weder die Technik noch der Prozess so simpel aufgebaut, sonst würde die Eisenbahn nicht als sehr sicheres Verkehrsmittel gelten. In dem folgenden Text versuche ich eine Abschätzung der Wahrscheinlichkeit für eine realistischere Realisierung des Halt-Stellens eines Formsignals.

Auch hier brauche ich wieder ein konkretes System, für das ich die Fehlerwahrscheinlichkeit berechnen kann. Ein "allgemeines Form-Hauptsignal" gibt es aber nun nicht mehr, sondern man muss sich konkret die möglichen Betriebsbedingungen solcher Signale ansehen, weil davon sowohl Prozess wie auch Technik abhängen. Als erste Einschränkung wähle ich den Betrieb des Signals unter "österreichischen Bedingungen", wo in einem Bahnhof jeweils ein Befehlswerk und ein Stellwerk zusammenwirken, die von verschiedenen Personen bedient werden. Die kritische menschliche Versagenswahrscheinlichkeit von p = 10–3 sollte dadurch, wenn Prozess und Technik korrekt ausgelegt sind, durch p · p, also 10–6 ersetzt werden, was die Anlage den geforderten Werten schon signifikant näher bringen sollte. Allerdings bleiben nun Form-Hauptsignale an Betriebsstellen mit nur einem "Signal-Verantwortlichen" unberücksichtigt, also insbesondere Blockstellen. Ich belasse es einmal dabei – vielleicht finde ich oder jemand anderer einmal Zeit, eine analoge Analyse für das Zurückstellen eines Form-Blocksignals durchzuführen ...

Ich bleibe andererseits momentan noch einmal dabei, Ein- und Ausfahrsignale gemeinsam zu behandeln, obwohl sich Technik und Prozess für beide Einsatzorte natürlich unterscheiden. Wieder gilt "Schauen wir, was herauskommt!"

In meiner vorigen Analyse war neben dem Bediener das andere kritische Systemelement die Doppeldrahtzugleitung. Da die Ingenieure nicht sicherstellen konnten, dass sie mit höchster Zuverlässigkeit arbeiten würde, haben sie zwei neue Elemente eingeführt:
  • Die einfache Drahtzugleitung; und
  • den zurückfallenden Signalantrieb.
Beide Elemente werden in der üblichen Signalliteratur nicht so genannt, weil sie nicht als eigene Elemente verstanden werden, sondern als Fehlerbetriebsarten der Doppeldrahtzugleitung beziehungsweise des normalen Signalantriebs. In einer Zuverlässigkeitsanalyse ist es aber sinnvoll, sie als eigene Systemelemente einzuführen. Mit diesen neuen Elementen kann ich nun ein Zuverlässigkeitsblockdiagramm des Haltstellens mit der verbesserten Technik erstellen:

Photobucket


Gegenüber meinem ersten Diagramm eines reinen Serien-Systems finden sich hier nun zwei neue Konzepte:
  • Die beiden Bediener arbeiten mit gegenseitiger "heißer Redundanz", d.h. als gegenseitige "heiße Reserve" (oder englisch "hot stand-by").
  • Das Teilsystem mit der einfachen Drahtzugleitung und dem zurückfallenden Signalantrieb arbeitet in "kalter Redundanz" oder als "kalte Reserve" ("cold stand-by") zum oberen Systemteil.

"Heiße Reserve" oder "hot stand-by" bedeutet, dass zwei Systeme der höheren Verfügbarkeit wegen parallel betrieben werden. Die Erwartung ist, dass nicht beide Systeme zugleich ausfallen, sondern immer nur eines. Das Gesamtsystem funktioniert dann problemlos weiter, es besteht aber die Möglichkeit, das ausgefallene System währenddessen wieder zu reparieren und damit ohne Systemausfall davonzukommen. Diese Redundanz wirkt sich je nach Fehlerverhalten verschieden aus:
  • In den Lehrbüchern der Zuverlässigkeitstheorie wird gerne ein Parallel-System mit zwei gleichartigen Komponenten mit Ausfall-Verhalten berechnet. Wenn man für jede der Komponenten eine konstante Ausfallrate λ und entsprechend eine MTTF von 1/λ annimmt, dann hat das Gesamtsystem eine MTTF von 1,5/λ, also gerade um 50% mehr als die einzelne Komponente. In der Realität wird man solche Systeme allerdings eher nicht bauen: Man ergänzt sie lieber um eine Anzeige, dass eine der beiden Komponenten ausgefallen ist; und repariert diese Komponente so schnell wie möglich, ohne die zusätzliche statistische Lebensdauer auszunützen. Reale Anwendungen sind z.B. gedoppelte Netzteile, gedoppelte Hard-Disks, ganze gedoppelte Rechner oder gedoppelte Antriebe oder Antriebskomponenten.
  • Praktisch relevant ist die heiße Redundanz bei Systemen mit Versagens-Verhalten, wie z.B. in meinem Beispiel die zwei Bediener. Hier sinkt die Wahrscheinlichkeit für einen Fehler von p auf pn, was bei kleinem p schon für n = 2 eine Verbesserung der Zuverlässigkeit um Größenordnungen bewirkt.

Man muss nun allerdings für dieses konkrete System genau überprüfen, ob wirklich beide Bediener am Haltstellen des Signals teilnehmen. Direkt nach der vorausgegangenen Zugfahrt ist das ja nicht der Fall: Bei einem Signal ohne Flügelkupplung (wie das in Österreich größtenteils üblich war) wird ein vergessenes Zurückstellen zuerst einmal niemandem auffallen. Allerdings ist in der Verkehrsvorschrift festgelegt, dass für jede Zugfahrt ein eigener Befehl abzugeben ist; und dafür muss der Stellwerker zuerst den Befehl an die Fahrdienstleitung zurückgeben, was nur bei haltzeigendem Signal möglich ist. Das Abgeben eines Befehls war und ist bei Fahrdienstleitern eindeutig "fertigkeitsbasiert" – der Befehl wird "ohne zu Denken gegeben". Damit wirkt der Fahrdienstleiter spätestens bei der nächsten Zugfahrt – also der potentiell gefährdeten! – an der Prüfung der Haltstellung mit, und die Aufnahme in das Diagramm als "heiße Reserve" ist damit gerechtfertigt.

"Kalte Reserve" ist hingegen die Idee, einen weiteren Systemteil "ausgeschaltet" danebenzustellen; und erst im Falle eines Ausfalls des ersten Systemteils den zweiten in Betrieb zu nehmen. In Zuverlässigkeitsblockdiagrammen zeichnet man das häufig, wie auch oben geschehen, mit einem Umschalter-Symbol ein. Im Zusammenhang mit diesem Umschalter gibt es nun zwei verschiedene Möglichkeiten:
  • Im selteneren Fall, der aber einfacher zu berechnen ist, ist der Umschalter selbst "perfekt". In diesem Fall kann man die Lebensdauern der beiden Systemteile einfach addieren – aber wieder wird man sich in der harten Realität nach dem Umschalten darum kümmern, dass man den ersten Systemteil so schnell wie möglich wieder ans Laufen bekommt, und die Lebensdauer des zweiten Systems nicht ausnützen.
  • Der praktisch relevantere Fall ist jener, wo auch der Umschalter Ausfallserscheinungen haben kann. Leider ist ausgerechnet der Umschalter oft sogar die Achillesferse des ganzen Konzepts, wie man zum Beispiel aus den Fehlschlägen bei Anläufen von Dieselaggregaten für Notstromversorgung weiß.
In dem Diagramm für das verbesserte Zurückstellen eines Form-Hauptsignals sieht man ein Beispiel für den zweiten Fall, wo die Umschaltung nicht perfekt vor sich geht: Wenn die Doppeldrahtzugleitung reißt, dann wird sie "von selbst" zu einer Einfachdrahtzugleitung, und der untere Systemteil in Betrieb genommen. Wenn sie allerdings nicht reißt, aber andere Elemente des oberen Stranges ausfallen, dann bleibt die kalte Reserve ungenutzt.

Allerdings ist auch dieses Modell nicht vollständig: Tatsächlich erfolgen am Antrieb verschiedene Vorgänge, je nachdem, welcher Draht reißt, die man eventuell verschieden bewerten müsste; und man müsste auch den Fall des beidseitigen Reißens getrennt modellieren, wie das in genauen Funktionsbeschreibungen erfolgt. Ich bleibe für meine Studie einmal bei dem vereinfachten Modell – es wird sich herausstellen, dass sogar bei ziemlich schlechten Ausfallraten dieser zweite Strang die Sicherheit enorm erhöht. Daher ist eine genaue Analyse dieses Strangs ziemlich unnötig.

Haltstellen eines Formsignals – Ausfallratenanalyse


Was bringt die parallele kalte Reserve? Um das zu beurteilen, braucht man weitere Ausfallsraten, und zwar für die Reserve-Systemelemente und für den Umschaltevorgang auf diese. Für den Riss der Doppeldrahtzugleitung setze ich deren Ausfallrate aus dem letzten Posting an; für alle anderen Fehler der Doppeldrahtzugleitung (z.B. Festklemmen des Drahtes an Umlenkrollen) nehme ich nun die niedrigere Rate von 10–10 an.

Für die Reserve-Elemente setze ich übungshalber dieselben Raten wie für die funktionierenden Systemteile an, obwohl das extrem konservativ ist: Denn diese Systemelemente sind ja nur auf das simple Zurückfallen ausgelegt, nicht auch auf das korrekte Freistellen, und haben daher eine einfachere mechanische Wirkungsweise. Ich nehme trotzdem für
  • die Ausfallrate der einfachen Drahtzugleitung den gleichen Wert wie für das Reißen der Doppeldrahtzugleitung an, also ?Einfachdrahtzug = 10–8/B;
  • den Ausfall der Rückfallmechanik des Signals denselben Wert wie für das gesamte Formsignal an, also ?Rückfallmechanik = 10–10/B.
Für die übrigen Systemelemente nehme ich dieselben Zahlen wie im letzten Posting:

Photobucket

Mit diesen Werten erhält man nun für den oberen Strang im Diagramm folgende Wahrscheinlichkeiten für ein Versagen bei einer Bedienung nach einem Jahr:
  • Für die beiden Bediener ist die Versagenswahrscheinlichkeit p = (10–3)2 = 10–6.
  • Für den Hebel bleibt es nach einem Jahr bei p ˜ 10–6.
  • Für die "sonstigen Probleme" der Drahtzugleitung ist der Wert wie für den Hebel p ˜ 10–6.
  • Für das Signal bleibt die Ausfallswahrscheinlichkeit nach einem Jahr wie vorher bei p ˜ 10–6.
Wegen ihrer Kleinheit können diese Wahrscheinlichkeiten wiederum einfach addiert werden. Man erhält als Ausfall-Wahrscheinlichkeit für diesen Strang nun 4 · 10–6 bei einer einzelnen Bedienung am Ende des betrachteten Jahres. Immerhin ist nun "der Mensch als Hauptfehlerursache" entfernt, und insgesamt ist eine Verbesserung gegenüber dem vorherigen Wert von 10–3 um den Faktor 250 erreicht worden!

Darüberhinaus hat dieses verbesserte System noch eine weitere wichtige Eigenschaft: Der Ausfall in der Hauptstrecke wird fast sicher bemerkt, weil der Signalhebel bei gerissenem Drahtzug viel leichtgängiger ist. Daher kann man für die zweite Strecke statt der Ausfallswahrscheinlichkeit nach einem Jahr jene nach einer einzigen Betätigung ansetzen! Das "Backup-System" muss eben nicht ein ganzes Jahr aushalten, sondern nur bis zum Erkennen des Problems. Danach wird aufgrund ergänzender Vorschriften das Signal als "in Freistellung untauglich" festgestellt und der Zugbetrieb mit entsprechenden schriftlichen Befehlen durchgeführt. Wegen dieser geringen Anforderung an die "Laufzeit" der Reserve erhält man als zugehörige Ausfallswahrscheinlichkeiten bei einer Bedienung
  • für die einfache Drahtzugleitung 1 – e–10–8 · 1 ˜ 10–8
  • für die Rückfallmechanik 1 – e–10–10 · 1 ˜ 10–10
Als Summe ergibt sich eine Ausfallswahrscheinlichkeit für den Reserve-Systemteil von 1,01 · 10–8 ˜ 1 · 10–8.

Die wesentlichste Eigenschaft des verbesserten Systems ist aber, dass die Wahrscheinlichkeit für einen Riss der Doppeldrahtzugleitung in die Rechnung überhaupt nicht mehr eingeht! Denn es ist für das Haltstellen des Signals nun egal, ob die Leitung gerissen ist oder nicht – entweder funktioniert der obere Systemteil oder der untere. Das gilt allerdings nur für die Zuverlässigkeit des Haltstellens; für das Freistellen ist natürlich eine funktionierende Doppeldrahtzugleitung Voraussetzung, und aus Sicht des Eisenbahnunternehmens, das ja Züge fahren will, ist auch diese Funktion wesentlich. Sie habe ich hier aber nicht betrachtet.

Mit der Annahme aus dem letzten Posting, dass innerhalb einer Reisestunde etwa 10 Signale passiert werden, ergibt sich damit aus Sicht der Reisenden Folgendes: Die Wahrscheinlichkeit, in einer Fahrtstunde ein fälschlicherweise frei zeigendes Form-Hauptsignal anzutreffen, ist
  • bei nicht gerissenem Doppeldrahtzug etwa 10 · 4 · 10–6 = 4 · 10–5/h.
  • bei gerissenem Doppeldrahtzug etwa 10 · 10–8 = 10–7/h

Haltstellen eines Formsignals – mögliche Schlussfolgerungen?


Die zweite Zahl ist, wie man beim Vergleich mit den Zahlen im "Joint Aviation Standard JAR 25.1309" am Anfang des vorigen Postings sieht, auch nach modernen Standards akzeptabel. Die erste Zahl ist allerdings noch immer zu hoch.

Allerdings würde eine verringerte technische Ausfallrate im ersten Strang nicht allzu viel helfen: Denn die Fehlerrate der zwei Bediener würde die Versagenswahrscheinlichkeit je Fahrtstunde weiterhin in der Größenordnung von 10–5 halten. Ohne die Entwicklung des Haltstellens von Signalen genau nachzuzeichnen, scheint mir das Ergebnis zumindest symptomatisch für die Geschichte der Eisenbahnsicherungsanlagen: Die menschliche Zuverlässigkeit wurde lange zu hoch eingeschätzt; oder, umgekehrt, es erfolgte ein "Abschieben der Schuld" an die Bediener in den Fällen, wo eben nicht offensichtlich ein mechanisches Versagen vorlag. Erst in den letzten Jahrzehnten, und dort meines Wissens vor allem nach Unfällen in der Luftfahrt, ist der inhärenten menschlichen Fehlerrate – also den menschlichen Fehlern, "gegen die wir machtlos sind" – eine erhöhte Aufmerksamkeit geschenkt worden; und insbesondere sind die menschlichen Patzer, Schnitzer und anderen Versagen von der "Schuld"-Frage abgekoppelt worden. Wenn es nur das ist, was man aus solchen Analysen lernen kann, ist das auch schon was ...

Vorsichtshalber muss ich zum Schluss noch einmal anmerken, dass die von mir angenommenen Ausfallsraten der technischen Systemelemente nicht aus Messungen oder Publikationen stammen, sondern von mir "übungshalber" angenommen wurden. Daher lassen sich aus meinen Zahlwerten auch keine Folgerungen für die Realität ziehen. Ich denke aber, dass meine Studie zeigt, wie das Vorgehen einer solchen Analyse sein kann.

1 Kommentar:

  1. Mir hat es gefallen. Interessanter Unfall in dem Zusammenhang "Berlin-Karow".

    AntwortenLöschen