Sonntag, 19. August 2012

Wie sicher wird ein Formsignal auf Halt gestellt?

Vor einigen Wochen kam mir die Idee, mich mit moderneren Konzepten der Eisenbahn-Sicherungstechnik zu befassen. Nach einigem Suchen und Lesen am Internet drängt sich mir die Sicht auf, dass dieses Gebiet auch heute noch, 2012, nicht abgeschlossen behandelt ist. Wenn ich Zeit finde, werde ich einige – wie ich meine – interessante Texte zu diesem Thema einmal vorstellen. Vorerst stelle ich mir aber ein Problem, das für die praktische Weiterentwicklung der Sicherungstechnik wohl nicht so relevant ist, mich als (Hobby-)"Sicherungsanlagen-Historiker" aber interessiert: Wie schneiden "alte" Sicherungstechniken ab, wenn sie mit modernen Verfahren beurteilt werden?

Die Idee ist also, Konzepte der Zuverlässigkeitsanalyse auf einige vorhandene Ausschnitte von Sicherungsanlagen anzuwenden und zu sehen, was dabei herauskommt. Wenn man ein kurzes Stück weiterdenkt, merkt man, dass man damit nicht die alten Sicherungsanlagen beurteilt, sondern die Zuverlässigkeitsanalyse und ihre Anwendung einer Probe unterzieht: Denn die alten Anlagen haben ja über mehr als 100 Jahre bewiesen (und beweisen es in vielen Installationen noch heute), dass sie sicher sind. Wenn also eine moderne Analyse etwas anders ergibt, dann muss es entweder ein Problem mit der Analysemethode geben – was eher unwahrscheinlich ist –, oder die Anwendung der Methode war zweifelhaft ... Schauen wir einmal, was herauskommt!

Das grundlegende Problem der Sicherungstechnik ist es, den Nachweis zu führen, dass eine Anlage die Sicherheit des Betriebs erhöht. Auf den ersten Blick sieht das einfach aus: Denn führt nicht jedes Signal, jede mechanische oder elektrische oder elektronische Einrichtung zur Überprüfung z.B. einer Weichenstellung und überhaupt jede Anlage zur Überprüfung und Anzeige von Anlagenzuständen prinzipiell zu einer höheren Sicherheit des Eisenbahnbetriebs? Eine kurze Überlegung zeigt, dass das nicht so ist: Denn gerade diese Anlagen selbst können ja wieder ausfallen, und dann wird der Betrieb, der sich nun auf sie verlässt, unsicherer, als er vorher gewesen wäre. Wenn sich der Betrieb aber nicht auf die Sicherungsanlagen verlassen kann, dann kann man sich die Ausgaben dafür gleich ersparen! Die Kunst des Sicherungsanlagen-Entwurfs besteht also darin, Anlagen von höherer Komplexität zu bauen, die trotzdem weniger anfällig für Fehler sind. Und natürlich verlangt man (durch bestimmte Behörden), dass diese höhere Sicherheit auch nachgewiesen und nicht bloß behauptet wird. So formuliert, ist sonnenklar, dass sowohl Entwicklung (Design) wie Sicherheitsnachweis (Analyse) von Sicherungsanlagen gar nicht einfach sind.

In der klassischen Sicherungstechnik erfolgt der Sicherheitsnachweis bauteile- und ausfallsbezogen: Für jedes Bauteil einer Anlage werden mögliche Ausfälle aufgelistet, und dann wird für jeden dieser Ausfälle einzeln überprüft, dass die Anlage noch immer in einem sicheren Zustand bleibt. Allerdings kann in einer Sicherungsanlage nicht nur ein Ausfall auftreten, sondern es können auch mehrere Bauteile zugleich ausfallen. Und leider ist es klar, dass bei genügend gleichzeitigen Ausfällen keine Anlage mehr sicher ist: Wenn mit einem ausfallenden Teil zugleich immer jene Teile ausfallen, die die negativen Folgen des ersten Ausfalls verhindern, dann kann jede beliebige Katastrophe eintreten. Aus aller Erfahrung wissen wir aber, dass verschiedene Teile kaum zugleich ausfallen, und daher gilt in der Sicherungstechnik im wesentlichen die Regel: Unabhängige Mehrfachausfälle von Bauteilen müssen nicht berücksichtigt werden.

Seit der Einführung von Elektronik, insbesondere seit den ESTWs (elektronische Stellwerke), ist ein bauteilebezogener Sicherheitsnachweis allerdings in der Regel nicht mehr möglich. Denn elektronische Bauteile, vor allem ICs und ihre komplexen Brüder, die Prozessoren, haben beliebig komplexe Ausfallsmodi: Schon auf Hardwareebene alles von "stuck bits" (auf einer Leitung ist plötzlich 0 oder 1 "festgeklebt") über undefinierte Spannungspegel bis zu zufälligen Fehlverhalten. Daher werden nun in der Eisenbahnsicherungstechnik die wahrscheinlichkeitsbezogenen Verfahren salonfähig, die schon in anderen Bereichen wie der Kernenergietechnik oder der Luftfahrt verwendet werden. Ganz grob kann man diese Verfahren in zwei Gruppen teilen:
  • Die risiko-basierten oder prozessorientierten Verfahren versuchen Sicherheit über den Prozess der Anlagenentwicklung zu erreichen – dazu gehören etwa FMEA (failure mode and effects analysis) und FMECA (failure mode, effects and cause analysis).
  • Die zuverlässigkeits- oder produktorientierten Verfahren versuchen Sicherheit anhand von System-Modellen mathematisch zu bewerten. Dazu gehören Fehlerbaumanalyse oder FTA (fault tree analysis), Ausfallratenanalyse und – als "hohe Schule" der Zuverlässigkeitsanalyse – verschiedene Markov-Verfahren. Diese Zuverlässigkeitsverfahren treiben in der Regel einen höheren mathematischen Aufwand. Wie üblich in der angewandten Mathematik muss man aber aufpassen, dass man bei ihrer Anwendung nicht explizite oder implizite Voraussetzungen übersieht und dadurch zwar numerisch genaue, aber praktisch irrelevante Ergebnisse erhält.
Das zentrale Zuverlässigkeitsverfahren, nämlich die Ausfallraten-Analyse, versuche ich im Folgenden auf einige Funktionen mechanischer und elektromechanischer Stellwerke anzuwenden.

Die Ausfallraten-Analyse (manchmal auch einfach als "Zuverlässigkeitsanalyse" bezeichnet) besteht aus zwei Schritten:
  • In einem ersten Schritt wird ein Zuverlässigkeitsblockdiagramm erstellt, das für die zu analysierende Funktion darstellt, welche Einzelelemente des Systems funktionieren müssen.
  • In einem zweiten Schritt wird aus den Zuverlässigkeiten der Einzelelemente die Zuverlässigkeit des Gesamtsystems berechnet.
Anhand eines sehr konkreten Beispiels will ich diese Schritte, aber auch viele dahinterliegenden Annahmen und Probleme bei der Anwendung erklären.

Haltstellen eines Formsignals – einfaches System


Beginnen wir mit dem ersten Punkt. Leider wird die Erstellung der Zuverlässigkeitsblockdiagramme in vielen erklärenden Texten ziemlich unvollständig dargestellt (in mathematischen Texten wird sie dagegen in der Regel präzise erklärt, dafür aber oft so eingebettet in höhere Mathematik, dass man sie danach noch immer nicht anwenden kann). Ich versuche hier, die wesentlichen Punkte herauszuarbeiten.

Ein Zuverlässigkeitsblockdiagramm beschreibt für eine bestimmte Systemfunktion, welche Einzelelemente funktionieren müssen. In einfachen Systemen sind das häufig einfach alle Systemelemente. Hier ist ein Beispiel aus dem täglichen Leben und eines aus der Eisenbahnsicherungstechnik:
  • Damit man eine Lampe einschalten kann, müssen die Elemente Stromversorgung, Schalter, Kabel zur Lampe, Lampenfassung und Leuchtkörper alle funktionieren. Wenn nur eines dieser Dinge "spinnt", dann wird die Lampe nicht leuchten.
  • Damit man ein Formsignal in einem einfach konstruierten mechanischen Stellwerk auf Halt(!) stellen kann, müssen die Elemente Signalhebel, Drahtzugleitung, Signalantrieb und -gestänge bis zum Signalflügel alle funktionieren. "Einfach konstruiert" soll hier bedeuten, dass der Hebel über die Drahtzugleitung direkt mit einem Antrieb verbunden ist, der den Flügel stellt; das System soll vorerst keine Vorkehrungen wie Spannwerke, haltfallende Antriebe oder ähnliches enthalten.
Unser Ziel ist es, festzustellen, dass die Zuverlässigkeitsanalyse ein solches einfaches System tatsächlich ablehnt – das wäre ja schon eine erste Bewährungsprobe!
Als Diagramm werden diese Sachverhalte durch ein "Hintereinanderschalten" dieser Elemente, ein sogenanntes "Serien-System" veranschaulicht – hier am Beispiel des Formsignals:

Photobucket

Allerdings ist die Erstellung schon dieses einfachen Diagramms gar nicht so offensichtlich: Denn woher wissen wir, dass nur die ausgewählten Elemente die Zuverlässigkeit des Haltstellens beeinflussen?

Antwort: Das ist die Kunst der korrekten Modellierung! Eine Methode, sich dessen zu versichern, ist die Aufnahme anderer Elemente aus der Umgebung: Wenn man argumentieren kann, dass diese Elemente die Funktion nicht beeinflussen, dann kann man sie mit gutem Gewissen weglassen (als abnehmende Behörde würde ich aber diese Argumente schriftlich sehen wollen ...). Nehmen wir das Beispiel mit dem Formsignal: Der Hebel wirkt "irgendwie" mit der Verschlusslogik zusammen, also sollte man die vielleicht mit aufnehmen. Die Drahtzugleitung wird an diversen Stellen durch den Oberbau geführt (etwa um Gleise zu unterqueren), also sollten wir den Oberbau auch betrachten; desgleichen eventuell Bahnübergänge, die durch die Drahtzugleitung unterquert werden, und die Fahrzeuge, die sie befahren.

Wenn man in solcher Art und Weise "paranoid" weiterphantasiert, dann kann man beliebige umgebende Systeme mit einbeziehen: Das Gleis samt den Zügen, die sich drauf bewegen und die durch Entgleisungen die Drahtzugleitung oder das Signal zerstören könnten; oder gleich den Luftraum über den Drahtzugtrassen samt den darin herumfliegenden Flugzeugen: Für alle diese Systemelemente lassen sich Fälle finden oder "konstruieren" oder "an den Haaren herbeiziehen", wo durch ihr Fehlverhalten sich das arme Formsignal nicht mehr auf Halt stellen lässt! Dass solche Überlegungen sehr wohl für die Realität relevant sind, zeigt etwa die Aufnahme von Flugzeugen in die Sicherheitsanalysen von Kernkraftwerken. In der Praxis kann man dieses Problem nur lösen, indem man die Wahrscheinlichkeit solcher Vorfälle mit dem Schaden abwägt; und Fälle ignoriert, wo das Produkt der beiden (das "Risiko") unter eine gewisse Grenze fällt.

Da wir uns aber im Bereich der Sicherheitstechnik befinden, geht es hier auch um die Unversehrtheit von Menschen, und insbesondere um den möglichen Tod von Menschen. Wenn man nun eine Risikobewertung durchführen will, muss man den "Schaden" bewerten, der durch Verletzung und Tod von Menschen entsteht. Es hat mannigfaltige Versuche gegeben, diesen "Schaden" in Geld oder einer anderen "objektiven" Größe auszudrücken; doch soviel ich es überblicke, ist sowohl in der Luftfahrt (im "Joint Aviation Standard JAR 25.1309") wie in jüngerer Zeit auch in der Eisenbahnsicherungstechnik eine andere Bewertung üblich:
  • Man postuliert, dass ein Ereignis, bei dem "viele Menschen zu Tode kommen" (eine "Katastrophe"), eine Auftretenswahrscheinlichkeit von höchstens 10–9 pro Stunde haben soll. Als "Stunde" gilt dabei "eine Betriebsstunde eines Transportmittels (Zuges)". Wenn man eine Exponentialverteilung für das Auftreten zugrundelegt (was man für "unerwartete Ereignisse" argumentieren kann), dann bedeutet das eine erwartete Zeit bis zu diesem Ereignis von 109 Stunden oder etwas über 100000 Jahre.
  • Für "gefährliche" Ereignisse mit "einigen Toten" wird eine maximale Auftretenswahrscheinlichkeit von 10–7 pro Reisestunde verlangt.
Hier stand vorher, dass eine "Stunde" die Zeit bedeutet, die ein Passagier am Transport teilnimmt. Das ist aber nicht korrekt: Die Teilnahmestunde eines (einzelnen) Passagiers und die Betriebsstunde eines Beförderungsmittels (mit vielen Passgieren) sind zwei wesentlich verschiedene Werte! Ich hoffe, dass ich es nun korrekt formuliert habe.

Über konservative, aber nicht "lächerlich ängstliche" Erfahrungswerte für die Wahrscheinlichkeit und den Schaden kann man nun abschätzen, ob ein Systemelement in die Analyse aufgenommen werden soll oder nicht. Dass hier natürlich eine gewisse "Willkür" oder, positiv ausgedrückt, "subjektive Verpflichtung zur einer seriösen Entscheidung" eingeht, ist – wie wohl bei allem komplexen menschlichen Handeln – offensichtlich. Darin liegt die Verantwortung derer, die die Sicherheitsanalyse durchführen.

Kehren wir von extremeren Fällen wie abstürzenden Flugzeugen zu Ereignissen zurück, die womöglich realistischer sind:
  • Ein LKW stürzt neben dem Bahnübergang auf die Drahtzugleitung. Dieser Fall kann allerdings stellvertretend für mehrere andere genommen werden: Alleine aufgrund der Länge der Drahtzugleitung kann es an ihr diverse Störungen geben. Wenn wir also das Systemelement "Drahtzugleitung" nicht nur für deren technische Realisierung im engeren Sinne verstehen, sondern im weiteren Sinne für die Leitung samt ihrer Situation in der Landschaft, dann genügt dieses Element für die Zuverlässigkeitsanalyse vieler Fälle – wir werden allerdings ihre Zuverlässigkeit als "nicht mehr besonders hoch" einschätzen müssen, was immer das genau heißt.
  • Das Diagramm oben enthält auch nicht die Verschlusslogik des Stellwerks. Die Argumentation ist, dass es keine Verschlussteile gibt, die ein Haltstellen des Formsignals verhindern, was also eine Eigenschaft der Konstruktion sein muss. Paranoiderweise kann man sich aber vorstellen, dass andere Verschlussteile verbogen oder gebrochen sind und dadurch ein Zurücklegen des Signalhebels verhindert wird. Es ist Aufgabe des entwickelnden Ingenieurs, zu zeigen, dass solche Ereignisse praktisch vermieden wurden, etwa konstruktiv durch entsprechende Auslegung der Verschluss- und anderen umgebenden Teile (sodass sie bei den auftretenden Kräften nicht brechen oder sich verbiegen können), eventuell gemeinsam mit entsprechenden Wartungsanforderungen.
  • Dem Diagramm fehlt noch ein wesentliches Systemelement: Der Mensch, der das Signal auf Halt stellen soll. Ich nehme ihn einmal als viertes zusätzliches Kästchen auf, denn in unserem einfachen System ist (noch?) kein automatischer Haltfall des Signals vorgesehen.
Und dabei belassen wir es einmal: Wir nehmen also an, dass der erfahrene Ingenieur ein System entwickelt (und die Fertigung es genau so gebaut) hat, wo tatsächlich nur die oben genannten vier Systemelemente für das Haltstellen des Formsignals nötig sind:

Photobucket

Bevor wir uns dem zweiten Schritt (der Feststellung der Zuverlässigkeit aus dem Diagramm) widmen, will ich noch einmal betonen, dass es sich bei diesem Diagramm nicht um eine Beschreibung des Systems für alle Funktionen handelt, also um eine vollständige Systembeschreibung: Es handelt sich nur und ausschließlich um eine Beschreibung der nötigen Systemelemente für diese eine Funktion. Nun könnte man meinen, dass man bei Zusammenfassung mehrerer Funktionen zu einer "umfassenden Funktion" immer eine Teilfunktion findet, die alle Systemelemente benötigt. Beispielsweise
  • benötigt man doch für das "Funktionieren, d.h. Ein- und Ausschalten der Lampe" genau die Elemente, die man für das Einschalten alleine benötigt.
  • benötigt man doch für das "Funktionieren, d.h. Fahrt- und Haltstellen des Formsignals" genau die Elemente, die man für das Freistellen braucht: Die Verschlusslogik sowie die oben genannten Elemente für das Haltstellen.
Kann also nicht ein Zuverlässigkeitsblockdiagramm für eine bestimmte, "maximal komplexe Funktion" als Diagramm für die Beurteilung aller Funktionen des Systems dienen? Die Antwort ist "nein", und zwar aus zwei Gründen:
  • Erstens brauchen sich manche Betrachtungen – etwa Sicherheitsbetrachtungen – nur auf wenige Funktionen zu beschränken: Nämlich genau jene, die das System in einen sicheren Zustand überführen. In der Eisenbahnsicherungstechnik sind das typischerweise die Zustände, wo "alles steht", insbesondere alle Signale Halt gebieten. Eine Analyse, die mehr Funktionen betrachtet, ist also in diesem Fall überflüssige Arbeit.
  • Zweitens, und wichtiger, stimmt aber die obige Annahme, dass es eine "maximal komplexe Funktion" gibt, nicht: Die Analyse des realen Systems, durch das ein Formsignal auf Halt gestellt wird, zeigt (wie alle wissen, die es kennen), dass es hier Systemelemente gibt, die nur für die Haltstellung eingebaut sind; und dass es umgekehrt Systemelemente gibt, die nur für die Fahrtstellung relevant sind. Keine der beiden Funktionen ist also insofern "maximal", als dass alle Systemelemente, die ihr zuverlässiges Funktionieren erfordert, auch für die andere Funktion nötig wären.
Daher muss die Erstellung eines Zuverlässigkeitsblockdiagramm tatsächlich für eine bestimmte zu untersuchende Funktion erfolgen.

Haltstellen eines Formsignals – Ausfallratenanalyse


Gehen wir zum zweiten Teil der Zuverlässigkeitsanalyse über, der Berechnung der Ausfallsrate. Wir benötigen dazu eigentlich nur zwei Zutaten:
  • Das Wissen über die Zuverlässigkeit der einzelnen Systemelemente.
  • Zusätzliches Wissen über die Berechnung der Systemzuverlässigkeit aus den Einzel-Zuverlässigkeiten.
Die Zuverlässigkeit der Systemelemente kann man in der realen Welt nur über eine Wahrscheinlichkeitsverteilung angeben. Eine einfache Annahme für verschleißlose Elemente ist dabei eine konstante Ausfallsrate, was zu einer Exponentialverteilung der Ausfälle führt. Diese Verteilung hat einen einzigen Parameter, die Ausfallsrate ?. Allerdings tun sich hier schon mindestens die folgenden fünf Probleme auf:
  • Woher erfährt man die Ausfallraten? Man kann diese Ausfallsraten messen. Das ist für viele elektronische Elemente des öfteren, z.B. durch Hersteller wie Siemens oder durch Anwender wie das amerikanische Militär passiert. Allerdings beziehen sich diese Messungen immer auf bestimmte ausgewählte Bauteile einer bestimmten Technologie-Generation, finden unter bestimmten Umweltbedingungen statt und verwenden verschiedene Systemansätze (z.B. "Messung in Gesamtprodukten im Feldeinsatz" vs. "Messung in Laborsituationen"). Daher sind diese Messungen häufig für einen vorliegenden anderen Anwendungsfall nicht verwendbar.
  • Um die Messungen breiter anwenden zu können, sind mathematische Modelle nötig, um die konkreten Bedingungen zu verallgemeinern. Z.B. muss der Einfluss der Umgebungstemperatur auf die Ausfallsrate bestimmt werden. Dazu gibt es einerseits physikalische Modelle (die etwa die Gitterbewegungen in Kristallen auf das makroskopische Bauteil "umrechnen"), andererseits empirische Modelle (die aus den Kurvenscharen vieler Messungen entsprechende Approximationsfunktionen gewinnen). Die Auswertung dieser verschiedenen Modelle ergibt nun leider weit streuende Ausfallsraten. So sind in einem Vorlesungsskriptum aus dem Jahr 2007 zu "Zuverlässigkeit und Sicherheit" des Institut für Mikrosystemtechnik, Aufbau- und Verbindungstechnik der Albert-Ludwigs-Universität Freiburg Ausfallsraten u.a. für einfache Widerstände und Dioden aus fünf Quellen berechnet; die Ergebnisse schwanken um Faktoren zwischen 10 und 100!
  • Für gewisse komplexe Bauteile (ICs) sind Ausfallsraten einzelner Funktionen überhaupt nicht mehr zu gewinnen.
  • Die Annahme einer konstanten Ausfallrate stimmt für viele Bauelemente nicht, insbesondere wenn Verschleiß vorhanden ist. Dann kann man z.B. die Weibull-Verteilung verwenden, allerdings müssen dann mehrere Parameter bestimmt werden, was umfangreichere Messverfahren und komplexere Modelle zur breiteren Anwendung erfordert.
  • Viele, insbesondere ältere technische Bauteile haben nicht ein "zeitbezogenes Ausfallsverhalten" (im Falle einer Exponentialverteilung also e–?t), sondern ein "betätigungsbezogenes Ausfallverhalten" (im Falle einer Exponentialverteilung also e–?n, wo n die Anzahl der Betätigungen ist). Insofern ist dann der Kehrwert von ? nicht die MTTF (die "Mean Time To Failure" oder auf deutsch "erwartete Zeit bis zum Ausfall"), sondern die MCTF, d.h. die "Mean Cycles To Failure" oder auf deutsch die "erwartete Anzahl von Betätigungen bis zum Ausfall". Wenn man die Gesamtausfallsrate eines Systems mit solchen Bauteilen abschätzen will, muss man die Anzahl der Betätigungen in einer bestimmten Zeiteinheit eruieren und daraus das jeweilige zeitbezogene Verhalten berechnen. Ein Beispiel für solche Bauteile sind Relais, wie etwa auf Seite 327 der Technischen Erläuterungen von Finder-Relais gut erklärt wird. Im Rahmen der Eisenbahntechnik lassen sich Anwendungsfälle finden, wo ein Relais nur einige Male im Monat betätigt wird (z.B. Signalrelais für eine Fahrt auf dem Gegengleis), aber auch Fälle, wo ein Relais pro Tag einige Tausend Male betätigt wird (Blinkrelais eines Schrankens im S-Bahn-Bereich mit einer Schließzeit von drei Minuten). Insofern ist z.B. eine Angabe von 500·10–9 Ausfälle pro Stunde als typische Ausfallrate für Relais im erwähnten Skriptum zumindest zweifelhaft (die Zahl stammt wohl aus der Automobiltechnik – vielleicht ist dort die Streuung der Betätigungszyklen viel geringer).
Für unser Formsignal-Beispiel scheitere ich allerdings vorerst schon am ersten Punkt: Niemand hat meines Wissens die Ausfallraten von Signalhebeln, Drahtzugleitungen, Signalantrieben und Signalgestängen je gemessen, und schon gar nicht statistisch belastbar. Wir könnten ein Forschungsprojekt starten, wo wir die Arbeitsbücher der Signalmeistereien auswerten – tatsächlich würden wir dann aber als nächstes in die anderen oben erwähnten Probleme hineinlaufen.

Ich versuche für meine Versuchsprojekt hier einmal einen anderen Ansatz, nämlich i.w. eine Art "fuzzy logic": Ich reduziere die Ausfallsraten auf zwei "typische konservative Werte":
  • "Fast gar nicht" soll MCTF = 1010 bedeuten, also eine mittlere Anzahl von 1010 Betätigungen bis zum Ausfall. Das erwarte ich z.B. für den Ausfall eines Signalhebels oder des Signalantriebs. Das bedeutet nun natürlich nicht, dass ein einzelner Signalhebel oder Antrieb zehn Milliarden Betätigungen ohne Ausfall erwarten lässt – bei so vielen Betätigungen wären Verschleißvorgänge sicher nicht mehr zu vernachlässigen. Es bedeutet stattdessen, dass bei einer genügend großen Anzahl von Hebeln (z.B. zehntausend, also 104) die Ausfallsrate eben 10–10 je Betätigung ist, also nur ein einziger dieser Hebel nach 1010–4 = 106 = 100.000 Betätigungen ausfällt. Der Ausfall eines Hebels alleine ist sowieso schwer vorstellbar – bricht er ab? klemmt er (nicht die Drahtzugleitung!) so, dass er sich nicht mehr losbrechen lässt? –, daher setze ich diese Zahl an. Bei Signalantrieben bin ich mir da nicht so sicher – siehe das folgende Bild –, trotzdem belasse ich es einmal bei dieser Zahl.
  • "Manchmal" soll MCTF = 108 bedeuten. Das erwarte ich für die Drahtzugleitung, weil sie über einen Kilometer und mehr im Freien arbeiten muss.

Einfahrsignal A, Allentsteig, 1986

Alle diese Zahlen sind, um es noch einmal zu betonen, mehr oder weniger frei erfunden. Wenn man die Zuverlässigkeit der Funktion "Halt-Stellen eines Formsignals" in der Realität bewerten will, muss man sich irgendwoher besser fundierte Zahlen besorgen! Ich, im Rahmen meiner "Studie", arbeite einmal mit diesen Zahlen. Darüberhinaus gehe ich von konstanten Ausfallraten aus. Dieser Punkt ist rein technisch sicher nicht erfüllt: Gerade mechanische Systeme unterliegen Verschleiß. In der Praxis kann man den Verschleiß aber unterdrücken, indem man genügend kleine Wartungsintervalle vorsieht – was ich freundlicherweise annehme. "Schauen wir einmal, wo wir mit diesen Zahlen landen!"

Für unser Zuverlässigkeitsblockdiagramm fehlt nur noch eine Rate: Nämlich die für den Bediener! Allerdings müssen wir hier aufpassen: Die bisherigen Zahlen waren Ausfallraten bzw. MCTF, die für "nicht reparierbare Systeme" gelten. Wir haben implizit angenommen, dass uns nur die Zeit bis zum ersten Versagen interessiert, aber nichts mehr danach. Zumindest einfachere technische Bauteile lassen sich nun in erster Näherung als "nicht reparierbar" modellieren: Wenn sie einmal ausgefallen sind, bleiben sie ausgefallen, bis sie durch ein neues Element ersetzt werden (wobei "neu" auch aufgearbeitete Bauteile umfasst, die ein Hersteller als "wie neu" zertifiziert). Der Mensch, der unseren Hebel bedient, hat aber in der Regel ein anderes "Unzuverlässigkeitsverhalten": Er fällt nicht aus und bleibt dann ausgefallen, sondern er macht zufällig Fehler. Im Sinne der Zuverlässigkeitstheorie könnte man ihn ein "sich selbst reparierendes System mit Reparaturrate nahezu 1" betrachten: Nachdem er mit einer kleinen Wahrscheinlichkeit einen Fehler begangen hat, ist die Chance fast 1, dass er bei seiner nächsten Aktivität keinen Fehler mehr begeht. Um ein Wort dafür zu haben, nenne ich das "Versagens-Verhalten", im Gegensatz zum "Ausfall-Verhalten" technischer Bauteile: Nach einem Versagen ist die Funktion i.d.R. wieder verfügbar, nach einem Ausfall ist sie bis zu einer Reparatur nicht mehr verfügbar.

Wie groß ist nun die Versagenswahrscheinlichkeit des Menschen? In einer Dissertation mit dem Titel "Der Einfluss des menschlichen Faktors auf die Sicherheit der Eisenbahn", die ich (noch) nicht gelesen habe, werden mehrere Wahrscheinlichkeiten angegeben: Für "fertigkeitsbasiertes", "regelbasiertes" und "wissensbasiertes" Verhalten. Ich erkläre diese drei Kategorien nicht genauer, sondern postuliere einfach, dass es sich beim Zurückstellen eines Signals um "fertigkeitsbasiertes", d.h. nahezu "automatisches" Verhalten handelt. Ein passender Wert findet sich auf S.19 der Unterlagen zu einem Vortrag "Der Faktor Mensch im Unfallgeschehen" der österreichischen AUVA: Hier wird dafür der Wert p = 10–3 angegeben. Analog zum Hebel muss man sich wieder darüber im Klaren sein, dass das nicht die Wahrscheinlichkeit dafür ist, dass jeder Signalbediener vergisst, ein Signal zurückzustellen: Sondern es ist ein Mittel über viele Signalwärter; die meisten haben vielleicht Raten von 10–4 oder noch besser, aber einige haben höhere Raten (ich verweise auf meine Geschichte "Nicht alle Bahner sind ok") ...

Wie auch immer, wir haben nun Zahlen für alle unsere Systemelemente, die wir im Diagramm eintragen. Um den Unterschied zwischen Ausfallsrate und Versagensrate im Diagramm zu kennzeichnen, tragen wir in den Kästchen jeweils entweder einen Wert ? (Kehrwert von MCTF) mit der Einheit 1/Betätigung oder eine dimensionlose Versagenswahrscheinlichkeit p ein:

Photobucket

Aus diesen Zahlen wollen wir nun eine Wahrscheinlichkeit dafür berechnen, dass unsere Funktion – das Auf-Halt-Stellen – versagt. Wenn unser System nur aus mit konstanter Rate ausfallenden Komponenten bestehen würde, könnte man – siehe z.B. auf S.5/2 des oben erwähnten Skriptums – die Ausfallsraten einfach addieren (das funktioniert nur bei einfachen Serien-Systemen, aber noch haben wir ja ein solches vor uns). Bei anderen Verteilungen ist das nicht mehr so einfach; höhere Mathematik im statistischen Bereich würde es aber auch dort noch erlauben, allgemeine Aussagen über ein beliebiges Zeitintervall zu berechnen. Das ersparen wir uns aber alles.

Stattdessen berechnen wir die konkrete Wahrscheinlichkeit dafür, dass unsere Funktion nach spätestens einem Jahr versagt hat, weil das viel einfacher ist. Wieso wähle ich gerade ein Jahr? Deshalb, weil ich einmal annehme, dass diese Zeit das Wartungsintervall ist, nach dem ein Signalmeister die Bauteile in Augenschein nimmt (nicht nur ausprobiert, ob alles noch geht!), sodass danach das System "faktisch neu" ist.

Nun haben wir für unsere Systemelemente aber keine zeit-, sondern betätigungsbezogene Kennzahlen. Wir müssen sie also durch eine geschätzte Zahl von Betätigungen je Zeiteinheit in zeitbezogene Werte umrechnen. Das erfordert Wissen über den Eisenbahnbetrieb. In einer Dissertation, die ein äußerst interessantes Verfahren zur Risikobeurteilung im Eisenbahnwesen darstellt, (und die ich, wenn ich Zeit finde, einmal besprechen werde) werden diverse solche Umrechnungen aufgrund von Kennzahlen der DB, wie der Streckenlänge für bestimmte Geschwindigkeiten usw., vorgenommen. Ich nehme hier stattdessen, wie oben für die MCTF-Werte, einmal eine "vorläufige Zahl" von einer Zugfahrt je Stunde und Richtung, die man für eine echte Analyse durch bessere ersetzen müsste. Wir haben also in einem Jahr 365 · 24 = 8760 Fahrten an unserem Signal im Jahr, was ich hemmungslos auf 10000 runde. Die Wahrscheinlichkeiten, dass unsere Elemente nach einem Jahr ausgefallen sind, sind damit:
  • Für den Hebel: 1 – e–10–10 · 10000 ˜ 10–6
  • Für die Drahtzugleitung: 1 – e–10–8 · 10000 ˜ 10–4
  • Für das Signal: 1 – e–10–10 · 10000 ˜ 10–6
Zusätzlich gibt es nun noch die Wahrscheinlichkeit, dass der Mensch versagt, die ich mit 10–3 angesetzt haben. Die Wahrscheinlichkeit, dass "irgendwas nicht mehr geht", ist bei diesen kleinen Werten praktisch die Summe der Wahrscheinlichkeiten, weil Produkte wie 10–4 · 10–6, die wir für gleichzeitige Ereignisse subtrahieren müssten, nahezu verschwinden. Als Ergebnis erhalten wir, dass das Signal mit Wahrscheinlichkeit 1,102 · 10–3 nicht auf Halt gestellt wird – bei der groben Festlegung der Zahlen nähern wir das lieber durch ˜ 1 · 10–3.

Was bedeutet das nun für die Fahrgäste im Zug? Offensichtlich hängt ihre Gefährdung davon ab, an wie vielen Signalen der Zug vorbeifährt – je mehr, desto gefährlicher ist es, wenn einzelne davon nicht auf Halt stehen, obwohl sie es sollten. Wieder müsste man diese Zahl aus den mittleren Signalabständen und aus der Geschwindigkeit eines "mittleren Zuges" berechnen; ich begnüge mich mit einer Abschätzung, dass der Zug in einer Stunde an etwa 10 Signalen vorbeifährt. Das würde zum Beispiel einer mittleren Reisegeschwindigkeit von 30 km/h, einem Bahnhofsabstand von 6 Kilometern und zwei Signalen je Bahnhof (ein Einfahrsignal und ein Ausfahrsignal) entsprechen. Zusätzlich nehme ich noch an, dass jedes fälschlicherweise auf Frei stehende Signal schon einen Unfall bedeutet – davon muss man bei den hohen Geschwindigkeiten und Massen im Eisenbahnbetrieb ausgehen. Es ist ja gerade der Sinn von (Haupt-)Signalen, dass Züge nicht mehr auf Sicht fahren müssen.

Als Gesamtergebnis erhalten wir eine Wahrscheinlichkeit von ˜ 10–3 Ausfälle/Signal · 10 Signale/Stunde = 10–2 Ausfälle/h dafür, dass unser Zug mit Reisenden in einer Fahrtstunde einem Unfall durch ein fälschlicherweise freizeigendes Signal ausgesetzt ist. Das ist so meilenweit von den geforderten 107 gefährlichen Ereignissen je Fahrtstunde entfernt, dass man einen darauf basierenden Eisenbahnbetrieb nur als gemeingefährlich bezeichnen kann. Die Ingenieure damaliger Zeiten haben also mit Recht sich überlegt, wie man die Funktion des Haltstellens eines Hauptsignals absichern kann.

Ich versuche, dem in einem nächsten Posting nachzugehen.

Keine Kommentare:

Kommentar veröffentlichen