Immer diese Zahlen. Vorsicht ist die Mutter der statistischen Porzellankiste

Am Anfang des Seminars standen Zahlen, während der letzten Wochen, in den die Arbeitsgruppen an ihren Themen gearbeitet haben, gab es gleichsam täglich neue Zahlenlieferungen und die Statistik im Allgemeinen hatte einen kurzen, aber heftigen Höhenflug auch unter Menschen, die ansonsten um Zahlen einen großen Bogen machen – wozu Studierende naturgemäß nicht gehören 😉

Aber es wurde hier in mehreren allgemeinen Beiträgen immer wieder auch darauf hingewiesen, dass man vorsichtig sein muss bei der Verwendung und vor allem der Interpretation der vielen Zahlen und vor allem der mehr oder weniger schönen Abbildungen, mit denen uns die Medien versorgen. Hier hilft die Sell’sche Devise: Erst einmal genau hinschauen, was in der Abbildung (nicht) dargestellt ist. Ein Beispiel aus der Welt der Fallzahlenentwicklung im internationalen Vergleich:

Solche Darstellungen findet man in vielen Medien. Aber dem halbwegs geübten statistischen Auge fällt natürlich sofort auf, dass hier Fallzahlen in einzelnen, allerdings völlig unterschiedlich großen Ländern miteinander in Beziehung gesetzt werden und so allein die Unterschiede in der Bevölkerungsgröße und daraus abgeleitet der Fallzahlen zu einer Verzerrung der Verläufe beitragen kann (und wird). Besser wäre so eine Darstellung:

Quelle der Abbildung: FAZ, 15.07.2020

Hier werden die Unterschiede in der Bevölkerungsgröße dadurch „beseitigt“, dass die Zahl der bestätigten Covid-19-Infektionen mit der Bevölkerungszahl standardisiert wird, also in dem man die Infektionszahlen für alle Länder auf eine Einheit – in diesem Fall je. 100.000 Einwohner – standardisiert und damit auch sehr unterschiedlich große Länder miteinander vergleichbar macht.

Allerdings muss man beim Vergleich der beiden Abbildungen auch wieder aufpassen, ob hier nicht Unterschiedliches miteinander verglichen wird. So ist das dann auch im vorliegenden Fall: In der ersten Abbildung geht es um die täglichen Neuinfektionen, in der zweiten um die Zahl der bestätigten Infektionsfälle. Das sind erst einmal zwei verschiedene Dinge.

Auf alle Fälle kann man die erheblichen Unterschiede beispielsweise zwischen Deutschland auf der einen sowie Länder wie den USA, Brasilien oder auch Schweden auf der anderen Seite erkennen.

Allerdings muss man auch hier wieder berücksichtigen, dass es immer auch eine Frage ist, wie viel getestet wird – und (das haben wir am Anfang hier schon thematisiert) wie zuverlässig die Tests sind. Und die Zuverlässigkeit hängt nicht nur von den Tests an sich ab, sondern auch von der Verbreitung des Virus in der Grundgesamtheit. Dazu dieser Artikel aus Österreich: Sars-CoV-2: Testen, testen, testen – eine Strategie mit Tücken: »Wenn ein Virus in der Bevölkerung kaum verbreitet ist, liefern Tests eher falsch positive Ergebnisse. Flächendeckende Tests trügen so die Statistik.« Bitte lesen – der Beitrag greift zum einen statistische Grundfragen auf, die wir am Anfang des Seminars behandelt hatten (Sie werden sich dunkel erinnern an Begriffe wie Spezifität, Sensitivität und Prävalenz von Testverfahren) und kommt am Ende zu einem weiteren Dilemma, mit dem wir auch hier konfrontiert sind.

Aber wenigsten bei uns in Deutschland ist doch alles gut. Oder?

Schaut man sich die vergangenen Wochen an, dann kann man zugespitzt die öffentliche Diskussion dahingehend zusammenfassen, dass man vor allem darüber gesprochen hat, in welches südeuropäische Land man jetzt wieder fliegen und Urlaub machen kann – sowie die Perspektive, dass mit Beginn der neuen Saison im September auch wieder Zuschauer in die Stadien der Fußball-Bundesliga dürfen. Und ansonsten ist für viele Menschen die Bedrohung nur noch eine abstrakte Angelegenheit und es drängt viele Menschen, sich wieder so verhalten zu können wie vor Corona. Einige problematische Folgen wurden uns im Seminar beispielsweise von der Arbeitsgruppe Polizei und kommunale Ordnungsdienste präsentiert.

Einige andere hingegen haben weiterhin Angst vor den (angeblichen oder tatsächlichen) Gefahren des Virus und/oder sie machen sich Sorgen über eine (möglicherweise) bevorstehende „zweite Welle“. Wie sehen die Zahlen aus, die vom Robert Koch-Institut (RKI) berichtet werden? Bis zum 20. Juli 2020 sah es so aus:

Man kann für den aktuellen Rand der Zeitreihe erkennen: da bewegt sich wieder was. Nach oben. Für den 20. Juli 2020 belief sich die Punktschätzung des RKI auf 686 Neuinfektionsfälle, wir waren bundesweit schon mal deutlich tiefer. Und am 24.07.2020 hat dann das RKI unter der trocken daherkommenden Überschrift Informationen zu gestiegenen Fallzahlen in Deutschland diese gesonderte Pressemitteilung veröffentlicht:

»Die Zahl der neu übermittelten Fälle ist am Freitag, 24.07.2020, mit 815 deutlich höher als in den Vorwochen. Zuvor lag die Zahl bei um die 500 übermittelten Fällen/Tag, zeitweise auch deutlich darunter.
Der Zuwachs ist in vielen Bundesländern zu beobachten, mehr als 60% der neu übermittelten Fälle sind jedoch auf Anstiege in Nordrhein-Westfalen und Baden-Württemberg zurückzuführen. Bundesweit gibt es viele kleinere Geschehen in verschiedenen Landkreisen, die in unterschiedlichen Zusammenhängen stehen, z.B. größeren Feiern im Familien- und im Freundeskreis, Freizeitaktivitäten, Arbeitsplätzen, aber auch in Gemeinschafts- und Gesundheitseinrichtungen. Hinzu kommt, dass COVID-19-Fälle zunehmend unter Reiserückkehrern identifiziert werden.
Die Zahl der täglich neu übermittelten Fälle war in den letzten Tagen bereits angestiegen. Diese Entwicklung ist sehr beunruhigend und wird vom RKI weiter sehr genau beobachtet. Eine weitere Verschärfung der Situation muss unbedingt vermieden werden. Das gelingt nur, wenn sich die gesamte Bevölkerung weiterhin engagiert, z.B. indem sie Abstands- und Hygieneregeln konsequent einhält – auch im Freien, Innenräume lüftet und, wo geboten, eine Mund-Nasen-Bedeckung korrekt trägt.«

Und wie tödlich ist das Virus? Auch hier ein Zahlendurcheinander

Stellvertretend sei hier dieser Artikel aus der Süddeutschen Zeitung vom 24. Juli 2020 zitiert:

Forscher korrigieren Covid-19-Sterbe­raten
Deutschlands Corona-Sterberaten könnten höher sein als gedacht, Italiens tiefer. Dennoch bleiben Unterschiede – und Wissenschaftler rätseln weiterhin über ihre Ursachen.
Von Berit Uhlmann
Es gehört zu den besonders irritierenden Phänomenen der aktuellen Krise, dass sich noch immer nicht exakt bestimmen lässt, wie hoch das Risiko ist, an Covid-19 zu sterben. Je nachdem, in welche Statistik und welches Land man schaut, sieht man enorme Unterschiede. Kambodscha beispielsweise hat noch überhaupt keine Todesfälle gemeldet; im Sudan dagegen lag die Sterberate streckenweise bei fast 30 Prozent. Selbst in relativ ähnlichen Ländern mit funktionierenden Gesundheitssystemen klafft die Letalität, so der Fachbegriff für den Anteil der Gestorbenen an allen Covid-Fällen, weit auseinander.
Auch mit statistischen Korrekturen ist die Letalität etwa in den Niederlanden sehr hoch
So lag der Wert in Italien Mitte April bei 9,2 Prozent, in Deutschland aber nur bei 0,7 Prozent, schreibt ein deutsch-amerikanisches Forscherteam im Fachblatt Annals of Internal Medicine. Dafür kommen viele Gründe infrage, als Hauptfaktor aber gilt das Alter. Hochbetagte sterben sehr viel häufiger an Covid-19 als junge Menschen; ein Land, in dem sehr viele Senioren leben, sollte damit eine höhere Sterberate haben. Wenn in dieser Altersgruppe dann auch noch besonders viel getestet wird, fällt die Sterberate noch höher aus. Auf dem Höhepunkt der Krise in Italien wurden die Abstriche überwiegend bei den Älteren und Kranken in den Kliniken genommen, wie Forscher aus Rom vor einiger Zeit berichteten. Für die Jüngeren, die die Infektion mit Sars-CoV-2 leichter wegstecken, reichten die Testkapazitäten nicht mehr. Diese Gruppe ist damit in der Statistik unterrepräsentiert.
Die Wissenschaftler um Nikkil Sudharsanan vom Heidelberg Institute of Global Health haben diese Effekte nun aus den Statistiken herausgerechnet. Hätte Italien genau die gleiche Altersstruktur wie alle anderen Länder und hätten die Behörden die Infizierten in allen Altersgruppen gleichermaßen identifiziert, würde die Sterberate dort nur 3,9 Prozent betragen. In Deutschland würde sie auf 1,3 Prozent steigen. Das deutet darauf hin, dass Deutschland überproportional viele junge, weniger gefährdete Menschen getestet hat.
Auch diese Werte haben noch Unsicherheiten. Sie beruhen auf Annahmen sowie offiziellen Angaben der Todesfälle, die unvollständig oder uneinheitlich sein können. Dennoch zeigen sie, dass die rechnerische Korrektur die Unterschiede zwischen den Ländern deutlich schrumpfen – aber nicht ganz verschwinden lässt. Staaten wie die Niederlande und Italien haben auch nach der Korrektur noch immer eine zwei- bis dreifach höhere Letalität als Deutschland und die Schweiz. Die Alterseffekte sind damit nur zu etwa zwei Dritteln für die Unterschiede verantwortlich, schreiben die Forscher. Welche Faktoren darüber hinaus eine Rolle spielen, können sie nicht sagen. Möglich sind Unterschiede in der Gesundheit der Einwohner, der Krankenversorgung oder im Gesundheitssystem. Andere Wissenschaftler hatten bereits unterschiedliche Raucherquoten oder die Luftverschmutzung als Erklärungsansätze genannt.
(Quelle: Süddeutsche Zeitung, 24.07.2020)

Das hört bzw. liest sich nicht nur kompliziert und überaus unsicher, es ist es auch.

Bereits die eben nur scheinbar sicheren Bestandszahlen, was die Zahl der Fälle angeht oder die an (oder mit?) Covid-19 Gestorbenen, beinhalten zahlreiche Unsicherheiten, je nach Art und Weise der Erfassung. Man kann sich vorstellen, dass der Grad an Unsicherheit wächst, wenn man dann auch noch mit zahlreichen Annahmen arbeiten muss. Das gilt auch für die Frage: Was wäre gewesen, wenn …

Leben wir heute vom Erfolg dessen, was am Anfang gemacht wurde? Oder war das alles übertrieben?

Es gibt nicht wenige Menschen, die mit Blick auf die derzeitige, in Deutschland (immer noch) entspannte Situation argumentieren, dass es doch gar nicht so schlimm gekommen ist wie am Anfang von vielen scheinbar hyperventilierend angenommen oder behauptet. Und dass die harten Maßnahmen – Stichwort Lockdown – völlig überzogen gewesen sind. Und dass man nun wirklich nicht mehr die ganze weiterhin vorhandenen Verhaltensauflagen einhalten müsste (Stichwort Maskenpflicht).

Möglicherweise, so die andere Seite, haben wir nur deshalb diese Situation, weil man so harte Maßnahmen verhängt hatte und weil sich immer noch so viele Menschen an die Auflagen halten. Die Menschen würden gleichsam Opfer des sogenannten „Präventionsdilemmas“.*

*) In der Literatur taucht in diesem Zusammenhang immer wieder der Begriff „Präventionsparadox“ auf. Dazu diese Erläuterungen: »Das sogenannte Präventionsparadox wurde Anfang der 1980er Jahre vom britischen Epidemiologen Geoffrey Rose am Beispiel der koronaren Herzkrankheiten beschrieben. Es stellt ein grundlegendes Dilemma der bevölkerungs- und risikogruppenbezogenen Prävention und Krankheitsprävention dar. Seine Kernaussage ist: Eine präventive Maßnahme, die für Bevölkerung und Gemeinschaften einen hohen Nutzen bringt, bringt dem einzelnen Menschen oft nur wenig – und umgekehrt.«

Konkret am Beispiel vom Coronavirus (Covid-19) formuliert, lautet das Präventionsparadox wie folgt: „Präventive Maßnahmen, die dass Leben von Risikogruppen (Ältere, Vorerkrankte) schützen, bringen der restlichen Bevölkerung wenig positiven Nutzen.“ Anders formuliert: Menschen, die nicht Teil einer Risikogruppe sind, schränken sich durch Präventionsmaßnahmen (Social Distancing, Zuhause bleiben) ein, um Ältere oder Vorerkrankte zu schützen.

Die Logik hinter dem Präventionsparadox ist folgende:
1. Die Pandemie-Eindämmungsmaßnahmen sind erfolgreich. Weniger Menschen als erwartet erkranken und weniger Menschen als erwartet sterben am Virus. = Die Katastrophe bleibt aus.
2. Also a) (Interpretation 1):
a) Die Maßnahmen waren übertrieben. So schlimm wie befürchtet, ist es nicht gewurden.
b) Wir haben die Lage unter Kontrolle. Krankenhäuser sind nicht überfordert.
c) Die Motivation und Compliance sich weiter an Eindämmungsvorschriften zu halten, sinkt. Das Verständnis für geschlossene Geschäfte sinkt. (Compliance = Bereitschaft aktiv mitzuwirken)
Folge: Wenn Präventionsmaßnahmen gestoppt werden, kann eine Krankheit erneut ausbrechen oder unkontrollierbar werden. (Kann = Konjunktiv!)
3. Also b) (Interpretation 2):
a) Die Katastrophe ist nur ausgebleiben, weil die Maßnahmen so stark („übertrieben“) waren.
b) Damit ist die Lage nur unter Kontrolle, weil die Maßnahmen so „übertrieben“ waren.
c) Wegen 3 a) und 3 b) sollten die Maßnahmen nur langsam gelockert werden.

Das Präventionsparadox und seine Folgen:
➞ Wird eine Katastrophe abgewendet, so wirken Warnungen und Maßnahmen übertrieben.
Schäden, die ausgeblieben sind, sind nicht sichtbar.
➞ Ein Einzelner mag seine Wirkung unterschätzen, aber wenn viele Menschen sich gleichzeitig an Maßnahmen beteiligen, entsteht eine Wirkung von der die gesamte Bevölkerung profitiert.
➞ Eine Risikogruppe wird besser geschützt oder profitiert von präventiven Maßnahmen, wenn möglichst viele Menschen, auch Menschen, die nicht Teil einer Risikogruppe sind, sich an Präventivmaßnahmen halten.
➞ Das Paradox entsteht, weil Menschen sich an Präventivmaßnahmen halten sollen, die ihnen wenig Nutzen bringen.
➞ Ferner steht das Präventionsparadox für das Spannungsfeld zwischen Egoismus und Soldarität.
➞ Das Präventionsparadox steht auch für Risikoscheue (Risikoaversion). Denn ein Risiko wird durch präventive Maßnahmen nicht eingegangen, sondern das Risiko wird sogar gesenkt. (Anmerkung der Redaktion: Hier passt wohl der deutsche Spruch „Vorsicht ist besser als Nachsicht“ ganz gut.)
➞ Da präventive Maßnahmen, dass Risiko an einer Krankheit zu erkranken gesenkt haben, kann nie herausgefunden werden, wie eine Krankheit sich ohne präventive Maßnahmen verbreitet hätte oder wie sie verlaufen wäre.

Das Dilemma der Prävention: Das Präventionsparadox führt dazu, dass eine eigene Gruppendynamik entsteht. Wenn Präventionsmaßnahmen gut funktionieren, entsteht ein Eindruck von Kontrolle und damit ein Gefühl der Sicherheit. Dies führt dazu, dass bisherige Präventionsmaßnahmen (Kontaktverbot, Ausgangsbeschränkungen, Shutdown, Lockdown) als übertrieben wahrgenommen und in Frage gestellt werden. Damit sinkt die Motivation, sich weiter an Eindämmungsmaßnahmen wie Social Distancing zu halten. Außerdem werden Forderung laut, die Präventionsmaßnahmen aufzuheben.

Mit der „Was wäre, wenn …“-Frage haben sich auch Wissenschaftler beschäftigt. Dazu exemplarisch dieser Artikel aus der Frankfurter Allgemeinen Zeitung:

Die Komplexität der „Was-wäre-wenn-Szenarien“
Wissenschaftler haben untersucht, wie die Corona-Pandemie ohne politische Eingriffe verlaufen wäre
Von Sibylle Anderl
Diskussionen über die Angemessenheit der Maßnahmen im Kampf gegen die Covid-19-Pandemie leiden unter einer grundlegenden Asymmetrie: „Wir haben die beispiellosen ökonomischen Kosten der Maßnahmen weltweit gesehen, aber gleichzeitig war ihr Nutzen nicht klar sichtbar“, fasste der am Global Policy Laboratory der Universität Berkeley tätige Wissenschaftler Solomon Hsiang das Problem am Montag zusammen. Er und seine Kollegen veröffentlichten in der Fachzeitschrift „Nature“ nun eine Studie, die dieses Informationsdefizit aufzuheben versucht. Ihr Ansatz dafür: Ökonometrische Modelle. Sie werden üblicherweise dafür genutzt, den Einfluss politischer Maßnahmen auf ökonomisches Wachstum zu bestimmen. In analoger Weise können sie eingesetzt werden, um politische Einflüsse auf das Wachstum von Infektionszahlen zu verstehen.
Die für derartige Studien benötigten Daten liegen mittlerweile weltweit vor. Infektionszahlen sowie Informationen über den Zeitpunkt nationaler Interventionen erlauben, den Verlauf der Pandemie während der vergangenen Monate auf empirischer Basis einzuordnen. Sechs Länder schaute sich das Team aus Berkeley genauer an: China, Südkorea, Italien, Iran, Frankreich und die Vereinigten Staaten. Das Ergebnis der Analyse stimmt für alle dieser Länder überein: „Maßnahmen zur Eindämmung von Ansteckungen haben das Infektionswachstum signifikant und erheblich abgebremst“, heißt es in der Studie. Eine besondere Stärke der Analyse liegt darin, dass sie nicht von unsicheren epidemiologischen Parametern wie der Mortalitätsrate oder der Infektiösität des Virus abhängt: Die Änderungen in der Wachstumsrate werden direkt mit dem Einsatz politischer Maßnahmen in Beziehung gesetzt, ohne festlegen zu müssen, wie ein etwaiger Einfluss genau zustande gekommen ist. Außerdem sind die Resultate von den Einzelheiten der nationalen Test- und Meldepraxis unabhängig, sofern sich diese im betrachteten Zeitraum nicht geändert hat – falls doch, sollten derartige Änderungen allerdings in den Daten identifizierbar und zu berücksichtigen sein, schreiben die Forscher.
Ausgehend von den beobachteten Wachstumsraten der Infektionen vor Beginn politischer Maßnahmen, die in den untersuchten Ländern laut Studie durchschnittlich bei 38 Prozent pro Tag lagen, schätzten die Wissenschaftler, was passiert wäre, wenn keine Maßnahmen ergriffen worden wären. 62 Millionen registrierte Infektionsfälle hätte es demnach bis Anfang April in diesen Ländern gegeben. Diese Schätzung beruht auf umfassenderen Modellannahmen als die Aussagen zur Wirksamkeit der Verhaltensänderungen. Sie bewegt sich aber in der gleichen Größenordnung wie die Ergebnisse einer weiteren Studie, die ebenfalls am Montag in „Nature“ veröffentlicht wurde und sich mit der Wirkung der Interventionen in Europa befasst. Laut dieser zweiten Studie haben allein die europäischen Maßnahmen mehr als drei Millionen Todesfälle verhindert.
Die Ähnlichkeit der Resultate beider Studien ist keineswegs selbstverständlich, denn der Ansatz der Wissenschaftler des Imperial College London um Seth Flaxman ist ein völlig anderer als der ihrer amerikanischen Kollegen: Die Forscher in London gehen von den gemeldeten Zahlen der Covid-19-Verstorbenen aus, um von dort statistisch auf die zu erwartenden Infektionszahlen zurückzurechnen. Dafür nehmen sie an, dass durchschnittlich rund jede hundertste Infektion tödlich verläuft – eine durchaus unsichere Annahme, die aber dadurch gestützt wird, dass die so ermittelten Infektionszahlen mit den Ergebnissen bereits durchgeführter repräsentativer Antikörpertests beispielsweise in Spanien, Österreich oder Dänemark zusammenpassen. Bis zu vier Prozent der Bevölkerung in den elf berücksichtigten europäischen Ländern wären den Berechnungen zufolge im Mai bereits infiziert gewesen – ein Anteil, der von einer Herdenimmunität noch immer weit entfernt wäre.
Aus diesen ermittelten Infektionszahlen leiteten die Forscher den zeitlichen Verlauf der effektiven Reproduktionszahl in den Ländern bis zum 4. Mai ab, den sie daraufhin mit den ergriffenen politischen Maßnahmen vergleichen konnten. Auch dieses Modell liefert eine klare Bestätigung der Wirksamkeit der Interventionen: „In allen beobachteten Ländern sehen wir, dass die Interventionen die Reproduktionszahl auf einen Wert unter eins drücken konnten“, heißt es in der Studie. Ohne Interventionen hätte dies den Berechnungen zufolge ganz anders ausgesehen. Die zusätzlich vorgenommene Modellierung des Szenarios einer ungebremsten Ausbreitung der Pandemie ergab allein für Deutschland 560 000 zusätzliche Todesfälle bis zum 4. Mai. „Die Zahl ist gewaltig, jeder wäre mit dem Verlust geliebter Menschen betroffen gewesen“, sagte Mitautor Samir Bhatt am Montag. Diese Schätzung beruhe zwar auf vielen Annahmen vor der Veröffentlichung der Studie. Angeregt durch die Gutachter, sei aber viel Arbeit investiert worden, die Annahmen kritisch zu prüfen und transparent zu machen.
In Anbetracht der internationalen Struktur der Studien und der Allgemeinheit der genutzten Modelle sind die absoluten Zahlen hypothetisch Infizierter und Verstorbener dennoch mit Vorsicht zu nehmen, zumal „Was-wäre-wenn“-Szenarien komplexer Modelle nicht mit detaillierten Prognosen verwechselt werden dürfen. Dass die Grundaussagen beider Studien zur Wirksamkeit der Maßnahmen belastbar sind, erscheint jedoch sehr wahrscheinlich, zumal sie sich mit Ergebnissen anderer Analysen decken.
Der Berkeley-Forscher Solomon Hsiang zog daraus ein positives Fazit: „Die Welt ist zusammengekommen und hat kollektiv gehandelt. Indem sie wissenschaftliche Erkenntnisse umgesetzt hat, wurden in einem kurzen Zeitraum mehr Leben gerettet als jemals zuvor.“
(FAZ, 10.06.2020)

Keiner hat gesagt, dass sozialwissenschaftliche Forschung einfach ist. Aber das gilt im übrigen auch für die Naturwissenschaften, schauen Sie sich nur einmal den Diskurs der Virologen in den vergangenen Monaten an. So ist das eben, wenn man es mit einem beweglichen Ziel zu tun hat. Und das hier ist wahrlich ein solches:

SARS-Coronavirus-2 (SARS-CoV-2, Isolat SARS-CoV-2/Italy-INMI1). Elektronenmikroskopie, Negativkontrastierung (PTA). Maßstab: 100 nm. Quelle: Tobias Hoffmann, Michael Laue, Robert Koch-Institut (RKI), 2020. SARS-Coronavirus-2 (SARS-CoV-2, Isolate SARS-CoV-2/Italy-INMI1). Negative staining electron microscopy, PTA staining. Scale bar: 100 nm. Source: Tobias Hoffmann, Michael Laue, Robert Koch Institute (RKI), 2020. Quelldatei: #6532_04_SARS-CoV-2_DOG_PTA_CCD_33.tif