Warum eine eigene Coronavirus-Statistik?

Drei schnelle Antworten vorweg:

  1. Weil ich die Vergangenheit fest­halten möchte
  2. Weil ich die Gegenwart verstehen möchte
  3. Weil ich in die Zukunft blicken möchte

Und dies alles zusammen liefern mir weder die Statistiken der Meldestellen, noch der Medien.

Wie so oft begann bei mir alles mit einer Unzufriedenheit über die Gestaltung der „amtli­chen“ Charts: Schrift, Farbe, Übersichtlichkeit. Bald merkte ich, dass die von den Medien gelie­ferten Statistiken auch meine Fragen nicht beant­wor­teten. Schließlich erwachte der Forschergeist in mir, weil ich mich an die tage­langen Messungen und Kurven während meines Physikstudium erin­nerte, aus denen ich belast­bare Ergebnisse heraus­zu­lesen versuchte.

Die erste Visualisierung der Covid19-Entwicklung, die Anfang März die große Runde im Netz machte, war die schwarze Landkarte mit den roten Luftballons, ins Netz gestellt von der Johns Hopkins University (Baltimore, Maryland, USA): COVID-19 tracking map. Diese und andere Statistiken (zum Beispiel des Robert Koch Instituts) nehmen drei Parameter unter die Lupe: (1) die Anzahl der regis­trierten Fälle, die (2) Summe der Verstorbenen und die (3) Zahl der Genesenen, wobei die beiden letz­teren übri­gens Untermengen von (1) sind, also darin enthalten. Was mir bei diesen Karten fehlte, war der zeit­liche Verlauf.

Leider ist gerade die erste Variable (Fallzahl) die unsi­cherste. Sie basiert auf den Ergebnissen von Tests, die in den einzelnen Ländern sehr unter­schied­lich gehand­habt werden. Weil es die Kapazität des Gesundheitswesens nicht leisten kann, alle Menschen (mit oder ohne Symptome) zu testen, muss eine Auswahl getroffen werden. Flussdiagramme helfen bei der Entscheidung, ob man über­haupt eine Chance auf einen Test hat (hier ein Beispiel auf Zeit Online: Habe ich mich mit dem Coronavirus ange­steckt?).

Die Covid-19 Tracking-Karte der Johns-Hopkins-Universität dient vielen Experten als Datenquelle für die Beobachtung der Coronavirus-Pandemie-Entwicklung

Es ist also davon auszu­gehen, dass weit mehr Menschen mit dem Coronavirus infi­ziert sind, als die statis­ti­sche Zahl der regis­trierten Fälle wieder­gibt. Wie hoch diese Dunkelziffer ist, weiß derzeit niemand. Was aller­dings ziem­lich zuver­lässig gezählt wird, ist die Zahl der Verstorbenen. Die aktuell vergleichs­weise geringe Zahl der Toten in Deutschland (heute 159, bei 33.000 regis­trierten Fällen) weist laut Experten darauf hin, dass in Deutschland mehr getestet wird als zum Beispiel in Spanien (2991 Tote, 42.000 Fälle) oder in den USA (801 Tote, 55.000 Fälle); so lässt sich erahnen, in welchen Dimensionen sich die regis­trierten Fälle dieser beiden Länder tatsäch­lich bewegen müssten … sie stehen noch vor großen Herausforderungen.

Wichtig ist auch zu erwähnen, dass die Zahl der regis­trierten Fälle bezüg­lich des Fortschritts der Pandemie immer ein Blick zurück ist. Das ergibt sich aus der Inkubationszeit des Virus (5 – 6 Tage), plus der Zeit für den Test, das Warten auf das Ergebnis, das Melden an die Gesundheitsämter und deren Veröffentlichung … alles in allem 10, wenn nicht gar 12 Tage.

Warum nehme ich die Daten von Johns Hopkins und nicht die vom Robert Koch-Institut?

Mir fiel von Anfang an auf, dass die Zahlen von Johns Hopkins nicht nur die höheren waren, sondern auch übers Wochenende konstant weiter­liefen, wenn Gesundheitsämter nur spär­lich besetzt sind. Der Grund: Johns-Hopkins-Mitarbeiter suchen und zapfen aktiv öffent­lich zugäng­liche Quellen ab, zum Beispiel die Internetseiten von Gesundheitsbehörden, die Website der WHO, und laut welt​.de „auch eine Community von Medizinern, die Medienberichte und Twitteraccounts von Behörden analy­sieren. Damit geben die Zahlen der Johns-Hopkins-Universität nahezu in Echtzeit das Lagebild wieder.“ So ähnlich würden das auch andere Datensammler machen, zum Beispiel Risklayer. Die WHO-Daten stammten von den natio­nalen Behörden und geben den Datenstand von 10 Uhr mittel­eu­ro­päi­scher Zeit wieder.

Um abschätzen zu können, welche Maßnahmen gegen die Corona-Pandemie sinn­voll sind, benö­tigen Politik und Wissenschaft verläss­liche Daten. Doch wie auch der SPIEGEL gestern fest­stellte: Die Fallzahlen des Robert Koch-Instituts (RKI) hinken der Realität teils mehrere Tage hinterher (Die große Meldelücke). Unser föde­rales System bringt es mit sich, dass in den Bundesländern unter­schied­liche Behörden die Daten erfassen, bündeln und zu verschie­denen Zeiten veröf­fent­li­chen. Generiert werden die Daten in Testlaboren, die Coronafälle inner­halb von 24 Stunden an die örtli­chen Gesundheitsbehörden melden, also Stadt oder Landkreise. „Das geschehe in der Regel per Fax“ zitiert der SPIEGEL einen Behördenmitarbeiter. Daraufhin werden sie händisch in ein digi­tales Meldesystem einge­geben, das sie an die Landesbehörden über­mit­telt. Diese impor­tieren die Fallzahlen in eine Datenbank und senden sie um 15 Uhr an das RKI.

Ich nutze die Zahlen von Johns Hopkins, die ich einer ziem­lich gut gestal­teten und gepflegten inter­ak­tiven Website der Berliner Morgenpost entnehme: Coronavirus Echtzeitkarte. Dort ist auch ein hilf­rei­cher Rückwärts-Schieberegler inte­griert.

Die Spielregeln der Virus-Pandemie

Ich habe mit meiner Statistik vor rund drei Wochen begonnen, als die ersten Maßnahmen beschlossen wurden: ein Fußball-Bundesligaspiel ohne Zuschauer, die Eishockey-Liga brach gerade ihre Saison komplett ab, Berlin schloß alle Opern und Theater, Businesskonferenzen werden reihen­weise abge­sagt und am Abend gab James Blunt sein Konzert in Hamburg vor leeren Rängen. Alles begann mit einer simplen Tabelle, in der ich die aktu­ellen und zurück­lie­gende Fallzahlen und Todesfälle eintrug, für Deutschland und Berlin. Dem hoch geschätzten Podcast von NDR Info Das Coronavirus-Update mit Christian Drosten habe ich an diesem Tag entnommen, dass sich die Epidemie – basie­rend aus den Erfahrungen in China und Italien – nach folgenden 3 Spielregeln ausbreitet:

  1. Die Zahl der gemel­dete Fälle verdop­pelt sich alle 3 Tage
  2. Die Zahl der gemel­deten Fälle ist in 3 Wochen die Zahl der Toten und/oder
  3. Die Zahl der Toten verdop­pelt sich alle 2 Tage

Das ist die Ausbreitungsmathematik für eine unge­bremste Entwicklung des Coronavirus. Und sie verläuft expo­nen­tiell, denn nichts anderes bedeutet multiple Verdopplung: 2 hoch n, oder auch 2ⁿ geschrieben. Es fällt uns Menschen schwer, die Dramatik eines expo­nen­ti­ellen Wachstums zu verstehen. Unser Gehirn kann nur linear. Mancher erin­nert sich viel­leicht an die Anekdote vom indi­schen Kaiser Sheram, der den Erfinder des Schachspieles belohnen wollte, weil er großen Gefallen an dem Spiel fand. Der Erfinder sollte einen Wunsch äußern, worauf dieser sagte: „Händige mir für das erste Feld des Schachbrettes 1 Reiskorn aus, 2 Körner für das zweite Feld, 4 für das dritte und für jedes weitere Feld doppelt so viele Körner wie für das vorher­ge­hende“. Der Kaiser fühlte sich gekränkt, da ihm das Ausmaß des Wunsches noch nicht bewusst war. Als digi­ta­li­sierte Menschen, Freunde des Dualsystems und Käufern von Computern ist uns die Zahlenreihe 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 und 1024 durchaus bekannt und wir wissen daher, dass auf dem 10. Feld des Schachbretts bereits 512 Reiskörner liegen, summiert mit den Feldern davor sind das 1023 Reiskörner. Kurz und gut: die Reiskornzahl des 64. Feldes liegt über 9 Trillionen (eine 19-stel­lige Zahl), die Anzahl der Reiskörner auf allen Feldern ist 20-stellig. Bei 3 g Gewicht pro Reiskorn ergeben sich 540 Milliarden Tonnen Reis, was 873 Jahresernten Reis entspricht. Danke an Jennifer, Theresa, Sabrina, Charlina & Birte von der TU München fürs Ausrechnen (PDF).

Zurück zur Entwicklung der Coronavirus-Fallzahlen in Deutschland. An dem Tag, als ich meine Tabelle begonnen habe (12. März), lag die Zahl der gemel­deten Fälle bei 2.745, drei Tage später bei 5.813, wieder drei Tage später bei 12.327 … ich habe später noch die Woche zuvor erfasst und fest­ge­stellt, dass sich die Zahl der Fälle über zwei bis drei Wochen wie ein Uhrwerk gemäß den Vorhersagen entwi­ckelt hatte.

Das war die Zeit, als Bundesgesundheitsminister Jens Spahn täglich vors Mikrofon trat und sofor­tige Maßnahmen forderte. Was er nicht sagte, aber wusste: Entwickeln sich die Fälle und die Todeszahlen unge­bremst weiter wie bisher, hätten wir in Deutschland am Ende der ersten April-Woche bereits 1 Million gemel­deter Fälle und rund 20.000 Tote. Das sagte mir jeden­falls meine Tabelle, die ich zu dieser Zeit noch nicht mit den April-Zahlen auf Twitter veröf­fent­lichte, sondern nur bis zum 31. März.

Was ich aber tatsäch­lich mit meiner eigenen Tabelle heraus­finden wollte, und das ist keiner mir bekannten Statistik zu entnehmen: Wann und wie stark greifen die Maßnahmen, die zuneh­mend schärfer wurden, bis zur Kontaktsperre vor 3 Tagen? Dazu braucht es nur zwei Kurven (siehe oben), nämlich die unge­bremste und die gemel­dete Entwicklung (vom Fällen und Toden), wobei ich die gemel­deten Zahlen ab jedem Stichtag hoch­rech­nete, mit der gerade geltenden Wachstumsrate. Seit Sonntag liegt die Wachstumsrate unter 2.0 (also keine Verdopplung mehr), aktuell liegt sie bei den Fällen bei 1.5 und bei den Toden bei 1.4.

Meine tägliche Coronavirus-Tabelle für Deutschland und Berlin stellt die bestä­tigten Fälle (blau) und Tode (schwarz) den inter­na­tio­nalen Erfahrungswerten für unge­bremste Ausbreitung gegen­über (grau); in magenta die Hochrechnungen, basie­rend auf den am Stichtag geltenden (gebremsten) Wachstumsraten.

[wird fort­ge­setzt]


12 Kommentare

  1. zwoelfuhrmittags

    Vielen Dank für diese Darstellung! Sowas habe ich auch schon vermisst. Werde regel­mäßig nach Aktualisierungen schauen. Danke auch fürs Weiterbetreiben des RSS-Feeds, sonst hätte ich es nicht gefunden.

    Alles Gute!

  2. pepepeter

    Danke für die Mühe! Echt eine sehr über­sicht­liche und gut struk­tu­rierte Tabelle! Ich bin gespannt auf Updates!

  3. Mat

    In den “confirmed cases” sind auch die Genesenen und die Toten enthalten. Diese müssten aber heraus­ge­rechnet werden um die Wachstumsrate zu bestimmen. Gesunde und Tote stecken niemanden mehr an!

  4. Jürgen Siebert

    Die Erkrankten stecken auch niemanden mehr an, da sie in Quarantäne sind. Die Wachstumsrate der Pandemie basiert auf der Zahl der Erkrankten, einschließ­lich der Genesenen und der Verstorbenen. In einer späteren Phase der Pandemie wird die Zahl der Genesenen und der Immunisierten sehr wichtig werden … ich weiß aber heute noch nicht, auf welche Zahlen ich dann zugreifen kann und wie ich das visua­li­siere.

  5. cp

    Sehr gute Idee, danke!
    Aber müss­test Du jetzt nicht over­loaded Linie anpassen, die ist ja auch anstei­gend, weil immer mehr Betten zur Verfügung stehen und auch andere Maßnahmen getroffen werden?

  6. Jürgen Siebert

    Ja, das mache ich auch schon seit einigen Tagen. Ich habe bei 80k Cases begonnen, inzwi­schen halte ich 120k für eine belast­bare Zahl. Man geht davon aus, dass es bald 30k Betten in Deutschland geben wird (aktuell sind es rund 5000). Trotzdem ist die Grenzlinie sehr schwer zu berechnen, weil zu viele Faktoren eine Rolle spielen:
    • Anzahl der Betten (kann man berechnen, ändert sich aber konti­nu­ier­lich)
    • die echte Zahl der Infizierten (ist unbe­kannt; wir kennen nur die regis­trierten Fälle)
    • die Qualität des Gesundheitswesens (wir wissen nur, dass sie hoch ist in Deutschland)
    • wie hoch wird die Ausfallquote der medi­zi­ni­schen Hilfskräfte sein (unbe­kannt)
    • wie lange dauert die Belegung der Betten (zwischen 5 und 14 Tage)

    Du siehst, es gibt jede Menge Unbekannte für diese Grenzlinie.

    Hier findest Du einen sehr guten, aktu­ellen Beitrag, der sich diesem Thema widmet:
    https://​www​.scien​ce​me​di​a​center​.de/​a​l​l​e​-​a​n​g​e​b​o​t​e​/​f​a​c​t​-​s​h​e​e​t​/​d​e​t​a​i​l​s​/​n​e​w​s​/​a​u​s​l​a​s​t​u​n​g​-​d​e​r​-​i​n​t​e​n​s​i​v​s​t​a​t​i​o​n​e​n​-​z​a​h​l​e​n​-​a​u​s​-​d​e​u​t​s​c​h​l​a​n​d​-​u​n​d​-​e​u​r​o​pa/

  7. Claudia

    Könntest du das viel­leicht fort­führen?
    Aktuell (30.3./ 63.029) liegen wir über 10.000 Fälle unter deiner Prognose, die noch auf 1,5 basierte. Ich weiß nicht, wie ich selbst dn/dn-3 ausrechnen könnte – was ist d und was ist n und warum 3?
    (In Mathe war ich nie gut)

    • Jürgen Siebert

      Ich führe die Statistik täglich fort, Claudia: Einfach den Fontblog von oben lesen. Die beiden Steigerungsraten rech­nest du so aus, dass du die Zahl von vor 3 Tagen (bei den regis­trierten Fällen) und die Zahl von vor 2 Tagen (bei den Toden) durch die amtlich Zahl von heute Abend teilst.

  8. Claudia

    Hab ich gemacht – und gemerkt, dass es wohl umge­kehrt ist: Die Zahl von heute Abend durch die Zahl von vor 3 Tagen teilen.
    Toll, heute nur noch 1,2!

Kommentarfunktion ist deaktiviert.

<em>kursiv</em>   <strong>fett</strong>   <blockquote>Zitat</blockquote>
<a href="http://www…">Link</a>   <img src="http://bildadresse.jpg">