Aufgabe Ⅰ

– Datenquellen und -strukturen –

Führen Sie eine Recherche zum Thema „Big Data in der Pandemie“ durch, bei der Sie sich insbesondere auf folgende Fragen konzentrieren:

Welche Daten sind oder waren im Kontext der Covid-19 Pandemie
relevant?

Gesundheitsdaten wie Infektionsraten, Hospitalisierungsdaten, Sterblichkeitsraten, Impfstatistiken und Patientenakten​.

Genomische Daten Sequenzen des Virus zur Verfolgung von Mutationen und Varianten enthalten​​.

Auch Politik- und Reaktionsdaten zu Maßnahmen wie Lockdowns, Reisebeschränkungen und Abstandsregeln sind entscheidend.

Verhaltensdaten beispielsweise aus Handydaten, sozialen Medien & Umfragen

Welche Merkmale und Ausprägungen haben diese Daten?

Volume: Menge der während der Pandemie erzeugten Daten ist enorm und umfasst Millionen von Datenpunkten aus verschiedenen Quellen weltweit.

Velocity: Daten werden kontinuierlich und oft in Echtzeit generiert und aktualisiert, z. B. tägliche Infektionsraten und Impfaktualisierungen.

Variety: Daten kommen in verschiedenen Formen vor, einschließlich numerischer Gesundheitsdaten, Texten aus sozialen Medien und georäumlichen Daten von Mobiltelefonen​.

Veracity: Die Genauigkeit und Zuverlässigkeit der Daten variiert, wobei offizielle Gesundheitsdaten im Allgemeinen zuverlässiger sind als selbstberichtete Daten aus sozialen Medien​.

Value: Die Daten haben einen hohen Wert, da sie Einblicke in das Pandemiegeschehen ermöglichen und so öffentliche Gesundheitsmaßnahmen sowie politische Entscheidungen unterstützen. Beispielsweise ermöglichten Mobilitätsdaten die Umsetzung Lockdown-Maßnahmen, und Gesundheitsdaten förderten die schnelle Entwicklung und Verteilung (z.B. Priorisierung) von Impfstoffen

Wo werden die Daten erzeugt? Was sind die Datenquellen?

Gesundheitssysteme: Krankenhäuser, Kliniken und öffentliche Gesundheitsorganisationen liefern wichtige Daten zu Infektionsraten, Behandlungen und Ergebnissen.

Mobile Geräte: Standort- und Bewegungsdaten von Smartphones helfen, die Mobilität der Bevölkerung und die Wirksamkeit von Lockdown-Maßnahmen zu verfolgen​, Stichwort “CORONA WARN-APP”.

Soziale Medien: Plattformen wie Twitter bieten Einblicke in die öffentliche Meinung und Verhaltensänderungen während der Pandemie​.​

Regierungs- und Forschungseinrichtungen: Organisationen wie CDC, WHO und Forschungseinrichtungen sammeln und verbreiten umfangreiche Datensätze zu verschiedenen Aspekten der Pandemie​ .

In welcher Form liegen die Daten vor?

Strukturierte Daten: Organisierte Datensätze wie Tabellenkalkulationen und Datenbanken mit Fallzahlen, Impfnachweisen und Testergebnissen.

Unstrukturierte Daten: Textdaten aus sozialen Medien, medizinische Bilder und genomische Sequenzen​.

Semi-strukturierte Daten: Daten wie JSON- oder XML-Dateien von APIs, die Echtzeit-Updates zu Fallzahlen und anderen Metriken bereitstellen.​

Wie oft werden die Daten erzeugt?

Daten werden kontinuierlich generiert, einige Quellen aktualisieren in Echtzeit (z.B. Infektionsraten), täglich (z.B. Fallzahlen) oder wöchentlich (z.B. Mobilitätsberichte).

Wie vertrauenswürdig schätzen Sie die jeweiligen Daten(quellen) ein?

Gesundheitsdaten: Im Allgemeinen zuverlässig, da sie aus offiziellen Quellen stammen und strenger Überprüfung unterliegen.

Mobile und soziale Mediendaten: Weniger zuverlässig aufgrund möglicher Verzerrungen und der selbstberichteten Natur der Informationen.

Regierungsdaten: Variiert in der Zuverlässigkeit je nach Transparenz und Datenverwaltungspraxis.