16. Oktober 2025 | Serie „Daten (besser) verstehen“
Wie verschiedene Datentypen unsere Welt messen und abbilden

Ob bei der Suche nach einem Job, bei der Auswertung von Anschreiben und Lebensläufen oder bei der Planung der nächsten Dienstreise: Künstliche Intelligenz (KI) trifft zunehmend Entscheidungen und übernimmt Aufgaben, die auch unser Arbeitsleben beeinflussen. Dabei vergessen wir leicht, dass diese Systeme keine objektiven Wahrheiten liefern, sondern nur mit dem arbeiten, was ihnen an Daten zur Verfügung steht.
Wie sehr KI-Systeme dabei auf der Qualität ihrer (Trainings-)Daten beruhen, zeigt sich oft dort, wo sie scheitern. Im Jahr 2019 hatte ein automatisiertes System von YouTube beim Brand der Kathedrale Notre-Dame in Paris fälschlicherweise einen Hinweis zum Anschlag auf das World Trade Center in New York eingeblendet. Ein peinlicher Fehler – aber keiner, der auf die vermeintliche Dummheit der KI zurückzuführen ist. Der Fehler spiegelte vielmehr ein grundlegendes Problem der verwendeten Datenbasis wider: Die KI hatte schlicht zu wenige oder keine Bilder von brennenden gotischen Kathedralen gesehen. In ihrer gelernten Welt ähnelten brennende Türme aus Stein den Bildern des 11. September 2001.
Eine KI ist nie besser als die Daten, mit denen sie trainiert wurde. Verzerrungen und Lücken in diesen Daten spiegeln sich direkt in ihren Ergebnissen wider. Was wir als „Künstliche Intelligenz“ erleben, ist letztlich ein Produkt aus den zugrunde liegenden Daten, welche zuvor gemessen und gespeichert wurden.
Doch diese Erkenntnis ist nicht neu. Schon lange vor dem KI-Boom bestimmten Qualität, Repräsentativität und Reichweite von Daten, wie tragfähig auf ihnen beruhende wissenschaftliche Analysen oder politische Entscheidungen sind. Denn Daten entstehen nicht zufällig, sondern werden auf bestimmte Weise und für einen bestimmten Zweck erhoben. Daher sind Daten nie „perfekt“.
Doch wie werden Daten eigentlich erhoben? Und was bedeutet das für deren Qualität? Daten sind nicht gleich Daten. Grundlegend ist zwischen Befragungsdaten, organischen Daten und administrativen Daten zu unterscheiden – mit jeweils eigenen Stärken und Schwächen. Die drei Datentypen sind eine grobe Kategorisierung und sollen helfen, eine Orientierung in der immer komplexer werdenden Datenwelt zu geben.
Die zentrale Rolle von Messung und Repräsentation
Bei der Frage, wie Daten gemessen werden und was sie abbilden, stützt sich die einschlägige Forschung auf zwei bekannte Konzepte: Messung und Repräsentation.
Das Konzept der Messung bezieht sich darauf, wie Daten erhoben und quantifiziert werden. Es geht letztlich darum sicherzustellen, dass das eingesetzte Messinstrument, sei es ein Fragebogen oder ein automatisiertes System, tatsächlich die Merkmale erfasst, die es erfassen soll beziehungsweise die für die Beantwortung der (Forschungs-)Frage wichtig sind. Diese Messung bildet die Basis für jede weiterführende Analyse und sollte daher möglichst präzise sein.
Wie wichtig es ist, über das Messinstrument nachzudenken, zeigt beispielhaft das bereits 2015 wieder eingestellte Projekt Google-Flu-Trends. Durch die Auswertung von Google-Suchanfragen, die zum Beispiel das Wort „Grippe“ enthielten, konnte Google-Flu-Trends eine Weile lang die Grippehäufigkeit nahezu in Echtzeit prognostizieren.
Doch im weiteren Verlauf wurde deutlich, dass der Ansatz grundlegende Messprobleme aufwies: Denn das Tool maß nicht direkt die Zahl der Erkrankten, sondern lediglich das Interesse am Thema Grippe, das zwar häufig gleichzeitig mit der tatsächlichen Krankheitsverbreitung auftritt (korreliert), zwischen denen aber kein kausaler Zusammenhang besteht.
Zudem führte die Autocomplete-Funktion von Google dazu, dass das Wort „Grippe“ noch häufiger in den Suchvorschlägen auftauchte, was die Anzahl der Suchanfragen zusätzlich nach oben verzerrte. Dadurch schätzte Google- Flu-Trends im Jahr 2013 den tatsächlichen Anteil der Personen mit grippeähnlichen Symptomen in der US-Bevölkerung mit knapp 11 Prozent fast doppelt so hoch ein, wie die Schätzung des Centers for Disease Control and Prevention (CDC) von 6 Prozent zeigt.
Mit Blick auf den Aspekt der Repräsentation stellt sich wiederum die Frage, inwieweit die erhobenen Daten sich tatsächlich auf die Personengruppe beziehen, über die man Aussagen treffen möchte. Ein anschauliches Beispiel liefert die im Mai 2024 von der CDU durchgeführte Umfrage zum Thema Verbrenner-Verbot. Mit der Befragung wollte die CDU belegen, dass die Mehrheit der Bevölkerung für die Rücknahme des ab 2035 geplanten Verbrenner-Verbotes sei. Tatsächlich sprachen sich 85 Prozent der mehr als 60.000 abgegebenen Stimmen gegen eine Rücknahme aus. Die CDU sprach daraufhin von Manipulation.
Offene Umfragen, wie jene der CDU zum Verbrenner-Verbot, die keine Registrierung benötigen, ein polarisierendes Thema zum Gegenstand haben und dann möglicherweise noch über soziale Netzwerke beworben werden, werden nie zu Ergebnissen kommen, die für die Bevölkerung insgesamt repräsentativ sind. Die Ergebnisse werden immer davon abhängig sein, welches politische Lager am ehesten dazu in der Lage ist, seine Anhänger zur Stimmabgabe zu bewegen.
Bei der Repräsentation geht es daher auch nicht darum, möglichst viele Stimmen zu sammeln. Entscheidend ist vor allem, dass die Daten von einer Auswahl von Personen stammen, über die man später Aussagen treffen möchte.
Befragungsdaten: die klassische Erhebungsmethode in der empirischen Sozialforschung
Zunächst zu den Befragungsdaten. Deren Nutzung gilt in der empirischen Sozialforschung als klassischer Ansatz, um Forschungsfragen zu beantworten.
Um von einer kleinen Gruppe von Befragten (Stichprobe) auf eine größere Gruppe zu schließen (Zielpopulation), gilt es in der Praxis als Goldstandard, Personen aus der Zielpopulation zufällig auszuwählen (Zufallsstichprobe). Dieses Vorgehen ist zwar auch nicht fehlerfrei, ermöglicht es jedoch, Fehlerquellen zu beschreiben und in der Datenanalyse zu berücksichtigen beziehungsweise zu korrigieren.
Geschieht dies jedoch nicht, entstehen oftmals Statistiken, die scheinbar die Meinung der Bevölkerung wiedergeben, in Wirklichkeit aber nur die Meinung einer speziellen Gruppe von Personen repräsentieren. Dies gilt zum Beispiel bei Umfragen, die auf Twitter (heute X) durchgeführt wurden. Sie spiegeln generell eher Personengruppen wider, die jünger, männlich und gut ausgebildet sind sowie ein höheres Einkommen haben.
Bei Befragungen ist nicht nur die Auswahl der Personen entscheidend, sondern auch die Frageformulierung, mit der man Meinungen, Einstellungen oder Verhalten misst. Sie sollte klar und unmissverständlich sein, sodass die Befragten die Frage so verstehen, wie sie gemeint ist.
Am 1. Juni 2023 veröffentlichte DIE ZEIT unter der Rubrik „Gute Frage“ eine Statistik mit Antworten auf folgende Frage: „Verzichten Sie in Ihrem nächsten Urlaub auf Flugreisen?“ Aus den Ergebnissen der Befragung wurden Schlussfolgerungen über das Klimabewusstsein der Befragten gezogen: Ja = klimabewusst, Nein = klimaunbewusst. Das Problem: Die Frage setzt voraus, dass der nächste Urlaub als Flugreise geplant ist und gegebenenfalls darauf verzichtet wurde.
Eine Person, die nicht auf eine Flugreise verzichtet, weil sie gar keine für den nächsten Urlaub geplant hat, sagt möglicherweise ebenso „Nein“ wie eine Person, die für ihren nächsten Urlaub eine Flugreise geplant hat und darauf nicht verzichten möchte. Dadurch enthält die Antwortkategorie „Nein“ nicht nur „klimaunbewusste“ Personen, die „trotzdem“ fliegen, sondern zum Teil auch „klimabewusste“ Personen, die für ihren nächsten Urlaub keine Flugreise geplant haben.
Nicht selten wird unterschätzt, wie schwierig es ist, eine Frage so zu formulieren, dass sie tatsächlich das misst, was man wissen möchte. Denn es gibt viele Fallstricke. Zum Beispiel sind die Antworten auf Fragen, die sich auf vergangene Ereignisse beziehen und an die Befragte sich nur schwer erinnern können, oftmals unzuverlässig. Fragt man beispielweise Personen, wie lange sie täglich ihr Smartphone nutzen, unterschätzen die meisten Befragten die Nutzungsdauer systematisch.
Organische Daten: die digitale Spur im Alltag
Während Befragungen zu den klassischen Erhebungsmethoden zählen, gewinnt ein Datentyp in den letzten Jahren zunehmend an Bedeutung: organische Daten. Organische Daten umfassen sämtliche Daten, die im alltäglichen Leben unbewusst oder automatisiert generiert werden, ohne dass sie primär zu Forschungszwecken erhoben wurden. Sie werden von Geräten wie Smartphones, Fitness-Trackern oder auch von Webseiten wie Facebook gesammelt. Durch diese kontinuierliche und oft in Echtzeit erfolgende Datenerhebung entsteht eine schier unerschöpfliche Datenflut, die der Forschung neue Einblicke in das Verhalten und die Interaktionen von Menschen ermöglicht.
Die Messung organischer Daten erfolgt dabei automatisch und ohne direkten Eingriff der Personen, über die die Daten erhoben wurden. Zudem wird etwa ein Klick auf eine Webseite oder die Verweildauer bei einem Online-Jobportal lückenlos erfasst, sodass sehr detaillierte Verhaltensmuster erkennbar werden. So lassen sich Veränderungen und Trends nahezu in Echtzeit beobachten. Beispielsweise konnten Christiane Dauth und Julia Lang in einem aktuellen Beitrag für das IAB-Forum mit Hilfe von Google-Trends-Daten zeigen, wie sich das Interesse an Weiterbildungen während Krisenzeiten entwickelt.
Die Verwendung von organischen Daten kann uns zum Beispiel wertvolle Einblicke in die Arbeitswelt bieten, denn mit ihrer Hilfe lassen sich aktuelle Trends auf dem Arbeitsmarkt ohne größere zeitliche Verzögerung beobachten und Veränderungen im Anforderungsprofil verschiedener Branchen erkennen.
Ein anschauliches Beispiel liefert die Jobbörse der Bundesagentur für Arbeit, auf der Arbeitgeber Stellenanzeigen eingeben. So konnten Michael Stops und Koautorinnen in einem 2022 im IAB-Forum erschienenen Beitrag auf Basis von rund 4,3 Millionen Stellenanzeigen gleichsam in Echtzeit zeigen, welche überfachlichen Kompetenzen Arbeitgeber besonders häufig nachfragen. Demnach steigt die Nachfrage nach überfachlichen Kompetenzen wie Zuverlässigkeit und Teamfähigkeit mit dem Anforderungsniveau und mit der Betriebsgröße.
Eine Schwierigkeit bei der Auswertung von organischen Daten liegt jedoch oftmals darin, relevante von irrelevanten Informationen zu trennen. Das zeigt sich zum Beispiel bei dem Versuch, anhand von App-Nutzungsdaten die berufsbezogene Nutzung von Smartphones zu messen.
Zunächst müsste genau festgelegt werden, welche App-Nutzungen als beruflich gelten und welche nicht, denn viele Apps, etwa E-Mails oder WhatsApp, werden sowohl im beruflichen als auch im privaten Kontext genutzt. Selbst soziale Netzwerk-Apps können je nach Branche unterschiedliche Bedeutungen haben. Im Marketing könnte ein intensiver Gebrauch sozialer Netzwerke als essenziell für den beruflichen Austausch interpretiert werden, während in anderen Bereichen dieselbe Aktivität womöglich als bloßes Privatvergnügen erscheint.
Gleichzeitig stellt die Repräsentation bei organischen Daten eine Herausforderung dar. Denn diese Daten wurden eben nicht gezielt erhoben, um ein bestimmtes Merkmal der Bevölkerung abzubilden. So nutzen bestimmte Bevölkerungsgruppen digitale Plattformen überproportional häufig, andere gar nicht – und können damit auch nicht berücksichtigt werden.
Zudem können organische Daten zwar kostengünstig und in großen Mengen erhoben werden, jedoch erfordern sie häufig aufwendige Verfahren zur Aufbereitung und Interpretation, da sie unstrukturiert vorliegen und erst in ein nutzbares Format überführt werden müssen.
Trotz dieser Hürden bieten organische Daten den unschätzbaren Vorteil, dass sie Verhaltensmuster aufdecken, die mit traditionellen Erhebungsmethoden nur schwer zugänglich wären. So lassen sich zum Beispiel detaillierte Analysen darüber durchführen, welche Jobangebote in bestimmten Regionen besonders häufig angeklickt werden und welche Qualifikationen von Betrieben bevorzugt gesucht werden.
Administrative Daten: die verborgenen Schätze der Verwaltung
Ein dritter Datentyp sind administrative Daten. Diese Daten entstehen im Rahmen von behördlichen Meldeprozessen und werden in der Regel nicht zu Forschungszwecken erhoben, sondern dienen primär der Verwaltung. Ein typisches Beispiel hierfür sind die Daten, die von Arbeitgebern im Zuge der Anmeldung sozialversicherungspflichtiger Beschäftigter oder von Jobcentern bei der Registrierung von Arbeitssuchenden erfasst werden.
Administrative Daten zeichnen sich in der Regel durch eine hohe Messgenauigkeit aus, da sie auf verbindlichen Meldepflichten beruhen. Arbeitgeber sind gesetzlich verpflichtet, ihre Beschäftigten korrekt zu melden, sodass die erhobenen Daten meist sehr präzise sind. Gleichzeitig bieten administrative Daten den Vorteil, dass sie oft nahezu die gesamte relevante Population abdecken. Damit liefern sie eine hervorragende Grundlage für die Analyse von Trends und Entwicklungen.
Das IAB stellt beispielsweise auf Basis administrativer Daten die „Integrierten Erwerbsbiografien“ (IEB) für Forschungszwecke zusammen – selbstverständlich anonymisiert. Die IEB vereinen tagesgenaue, vollständige, historisierte und für die Forschung aufbereitete Prozessdaten zu Beschäftigungszeiten, Zeiten des Leistungsbezugs, Zeiten der Arbeitslosigkeit, Zeiten der Arbeitsuche sowie Zeiten, an denen Personen an arbeitsmarktpolitischen Maßnahmen teilgenommen haben.
Damit kann zum Beispiel die Frage beantwortet werden, inwieweit die Förderinstrumente wie „Eingliederung von Langzeitarbeitslosen“ (EvL) und „Teilhabe am Arbeitsmarkt“ (TaAM) die intendierten positiven Effekte auf die Arbeitsmarktintegration von Langzeitarbeitslosen haben (beispielhaft genannt sei hier ein 2023 im IAB-Forum erschienener Beitrag von Stefan Tübbicke und Zein Kasrin).
Dennoch sind administrative Daten nicht frei von Einschränkungen. Da sie in erster Linie für administrative Zwecke erhoben werden, enthalten sie oft nur die unbedingt notwendigen Informationen und lassen wichtige Zusatzinformationen außen vor, die für wissenschaftliche Analysen von Interesse sein könnten.
Die Integrierten Erwerbsbiografien beispielsweise ermöglichen eine exakte Erfassung der Zahl sozialversicherungspflichtiger Beschäftigter. Allerdings sind informelle Beschäftigungsverhältnisse und (Schein-)Selbstständige nicht erfasst, die in der modernen Arbeitswelt jedoch nicht selten eine wichtige Rolle spielen. Darüber geben uns die Daten also keinen Aufschluss.
Hinzu kommt: Auch scheinbar objektive Statistiken sind nicht immun gegenüber Veränderungen im Erhebungsprozess – im Gegenteil: Schon kleine Anpassungen können große Auswirkungen haben. Ein anschauliches Beispiel liefert die Statistik zum Krankenstand in Deutschland. Über Jahre hinweg bewegte sich der Anteil der krankgeschriebenen Beschäftigten stabil um die 4 Prozent. Im Jahr 2022 jedoch stieg dieser Wert plötzlich auf 5,5 Prozent. In der öffentlichen Debatte wurde dieser Anstieg zum Teil damit erklärt, dass Beschäftigte vermehrt Krankschreibungen als eine Art zusätzlichen Urlaub nutzen würden – ein Vorwurf, der allerdings bei genauerer Betrachtung der Datenerhebung so nicht haltbar ist.
Tatsächlich wurde 2022 ein zentraler Bestandteil des Erhebungsverfahrens geändert. Vor der Reform mussten Versicherte ihre Arbeitsunfähigkeitsbescheinigung – den sogenannten gelben Schein – selbstständig an ihre Krankenkasse übermitteln. Gerade im Krankheitsfall wurde dies jedoch häufig versäumt oder schlicht vergessen.
Seit 2022 übernehmen nun die Arztpraxen diese Übermittlung automatisiert und digital mithilfe der sogenannten elektronischen Arbeitsunfähigkeitsbescheinigung (eAU). Der Prozess ist damit effizienter geworden, Krankmeldungen werden nun vollständiger erfasst. Es werden also nicht plötzlich mehr Menschen krank (oder faul). Vielmehr werden seit 2022 die Daten genauer erfasst als bis dahin.
Fazit
Die Herausforderungen, die sich aus der Nutzung der drei Datentypen ergeben, betreffen nicht nur die Frage, wie Daten gemessen werden, sondern auch, inwieweit sie die Realität abbilden. Daten erscheinen oft als neutrale Grundlage für Entscheidungen, Modelle oder KI-Systeme. Doch sie sind das Ergebnis menschlicher Auswahl, Strukturierung und Interpretation. Je nachdem, wie Daten erhoben wurden, entstehen andere Bilder der Welt – mit anderen blinden Flecken, anderen Verzerrungen, anderen Reichweiten.
Manche Datensätze decken breite Gesellschaftsgruppen ab, andere nur kleine, hochspezialisierte Kontexte. Manche messen Verhalten direkt, andere greifen auf Selbstangaben zurück, wieder andere auf technische Proxys wie Klicks oder Sensorwerte.
In einer Zeit, in der Daten als Grundlage für politische Entscheidungen, KI-Modelle und gesellschaftliche Analysen dienen, ist es essenziell, ein Bewusstsein dafür zu entwickeln, wie Daten erhoben wurden, was gemessen wird und welche Personengruppen die Daten tatsächlich abbilden.
Im Zuge der fortschreitenden Digitalisierung ist es unabdingbar, dass alle Akteurinnen und Akteure – sei es in Wissenschaft, Wirtschaft oder Politik – ein kritisches Verständnis für die Erhebung, Auswertung und Interpretation von Daten entwickeln. Nur so lassen sich irreführenden Schlussfolgerungen vermeiden.
In aller Kürze
- Daten zu verstehen, bedeutet nachzuvollziehen, wie sie erhoben wurden und welche Personengruppen sie abbilden.
- Befragungsdaten sind ein traditioneller Ansatz der Datenerhebung, jedoch anfällig für Verzerrungen durch Frageformulierungen oder Stichprobenauswahl.
- Organische Daten liefern große kontinuierliche Datenmengen, erfordern jedoch viel Kontextwissen und sind selten repräsentativ.
- Administrative Daten sind oft präzise und umfassend, erfassen jedoch nur das, was für Verwaltungszwecke notwendig ist.
Literatur
Butler, Declan (2013): When Google got flu wrong. Nature, 494(7436), S. 155–156.
Bundesamt für Soziale Sicherung (2022): Elektronische Übermittlung von Arbeitsunfähigkeitsbescheinigungen, 28.8.2022.
Dauth, Christine; Lang, Julia (2025): In der Covid-19-Pandemie sank das Weiterbildungsinteresse deutlich. In: IAB-Forum, 12.5.2025.
Fitzenberger, Bernd; Oberfichtner, Michael; Stops, Michael (2023): Neuartige Jobempfehlungssysteme können Suchprozesse am Arbeitsmarkt verbessern. In: IAB-Forum, 18.12.2023.
Stops, Michael; Laible, Marie-Christine; Leschnig, Lisa (2022). Überfachliche Kompetenzen sind gefragt – allen voran Zuverlässigkeit und Teamfähigkeit. In: IAB-Forum, 16.2.2022.
Tübbicke, Stefan; Kasrin, Zein (2023): Teilhabechancengesetz: Die Maßnahme „Teilhabe am Arbeitsmarkt“ erreicht ihre Zielgruppe am besten. In: IAB-Forum, 15.3.2023.
Wojcik, Stefan; Hughes, Adam (2019): Sizing up Twitter users. Pew Research Center.
Bild: Yeasin/stock.adobe.com
DOI: 10.48720/IAB.FOO.20251016.01
Haas, Georg-Christoph (2025): Wie verschiedene Datentypen unsere Welt messen und abbilden, In: IAB-Forum 16. Oktober 2025, https://iab-forum.de/wie-verschiedene-datentypen-unsere-welt-messen-und-abbilden/, Abrufdatum: 16. October 2025
Diese Publikation ist unter folgender Creative-Commons-Lizenz veröffentlicht: Namensnennung – Weitergabe unter gleichen Bedingungen 4.0 International (CC BY-SA 4.0): https://creativecommons.org/licenses/by-sa/4.0/deed.de
Autoren:
- Georg-Christoph Haas