Ingmar Weber

Professor für Societal Computing an der Universität des Saarlandes

Die Vermessung der Gesellschaft

Der Informatiker Ingmar Weber entwickelt Methoden zur digitalen Gesellschaftsforschung. Er schlägt die Brücke von der Big-Data-Forschung zu den Sozialwissenschaften: Mit KI-gestützten Werkzeugen hat er die Hand am gesellschaftlichen Puls.

Migration und Pandemien gehören zu den globalen Phänomenen, die aus Sicht von Datenspezialistinnen und -spezialisten nur mit grenzüberschreitenden Ansätzen verstanden und gelöst werden können – per Computing of Society und Computing for Society. Der Informatiker Ingmar Weber beherrscht beides. „Computing of Society ist die Vermessung der Gesellschaft“, sagt der Informatiker. Dazu werden Daten aus der Online-Werbung, aus Social-Media-Plattformen, aus der satellitengestützten Erdbeobachtung ausgewertet.

Bei Computing for Society wiederum rückt die koordinierte Zusammenarbeit mit Partnern in den Fokus, etwa um humanitäre Hilfe zu optimieren. Ohne Informatik und KI kommt Weber hier nicht aus. Sie ist aber vor allem Mittel zum Zweck, auch an seinem Institut: Seit 2023 baut der Mathematiker im Rahmen seiner Humboldt-Professur das Interdisciplinary Institute of Societal Computing (I2SC) an der Universität des Saarlandes in Saarbrücken auf.

Beide Ansätze sind wichtig – und brauchen Künstliche Intelligenz (KI). Denn die digitalen Werkzeuge, die für die Datenanalysen entwickelt wurden, arbeiten mit Methoden des maschinellen Lernens. Ein Beispiel: „Bei Social-Media-Daten verwenden wir maschinelle Klassifizierungsmethoden, etwa um festzustellen, ob ein Tweet für unser Thema überhaupt relevant ist,“ erklärt Ingmar Weber.

KI kommt allerdings auch bei der Auswertung von Satellitendaten ins Spiel. Etwa um aus der Bewegung von Pkws gesellschaftlich relevante Schlüsse zu ziehen. Weber erzählt: „Beispielsweise haben wir untersucht, wo wir in der Ukraine Autos sehen. Zu Kriegsbeginn sind im Osten viele Autos verschwunden, dafür haben wir im Westen mehr Autos gezählt. Wo die Autos verschwinden, verschwinden auch die Menschen. Das heißt, dass viele Menschen aus dem Osten in den Westen der Ukraine geflohen sind.“

Autos können also für große Bevölkerungsbewegungen stehen, wenn auch nicht immer und überall und mit demselben Ansatz. In Venezuela würde diese Methode nicht funktionieren, da die Menschen dort überwiegend andere Verkehrsmittel wählen. Hier setzt Webers Team deshalb lieber auf Signale aus sozialen Netzwerken, wie die Abwanderung von Facebooknutzern von Venezuela nach Kolumbien. Für Irak und Syrien wiederum muss es das KI-Modell anpassen, da es auf europäischen und nordamerikanischen Satelliten-Daten trainiert ist, dort aber zum Beispiel die Straßennetze ganz anders aussehen, um Flüchtlingsströme innerhalb des Landes zu entdecken. Oder um den Algorithmus zu verbessern: Wenn ähnliche Untersuchungen in Irak oder Syrien gemacht werden, darf es keinen europäischen Datenbias geben.

Kommerzielle Daten für gute Zwecke nutzen

Über ein Jahrzehnt lang war Twitter der bevorzugte Social-Media-Dienst der Forschung, da die Tweets in Echtzeit gesellschaftliche Trends widerspiegelten. Seit Elon Musk die Plattform 2022 übernommen hat, änderte sich nicht nur der Name zu „X“. Wissenschaftlerinnen und Wissenschaftlern ist nun auch der Zugang zu den Daten verwehrt, weswegen Werbedaten des Meta-Konzerns nun auch eine Option sind, die auf Nutzungsdaten von Facebook, Instagram und Snapchat basieren.

Die Forschenden agieren dazu wie jemand, der Online-Werbeanzeigen schalten möchte. Weber: „Jeder kann auf die Werbeplattform des Konzerns gehen und sagen: Ich würde gerne eine Werbung schalten für Frauen in Bayern, die sich für Künstliche Intelligenz interessieren. Und dann sagt mir Meta, bevor ich meine Werbung schalte, wie viele der Nutzenden meiner Anfrage entsprechen: Es gibt in Bayern 10.000 Frauen, die sich für Künstliche Intelligenz interessieren. Diese Abschätzung erhält man, bevor man die Werbung schaltet und man bekommt sie daher auch bevor man Geld für die Werbung ausgeben muss.“ Die Anfragen an die Werbeplattform ermöglichen damit eine Art digitaler Volkszählung, mit der man alles Mögliche messen kann. Weber scherzt: „Im Grunde hacken wir so ein bisschen den Überwachungskapitalismus.“

Ergänzt und korrigiert werden die Werbedaten mit Vor-Ort-Umfragen oder auch Auswertungen von Satellitenbilddaten, um einen etwaigen Datenbias zu korrigieren. Die Verwendung der Werbedaten für Forschungszwecke ist allerdings nicht unbedingt nachhaltig, da die abgefragten Werbedaten ohne Zustimmung von Meta nicht veröffentlicht werden dürfen: Das Humanitarian Data Portal etwa musste veröffentlichten Rohdaten, die von einer humanitären Organisation in Kolumbien ins Netz gestellt wurden wieder löschen. „Meta ist sich sowohl der Risiken als auch des Werts der Daten durchaus bewusst und hat bestimmte Mechanismen für deren Nutzung etabliert,“ erklärt Weber.

Wie funktioniert Wissenschaft?

Er selbst hätte sich lange kaum vorstellen können, einmal zu den führenden digitalen Migrationsforschenden zu gehören. „Als Kind wollte ich zwar Forscher werden, habe dabei aber vor allem an die Natur und die Tiere gedacht“, erinnert er sich. „Ich wollte etwas untersuchen, herausfinden. Das hat mich schon immer fasziniert. Mein Vater war sehr naturwissenschaftlich orientiert, das hat mich wohl geprägt.“ Beide Eltern, seine Großeltern und Onkel waren im Lehrberuf. Der Vater starb, als Ingmar Weber 15 Jahre alt war „und so musste ich selbst schauen, was ich machen will, selbst herausfinden, wie Wissenschaft funktioniert.“

Und sich neue Vorbilder suchen: Als der zwei Jahre ältere Bruder nach Cambridge ging, folgte ihm Weber zum Studieren nach, sobald er sein Abitur in der Tasche hatte. Schon in der zwölften Klasse hatte er sich auf ein Stipendium des Cambridge European Trust beworben und umgehend die Zusage erhalten. Weber schrieb sich zunächst in Mathematik und Physik ein, schwenkte dann aber im ersten Studienjahr auf Mathematik pur um: „Experimente messen, Laborberichte schreiben - das mochte ich nicht“.

Die Suche nach dem Unbekannten

Im Mathematikstudium fand Informatik nur am Rande statt. Trotzdem bewarb sich Weber 2003 nach seinem Master um einen Promotionsplatz am Max-Planck-Institut für Informatik in Saarbrücken. In seiner Promotion wandte sich Weber der Suche mit Sternchen zu – oder auch: der Suche nach dem Unbekannten. Weber: „Wenn du weißt, was du suchst, warum suchst du dann? Und wenn du nicht weißt, was du suchst, wie willst du es dann finden?“

Die interaktive Sternchensuche vervollständigt die Suche, während sie noch läuft. Die Herausforderung bestand darin, die Suche nicht nur auf Dateinamen zu beziehen, sondern auf komplette Dokumente. „Man sieht die Suchergebnisse und kann im selben Moment interaktiv mit weiteren Suchvorschlägen durch die entsprechenden Datenstrukturen die Dokumente erkunden“, so Weber. Bei Googles später eingeführter Autocomplete-Funktion stammen die Vervollständigungsvorschläge hingegen aus den Suchhistorien anderer Menschen. Sind also mehr oder weniger sinnvoll und relevant.

Bei Webers Ansatz werden die Vervollständigungen aus den Dokumentinhalten wie den Texten generiert, sind also quasi maßgeschneidert – und damit zielführender. Die wissenschaftliche Informatikdatenbank DBLP nutzt für die Suche nach Zeitschriftenbeiträgen und Proceedings heute noch die Funktion, die Weber in seiner Dissertation entwickelte.

Wie funktioniert „viral“?

Frisch promoviert bewarb sich Ingmar Weber 2007 bei Monika Henzinger. Die Informatikerin hatte von Anfang an zu Googles Entwicklungsteam gehört und zuletzt die Forschungsabteilung geleitet. 2005 war sie zur Eidgenössischen Technischen Hochschule Lausanne gewechselt. Bei Henzinger befasste sich Weber mit Webmining in den neuen Sozialen Medien wie dem Bilddienst Flickr. Er versuchte, „mit Daten von Menschen zu arbeiten“, also mit den Tags, den Schlagwörtern, die Menschen Bildern anheften.

Damals war das Influencer-Marketing noch in den Kinderschuhen, aber es ging ihm um das Prinzip der sozialen Ansteckung, um die digitale Viralität. Weber befasste sich mit den Marken von Kameras: „Mich interessierte, ob jemand von einer Canon zu einer Nikon wechselte, wenn die Freunde auch Nikon nutzten“, erzählt Weber. Tatsächlich konnte er einen sozialen Ansteckungseffekt feststellen.

2010 wechselte Ingmar Weber in die Wirtschaft: zu Yahoo Research in Barcelona, das damals zu den renommiertesten Forschungslaboren im Suchmaschinenbereich zählte. „Dort wurden sehr viele Arbeiten veröffentlicht und auf Konferenzen vorgestellt, fast mehr als an einer Universität“, erinnert sich Weber. „Wir hatten sehr viel Freiheit und ich hatte Zugriff auf sehr, sehr große Datenmengen. Letztlich hat mich das auf die heutige Forschungsschiene gebracht.“

„Nicht nur ein Datenpunkt“

Auslöser war das Arbeiten mit Suchanfragen in Echtzeit – mit einem Schlüsselerlebnis: Weber beobachtete in einem Websearch-Log, wonach Menschen suchen und welche Ergebnisse sie anklicken. Er stieß auf die Suchanfrage einer jungen Frau, deren Yahoo-Konto zu einer Postleitzahl in New York gehörte, die auf einen Stadtteil mit einem hohen Anteil farbiger Bevölkerung verwies. Die Suchanfrage lautete: Wo bekomme ich eine Abtreibung?

Weber: „Mir wurde in diesem Moment klar, dass man über Suchanfragen in das menschliche Dasein blicken kann. Es sind einzelne Datenpunkte, hinter denen sehr viel steckt. So auch hier: Warum hat diese junge Frau diese Suchanfrage gestellt? Welche sozialen Fragen sind damit verbunden? Diese Gedanken haben mich nie wieder losgelassen.“

So fragte er sich, ob demografische Attribute beeinflussen, wonach Menschen suchen - und welche Ergebnisse sie erhalten. „Suchen junge Menschen dieselben Dinge wie alte Menschen? Suchen Menschen in reichen Gegenden dasselbe wie die Bewohner armer Gegenden? Wahrscheinlich nicht. Erhalten sie dieselben Ergebnisse? Wir haben uns das angesehen und gemerkt: All diese Attribute zu Wohnort, Geschlecht und Alter haben einen Einfluss – und das haben wir 2011 veröffentlicht.“/p>

Die Demografie in den Daten

Daraufhin bekam Weber eine Nachricht von Emilio Zagheni , der heute Direktor am Max-Planck-Institut für demografische Forschung (MPIDR) in Rostock ist. Als Postdoc an der City University of New York befasste sich Zagheni mit demografischen Themen. Seitdem war er sehr an Kontakten mit Forscherinnen und Forschern aus der Informatik interessiert, um Migrationsfragen gemeinsam zu bearbeiten. „Im Nachhinein hat die Analyse der demografischen Aspekte der Websuche für mich ein ganzes Forschungsfeld eröffnet: die digitale Migrationsforschung“, sagt Weber im Rückblick. Die Big Data Migration Alliance der Vereinten Nationen griff die Arbeiten von Weber und Zagheni auf.

Mehrere Kollegen von Yahoo Research wanderten in dieser Zeit an das damals neu gegründete gemeinnützige und staatsnahe Qatar Computing Research Institute ab. Auch Weber bewarb sich ebenfalls und konnte dort ab 2012 seine Arbeiten weiterführen. „Das war eine phänomenale Karriere-Chance“, sagt Weber rückblickend. Denn an dem inzwischen weltweit renommierten Institut wurde eine neue Forschungsrichtung auf: das „Crisis Mapping“. Mit Social-Media-Daten werden dabei Krisen in Echtzeit kartiert, um sie besser und schneller zu verstehen: Was ist passiert? Wo wird Hilfe gebraucht? Wichtig für Ingmar Weber: Er konnte in Katar mit UN-Organisationen zusammenarbeiten - ein kommerzieller Nutzen wurde nicht erwartet.

In Saarbrücken setzt Ingmar Weber diese Arbeiten jetzt fort. „Die Humboldt-Professur für Societal Computing ist ein phänomenales Angebot und ich hatte viel Glück“, sagt er. „Anderen Ausschreibungen verlangten als Kerngebiet Informatik: Interdisziplinäre Forschung war möglich, wurde aber nicht explizit gewünscht. Aber so funktioniert interdisziplinäre Forschung eben nicht.“

Mit Emilio Zagheni arbeitet Weber an Migrationsthemen und auch weiterhin werden ihn Flüchtlingsfragen beschäftigen: „Kann man Flüchtlingsströme abschätzen? Wie ist die Lage in Kriegsgebieten? Wir versuchen über digitale Spuren sowie lokale Kontextinformationen rückzuschließen, was passiert, wenn es keine oder keine guten öffentlichen Daten gibt. Aber das ist noch nicht verlässlich genug, um solide Aussagen zu treffen.“ Denn die digitale Erhebungsmethode wird gerade in Krisen oft ausgehebelt – wenn schlicht das Internet in der betroffenen Region nicht mehr funktioniert.

Autorin: Christiane Schulzki-Haddouti
Redigat und Lektorat: Susanne Wedlich