Der passive Wahlomat – Textmining mit politischen Programmen und Konversationen (Teil 1)

Als ich auf der Big-Data-Konferenz “Strata” in Santa Clara einigen Vorträgen zum Thema Textmining in Datenströmen zugehört habe, ist mir die Idee gekommen, das doch einmal mit politischen Kommunikationen auszuprobieren. Vielleicht ist es möglich, anhand der Wörter, die jemand besonders häufig in seinen Twitternachrichten oder Blogposts verwendet, festzustellen, welcher Partei er oder sie am nächsten steht. Wahrscheinlich kennt jeder die Wahlomaten und politischen Tests, die regelmäßig zu jeder Landtags- oder Bundestagswahl heißlaufen und Wahlempfehlungen ausspucken. Ich frage mich, ob man nicht auch schon aufgrund der öffentlichen Äußerungen auf Twitter solche Empfehlungen aussprechen könnte.

Dazu ist zunächst ein Referenzkorpus notwendig, der die unterschiedlichen Parteiideen repräsentiert. Das könnte man natürlich manuell erstellen und z.B. festlegen, dass das Wort “Eigenverantwortung” für eine gewisse FDP-Nähe spricht, “Solidarität” einem SPD-Profil entspricht und “Open Access” eher einen piratischen Wert darstellt. Das dauert zum einen sehr lange und ist zum anderen eine subjektive Einschätzung. Ein sehr viel schnellerer, weil fast vollständig automatisierbarer, Weg ist die Auswertung der entsprechenden Parteiprogramme. Wenn hier die Werte nicht vorkommen, wo sonst. Also habe ich einmal die 2010er Wahlprogramme für NRW verwendet, um daraus die Worthäufigkeitsvektoren zu errechnen. Ein einfaches Python-Script liest die Parteiprogramme ein (die ich vorher um Seitenzahlen, Inhaltsverzeichnisse und Seitentitel bereinigt habe) und errechnet, wie oft jedes einzelne Wort darin vorkommt.

Dabei kann man schon einen deutlichen Unterschied zwischen den Programmen feststellen: Sie sind unterschiedlich lang …

Grüne 60.347
FDP 39.376
Linke 37.635
SPD 23.904
Piraten 21.800
CDU 8.775

… und sie unterscheiden sich auch in ihrer lexikalischen Vielfalt, d.h. dem Verhältnis von unterschiedlichen Wörtern und der Gesamtzahl der Wörter:

CDU 27,79%
Piraten 26,00%
SPD 23,11%
Linke 21,07%
FDP 20,36%
Grüne 17,38%

Die Rangordnung ist hier genau umgekehrt – logisch: Wer einen so langen Text schreibt wie die Grünen ihr Wahlprogramm, dem gehen irgendwann einmal die neuen Wörter aus und man muss auf einen der schon verwendeten 10.486 Begriffe zurückgreifen.

Jetzt aber zu den Vektoren. Diese sehen in etwa so aus:
piraten_2010.txt,36,2,2,0,0,0,1,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,
0,0,0,0,1,0,1,0,0,1,0,0,1,0,0,0 ...

Jede Zahl steht für die Häufigkeit eines bestimmten Wortes. Mit dem Cosinus-Ähnlichkeitsmaß kann man nun berechnen, wie nah zwei Vektoren beieinander liegen (oder genauer: Wie groß der Winkel zwischen ihnen ist).

Hier das Ergebnis der Berechnungen:

          CDU       FDP       GRU
CDU 0.0000000 0.8736595 0.8847022
FDP 0.8736595 0.0000000 0.9146393
GRU 0.8847022 0.9146393 0.0000000
LIN 0.6898869 0.8065468 0.8468190
PIR 0.6653087 0.8090312 0.8215914
SPD 0.9170037 0.9047183 0.9548909

          LIN       PIR       SPD
CDU 0.6898869 0.6653087 0.9170037
FDP 0.8065468 0.8090312 0.9047183
GRU 0.8468190 0.8215914 0.9548909
LIN 0.0000000 0.8882453 0.8122456
PIR 0.8882453 0.0000000 0.7855856
SPD 0.8122456 0.7855856 0.0000000

Der R-Code dazu lautet:

library(lsa)
e <- as.dist(cosine(t(vectors)),diag=TRUE,upper=TRUE)

Zwei interessante Zahlen aus der Tabelle: Die beiden Programme, die sich gemessen an den Worthäufigkeiten am ähnlichsten sind, sind die Programme von SPD und Grünen. Die beiden unähnlichsten Programme sind die der CDU und der Piraten. Aber auch CDU und Linke liegen nicht wirklich auf einer Linie. Aber das war auch so zu erwarten.

Im nächsten Schritt habe ich die Ähnlichkeitsmatrix in eine Distanzmatrix verwandelt und die Ergebnisse visualisiert:

Die Parteien haben aber natürlich nicht nur ein Wahlprogramm für die NRW-Wahl 2010, sondern auch Programme für die Wahlen in Berlin 2011 und im Saarland 2012. Diese habe ich, sofern verfügbar, auch noch in die Distanzmatrix genommen. Das Ergebnis sieht wie folgt aus:

Man sieht sofort, dass die Wahlkampfprogramme von unterschiedlichen Parteien zu einer einzelnen Landtagswahlen einander zum Teil ähnlicher sind als die Programme einer Partei in unterschiedlichen Landtagswahlen. Die y-Achse beschreibt hier eindeutig das Bundesland. Oben sind die Berliner Programme, in der Mitte die NRW-Programme und unten die Saarland-Programme.

Schwieriger ist es, die x-Achse inhaltlich zu beschreiben. In NRW könnte diese Achse durchaus als "Piratizität" beschrieben werden - mit den Piraten am einen extremen Pol und der CDU am anderen. Interessanterweise scheint dies in Berlin nicht zu gelten. Hier liegt die CDU "piratiger" als die Grünen.



Verwandte Artikel:
  • Die Feed-Malaise
  • Politik in 140 Zeichen
  • Internationale Diplomatie auf Twitter
  • Digitale Stadtentwicklung oder Warum Code for America die Zukunft des digitalen Ehrenamts ist

    Auf Twitter erlebe ich immer wieder merkwürdige Koinzidenzien. Heute Abend zum Beispiel waren zwei meiner Twitter-Freunde in München auf einer Stadtentwicklungsveranstaltung. Unter dem Motto “MitDenken” sind hier die Bürger aufgefordert, sich Gedanken über die Zukunft der Stadt zu machen. Also ein klassischer Bürgerdialog – immerhin mit Onlinefragebogen.

    Parallel dazu wurden auf der US-Konferenz SXSW in Austin, Texas die ersten Ergebnisse des Projekts “Code for America” vorgestellt. Nur ein paar Tweets von den Münchener MitDenkern entfernt, aber trotzdem liegen Welten zwischen den Projekten. Code for America ist eine Initiative mit dem Ziel, ganz praktische Aufgaben und Herausforderungen von Städten auf digitalem Weg zu lösen – mit Hilfe von Apps.

    Das Vorhaben setzt dabei vor allem auf das freiwillige Engagement der digitalen Bürger. Diese werden nicht zum Schneeschippen aufgerufen, aber dazu, eine Crowdsourcing-App zu programmieren “Adopt-a-Hydrant“, die das Freischaufeln von Hydranten intelligent unter den Bürgern verteilt. Eine andere App verzeichnet alle Street-Art-Werke in Philadelphia, könnte aber sehr schnell an andere Zwecke angepasst werden, zum Beispiel wenn es darum geht, die Kunst im Öffentlichen Raum erfahrbar und erlebbar zu machen. DataCouch ist eine Anwendung, die es zum Beispiel Stadtverwaltungen wie auch Bürgern ermöglicht, Datensätze über das Netz zu teilen und in standardisierten Formaten abzurufen, um daraus zum Beispiel weitere Anwendungen zu bauen.

    Hinter dem Vorhaben stecken drei sehr spannende Grundannahmen:

    • Wiederverwertung: Gerade unter kommunalen Sparzwängen (und dies ist eigentlich der Normalzustand) ist es unverantwortlich, dass jede Stadt, jede Gemeinde ihre eigenen Apps bastelt bzw. für viel Geld bei IT-Dienstleistern in Auftrag gibt. Allein, wenn man sich die Webseiten der Kommunen betrachtet, wird schnell deutlich, dass die Vielfalt im Erscheinungsbild der Städte im Web viel größer ist als das immergleiche physische Stadtbild aus “großzügigen Villen im Landhausstil”, 1950er-Jahre-Überbleibseln mit Deutschem Dach gepaart mit brutistischer Dienstgebäudearchitektur. Natürlich ist Vielfalt hübsch, aber nicht wenn sie auf Kosten von Funktionalität, Wartbarkeit und vor allem wichtiger kommunaler Aufgaben geht. Hier kann eine freie und wiederverwertbare Anwendungsinfrastruktur wie “Code for America” sehr sinnvoll sein.
    • Interfacegestaltung: Diesen Punkt hat die Gründerin Jennifer Pahlka vorhin auf ihrem Vortrag in sehr schönen Zitat angebracht: “I believe that interfaces to government can be simple, beautiful, and easy to use.” Warum nicht einmal den Programmiererblick auf die Kommunalpolitik richten. Die städtischen Webseiten, Formulare, Broschüren etc. sind nichts anderes als eine mehr oder weniger gelungene Benutzerschnittstelle für die Politik. Damit bedienen wir die städtischen Funktionen. Warum nicht diesem Aspekt eine Generalüberholung gönnen und dafür sorgen, dass Bürgerbeteiligung sich ähnlich anfühlt wie das Blättern bei Flipboard auf dem iPad? Oder so viel Spaß macht wie das Kommentieren und Posten von Bildern auf Instagram? Oder so produktiv sind wie das gemeinsame Arbeiten an Dokumenten über Dropbox?
    • Digitales Ehrenamt: Ich weiß, Ehrenamt klingt immer viel zu abgedroschen und altmodisch. Man denkt gleich an Rasenmähen im Kindergarten, Kuchenbacken für den Kirchenkaffee oder das Freischaufeln von Hydranten (moment mal?). Bitte nicht falsch verstehen, diese Dinge sind sehr wichtig. Aber warum gibt es so wenige Versuche, den kommenden Generationen der digital natives Möglichkeiten für ein digitales Ehrenamt zu geben? Warum lassen wir die Wikipedianer nicht eine neue Plattform für Ortschroniken schreiben? Warum nicht die jungen Ruby-on-Rails- und Python-Hacker in kommunalen Hackathons eine wiederverwertbare Infrastruktur für kommunale Open-Data-Initiativen entwickeln? Warum nicht die Nachwuchsdesigner und UI-Startups ein elegantes und benutzerfreundliches Interface für die Kommunalpolitik entwickeln?

    Workshops und Ortsbegehungen zur Planung und Verbesserung von Fahrradwegen sind nicht schlecht, sind aber Bürgerbeteiligung im Stil der 1960er/70er Jahre. Wir leben längst in einer digitalen Gesellschaft, also sollten wir auch auf die Fähigkeiten und Kompetenzen ihrer Bewohner zurückgreifen.



    Verwandte Artikel:
  • Quick Response in Spex und Welt
  • Interessante Kriminalprozesse gefällig? Die digitale Bibliothek als Open Content
  • Wenn Social Networks Bundesländer wären …
  • Wie man Shitstorms erkennt und bewertet

    In der letzten Zeit wurde sehr viel über Shitstorms im Web geschrieben und diskutiert. Die zentralen Fragen in den meisten Debatten lauten dabei:

    • Wie gefährlich ist die Flut an kritischen Social-Media-Posts tatsächlich für die betroffenen Marken und Unternehmen?
    • Welchen ökonomischen Schaden nehmen Marken und Unternehmen durch diese verschärfte und oft virale Konsumentenkritik?
    • Wie unterscheidet man einen ausgewachsenen und bedrohlichen Shitstorm von einem Sturm im Wasserglas?
    • Wie erkennt man einen Shitstorm in der Anfangsphase?

    Ich möchte die meteorologische Analogie nicht zu weit treiben. Aber gerade für die ersten beiden Fragen läuft die Debatte viel zu oft in die falsche Richtung. Da hilft der Blick auf Naturkatastrophen: Das schlimmste Erdbeben oder der stärkste Orkan können entweder verheerende Schäden anrichten oder aber spurlos vorübergehen – je nachdem in welcher Gegend sie sich ereignen. Die Versicherer wissen, dass die größten Naturkatastrophen nicht auch die größten Versicherungsschäden zur Folge haben.

    Ganz ähnlich ist es mit den Internet-Shitstorms: Die Indikatoren, die wir hier für die Messung verwenden (z.B. den Viralitätskoeffizienten, den Fail-Quotienten oder dann aggregiert den Krisenindex) beziehen sich nicht auf die Schadenspotentiale für Marke und Umsatz, sondern erst einmal nur auf die “Stärke” der Katastrophe.

    In dem Twittertracking-Tool Brandtweet gibt es seit letzter Woche für das PR-Risikomanagement eine “Shitstorm”-Warnleiste, in der die Marken mit dem höchten Fail-Quotienten abgebildet sind. In Zusammenhang mit dem Buzzverlauf der Sparklines und den Trends lässt sich sehr gut erkennen, ob sich über einer der erfassten 200 wichtigsten Marken in Deutschland gerade ein Internet-Unwetter zusammenbraut: Wenn sowohl der Fail-Quotient als auch das Gesprächsvolumen stark anwachsen, sollten in den PR-Abteilungen die Warnglocken klingeln:

    Ob ein starker Shitstorm auch starke Schäden hervorruft, hängt von vielen Faktoren ab:

    • Verwundbarkeit des Unternehmens
    • Reaktion des Unternehmens
    • Gegenstand der Kritik
    • Involvierte Personen
    • Rechtslage
    • Wirtschaftliche Lage
    • Marktposition
    • Unternehmenskultur

    Während die objektive Stärke von Shitstorms sich mit darauf spezialisierten Methoden und Tools sehr gut beurteilen lässt, steckt die Modellierung und Kartierung der Schadenspotentiale von Shitstorms noch in den Kinderschuhen.



    Verwandte Artikel:
  • Wer vertraut wem? Firmenblogs genießen besonders wenig Vertrauen
  • Deathmatch – das öffentlich-rechtliche Endspiel
  • Virale Kampagnen aus handlungstheoretischer Perspektive
  • Networking auf dem DLD

    Nebenan bei im hübschen Datenblog habe ich mir einmal die Twitter-Diskussionen zur diesjährigen DLD-Konferenz vom Kongressvorabend bis zum heutigen Montag angesehen. Man sieht sehr schön, wie sich die Aufmerksamkeit von Tag zu Tag im Netzwerk verschiebt. Ich bin gespannt, wie sich das zum letzten Tag noch einmal ändert. Außerdem werde ich abschließend auch noch einmal die Twitternachrichten selbst betrachten, um Muster herauszufinden. Das zum Beispiel war der Montag:

    Hier geht’s zum Artikel.



    Verwandte Artikel:
  • Typen digitaler sozialer Netzwerke (Robert Peck)
  • Let’s Mash (Yahoo!)
  • Fugly is the new beautiful (Yahoo! Mash)
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen

    Why then the world’s mine network
    Which I with software will open.

    Der Vorteil einer abstrakten Methode wie der Social Network Analysis ist es, dass sich fast alle Daten, die irgendwie zusammenhängen, als Netzwerk betrachten und analysieren lassen. Das Paradebeispiel sind natürlich die Empfehlungsalgorithmen, die Nutzern von Google, Youtube oder Amazon erzählen, was sie sonst noch interessieren könnte. Überall dort, wo es empfohlene Produkte oder Produkte, die andere Kunden auch gekauft haben, gibt, kann man sehr einfach mit den Methoden der Netzwerkanalyse angreifen. Auf diese Weise wird aus den isolierten Paaren oder Mengen verwandter Produkte eine große Verwandtschaftskarte, auf der nicht nur Beziehungen, sondern auch Muster und Schwerpunkte erkennbar sind.

    Ich habe mir einmal den iTunes-Appstore vorgenommen. Auf jeder (bzw. fast jeder) Downloadseite einer App sind weitere fünf Apps verzeichnet, die überdurchschnittlich häufig gemeinsam mit dieser App heruntergeladen oder gekauft werden. Das Netzwerk springt einem hier förmlich entgegen. Wenn man die 240 beliebtesten Apps der Kategorie Nachrichten auf diese Beziehungen hin erfasst, erhält man folgendes Netzwerk der Nachrichten-Applandschaft (Klick zum Vergrößern):

    Social network visualization of app downloads

    Die Größe der Knoten steht für die Anzahl der Bewertungen der Apps – solange es keinen Zugriff auf die Downloadzahlen der Apps gibt, könnte das eine Annäherung an die Bedeutung oder Verbreitung einer App sein. Die Farbe zeigt die unterschiedlichen Cluster von Apps, die besonders eng miteinander verbunden sind: Links in Hellblau und rechts in Dunkelblau sind zwei Cluster von Nachrichtenapps. Rechts findet man die Zeitungsapps von FAZ, Bild, Süddeutsche, Abendzeitung, Weserkurier etc., während links eher die iPad-Varianten von Onlineportalen wie Spiegel, Focus Online, Süddeutsche.de zu finden sind. Oben in Violett ist ein kleines Cluster von redaktionsunabhängigen Newsaggregatoren wie Pulse, Flipboard oder Reeder. Ganz rechts liegt Österreich, während im Süden die Türkei zu finden ist. Dazwischen ein Applecluster mit Apfeltech und Macwelt. Ganz im Norden ist das Review-stärkste Cluster von Nachrichtenaggregatoren und App-Nachrichten-Apps, das von MeinProspekt dominiert wird.

    Die Apps mit den meisten Reviews in dieser Karte sind:

    1. Mein Prospekt XL – 39.382 Reviews
    2. n-tv iPhone edition – 16.140 Reviews
    3. DER SPIEGEL eReader – 12.759 Reviews
    4. FOCUS Online – 10.300 Reviews
    5. DIE WELT – 9.312 Reviews
    6. Flipboard – 6.394 Reviews
    7. BILD HD – 5.722 Reviews
    8. Tagesschau – 5.705 Reviews
    9. NYTimes – 5.533 Reviews
    10. AppTicker Push – 5.524 Reviews

    In dieser Aufzählung fehlt die normale Version von BILD mit 24.146 Reviews, die ein isolierter Knoten ist, da für diese App keine verwandten Apps angegeben sind und auch keine der anderen Apps auf sie verweist – eine echte Anomalie, die ich mir im Moment nicht erklären kann.

    Interessant ist auch der Blick auf die Anzahl der eingehenden Links, d.h. welche Apps besonders häufig als verwandte Apps genannt werden. Der Durchschnitt liegt bei 2,3.  Hier sieht die Liste ganz anders aus:

    1. The Wall Street Journal – 51 Nennungen
    2. AppAdvice – 45 Nennungen
    3. Blastr – 40 Nennungen
    4. NPR for iPad – 39 Nennungen
    5. Flo’s Weblog – 27 Nennungen
    6. eGazety Reader – 27 Nennungen
    7. ??-??? ????? a – 25 Nennungen
    8. SAPO News – 23 Nennungen
    9. DVICE – 20 Nennungen
    10. DER SPIEGEL – 18 Nennungen

    Dieselben Apps erhält man bei der Berechnung des PageRank, d.h. der Wahrscheinlichkeit, beim Abwandern des Netzwerks zufällig auf die verschiedenen Apps zu stoßen. Die Anzahl der Verbindungen zwischen den Apps, also der Vernetzungsgrad ist relativ niedrig, da für jede App nur jeweils 5 verwandte Produkte angezeigt werden – insgesamt sind die 451 Knoten durch 1.055 Kanten verbunden.



    Verwandte Artikel:
  • Kein Besucher bleibt ewig! Zeitungen sollen sich nicht neu erfinden, sondern das Verlinken lernen
  • Zeitungen springen auf den Web 2.0-Zug auf
  • Immer mehr Deutsche lesen Nachrichten im Netz – was macht der Rest im Internet?
  • Der Aufstieg der Datenwissenschaftler

    Eines der wichtigsten Buzzwords im Marktforschungs- und Wissenschaftsjahr 2012 ist mit Sicherheit “Big Data”. Sogar die Zukunft eines Intenretriesen wie Yahoo! wird auf diese Frage zugespitzt: Wie hältst du es mit den großen Daten (dazu auch lesenswert das AdAge-Interview mit dem neuen CEO Scott Thompson)?

    Auf den ersten Blick ist das Phänomen, das sich dahinter verbirgt, nichts neues: es gibt riesige Mengen an Daten, die darauf warten, analysiert und interpretiert zu werden. Diese Datenberge gab es früher auch schon – man denke nur an die gewaltigen Kundentransaktionsdaten, die klassischen Webzugriffslogs oder die Himmelsdaten aus den Observatorien.

    bigdata_network

    Besonders spannend sind folgende Entwicklungen und Dimensionen des Big-Data-Phänomens:

    Demokratisierung der Technik: Zum einen sind die Werkzeuge, um Datensätze in Terabytegröße zu analysieren, mittlerweile demokratisiert. Jeder, der ein paar alte Rechner im Keller stehen hat, kann daraus ein leistungsfähiges Hadoop-Cluster aufbauen und damit in die Analyse großer Daten einsteigen. Die Software, die man für Datenerfassung, Speicherung, Analyse und Visualisierung benötigt, ist größtenteils frei verfügbare Open-Source-Software. Wer zu Hause keine Rechner herumstehen hat, kann sich die Rechenzeit bei Amazon kaufen.

    Ein neues Ökosystem: Mittlerweile hat sich hier eine lebendige Bastlerszene der Big-Data-Hacker entwickelt, die an den verschiedenen Big-Data-Technologien arbeitet und in Präsentationen und Aufsätzen die unterschiedlichen Anwendungsszenarien demonstrieren. Wenn man sich die Biographien der Big-Data-Community ansieht, fällt aber auch, dass man es sehr viel weniger mit Forschergruppen an Universitäten zu tun hat, sondern um Wissenschaftler (“data scientists”), die in den großen Internetunternehmen wie Google, Yahoo, Twitter oder Facebook arbeiten. Das ist zum Beispiel bei der Python-Entwicklergemeinde oder der R-Statistikercommunity anders. Im Augenblick sieht es sogar so aus, als verliefe der typische Karrierepfad an der US-Westküste weg von den Internetgiganten und hin zu neuen Big-Data-Startups.

    Visualisierung von Netzwerken: Die visuelle Darstellung der Daten ist mittlerweile fast wichtiger geworden als klassische statistische Methoden, die nach Kausalitäten suchen. In diesem Zusammenhang hat auch die Netzwerkanalyse wieder stark an Bedeutung gewonnen. Fast alle soziale Phänomene und großen Datensätze von Venture Capitalists bis Katzenbildern können als Netzwerke visualisiert und exploriert werden. Auch hier spielen Open-Source-Software und offene Datenschnittstellen eine große Rolle. Programme wie die Netzwerkvisualisierungssoftware Gephi können sich in naher Zukunft direkt mit den Schnittstellen (APIs) der Plattformen Facebook, Twitter, Wikipedia oder Google verbinden und die abgerufenen Daten gleich weiterverarbeiten.

    Neue Fähigkeiten und Stellenbeschreibungen: Eines der heißesten Buzzwords in der Big-Data-Szene ist der “Data Scientist”, der jetzt in klassischen Unternehmen genauso wie in Internetunternehmen für die Erhebung und Auswertung der anfallenden Daten sorgen soll. Auf Smart Planet habe ich eine gute Beschreibung der Fertigkeiten dieser “Datenjobs” gefunden: 1) Die Systemadministratoren, die sich mit Aufsetzen und Wartung der Hadoop-Cluster befassen und sicherstellen, dass der Datenfluss nicht gebremst wird. 2) Die Entwickler (oder “Map-Reducer”), die Anwendungen entwickeln, mit denen die Daten aus den Datenbanken abgerufen und verarbeitet werden. 3) Die eigentlichen Datenwissenschaftler oder Analysten, deren Aufgabe es ist, mit den Daten Geschichten zu erzählen und aus ihnen Produkte und Lösungen zu entwickeln. 4) Die Datenkuratoren, die für die Qualitätssicherung und Verknüpfung der Daten zuständig sind.

    Um einen besseren Eindruck davon zu gewinnen, wie sich die Big-Data-Community selbst sieht, habe ich die Twitter-Kurzbiographien der 200 wichtigsten Big-Data-Analysten, -Entwickler, -kaufleute einer Netzwerkanalyse unterzogen: Ich habe die Kurztexte in ein Netzwerk transformiert, in dem die Begriffe die Knoten darstellen und gemeinsame Erwähnungen in einer Twitter-Bio die Kanten. Das heißt, jedes mal, wenn jemand in seiner Bio “Hadoop Committer” stehen hat, gibt es in dem Netzwerk eine neue Kante zwischen “Hadoop” und “Committer”. Insgesamt besteht dieses Netzwerk aus knapp 800 Begriffen und 3200 Verbindungen zwischen den Begriffen. Das Netzwerk habe ich dann auf ca. 15% des Umfangs reduziert, indem ich mich auf die am häufigsten verwendeten Begriffe konzentriert habe (z.B. Big Data, Founder, Analytics, Cloudera, Apache, Committer, Hadoop, Computer). Das mit Gephi visualisierte Ergebnis ist oben zu sehen.



    Verwandte Artikel:
  • No related posts
  • Der Kontextvektor des Bundespräsidenten

    Vor Jahren hatte ich an dieser Stelle schon über die große Bedeutung der gespeicherten Google-Suchanfragen als “Datenbank der Wünsche” geschrieben. Die Begriffe, die Menschen in das Google-Eingabefeld schreiben, spiegeln sehr genau ihre Wünsche wider – sowohl die offen kommunizierten als auch die geheimen.

    Als Nebenbemerkung: Man könnte vermuten, dass Menschen mittlerweile ehrlicher zu ihrer Suchmaschine sind als zu ihren engsten Verwandten. Insofern sollte man intensiv über eine besondere Sorgfaltspflicht und einen besonderen Schutz dieser Daten nachdenken. Vielleicht gibt es bald neben der ärztlichen und der anwaltlichen Schweigepflicht auch so eine Art “Suchmaschinengeheimnis”, das garantiert, dass, was wir in einer Websuche über uns offenbaren, nicht in falsche Hände gerät.

    Neben dieser besonderen Vertrauensstellung dieser Datenbanken, beeindruckt vor allem das hier sekündlich anfallende Wissen. Dadurch, welche Begriffe gemeinsam eingegeben werden, und welche überhaupt nicht, oder dadurch, welche Treffer dann tatsächlich angeklickt werden, und welche überlesen werden, entsteht eine Wissensdatenbank, die vielleicht sogar größer als die Wikipedia ist, da sie sich viel schneller ändert. Die Assoziation von “Bundespräsident” und “Anrufbeantworter” dürfte zum Beispiel ein sehr junges Phänomen sein. Ja, wenn es um diese aktuellsten Phänomene geht, scheinen die Algorithmen von Google sogar die Rolle eines politischen Beraters einzunehmen, der dem amtierenden Staatsoberhaupt Handlungsempfehlungen gibt:

    Der Algorithmus schlägt den Rücktritt des Präsidenten vor

    Der Algorithmus schlägt den Rücktritt des Präsidenten vor

    Diese scheinbare Empfehlung entsteht schlicht daraus, dass diese beiden Begriffe in den letzten Tagen, Stunden besonders häufig gemeinsam in Suchabfragen verwendet wurden bzw. besonders häufig gemeinsam in Webseiten auftauchen. Diese überdurchschnittliche gemeinsamen Vorkommen (oder: Kollokationen) verwandeln die Suchmaschine aber gleichzeitig in eine neue Art von Wissensspeicher. Anhand der Struktur der sekündlich eingehenden Suchabfragen (bei Google waren es laut ComScore allein in den USA im November 13 Milliarden Abfragen) können Maschinen sehr viel darüber lernen, wie wir Menschen Begriffe und Wissen organisieren.

    Eine praktische Anwendung dieses Wissensspeichers habe ich in einem schon etwas älteren, aber einflussreichen Paper (Google Scholar zählt 246 Zitationen) der beiden Google-Mitarbeiter Mehran Sahami und Timothy D. Heilman “A Web­based Kernel Function for Measuring the Similarity
    of Short Text Snippets
    “. Darin geht es um das Problem, die inhaltliche Ähnlichkeit von sehr kurzen Textschnippseln zu erkennen. Da es sich hierbei nur um wenige Wörter handelt, versagen klassische Methoden des Textminings wie zum Beispiel das Kosinus-Ähnlichkeitsmaß. Die Anzahl der Datenpunkte ist schlicht zu klein, um Aussagen über die Ähnlichkeit zu treffen.

    Die Google-Wissenschaftler verwenden die Suchtreffer, die eine Suchmaschine wie Google auswirft, wenn man sie mit den Textschnippseln füttert, als Kontext-Vektor, mit dem sie dann die Übereinstimmung berechnen können, da er nun nicht mehr wenige Worte umfasst, sondern ein großer Corpus aus hunderten Dokumenten bzw. 1000-Zeichen langen Ausschnitten daraus darstellt. Das von ihnen beschriebene Verfahren stellt z.B. zwischen “Steve Ballmer” und “Microsoft CEO” eine Übereinstimmung von 0.838 fest, während das Kosinusmaß hier auf einen Wert von 0 gekommen wäre. Auch zwischen dem früheren CEO “Bill Gates” und “Microsoft CEO” gibt es eine Ähnlichkeit von immerhin 0.317 – aber auch seine korrekte Beziehung zu Microsoft findet dieses Maß heraus: “Bill Gates” und “Microsoft Founder” erzielt 0.677.

    Abb. aus Sahami/Heilman (2006), S. 4

    Abb. aus Sahami/Heilman (2006), S. 4

    Der erste Anwendungsfall dieses Verfahrens, der hier in den Sinn kommt, sind natürlich die automatischen Vorschläge bei Suchabfragen. Insofern ist das oben beschriebene Wulff-Beispiel also nicht unbedingt eine politische Handlungsempfehlung, sondern das Ergebnis des Vergleichs von Kontextvektoren.



    Verwandte Artikel:
  • Der Appstore als Netzwerk – Newsreader, Newsportale und digitale Zeitungen
  • Katzenbilder sind der Kitt der Gesellschaft – oder: Die drei Arten von Information im Internetzeitalter

    Indem der Zeitungsleser beobachtet,
    wie exakte Duplikate seiner Zeitung in der U-Bahn,
    beim Friseur, in seiner Nachbarschaft konsumiert werden,
    erhält er ununterbrochen die Gewißheit,
    daß die vorgestellte Welt sichtbar im Alltagsleben verwurzelt ist.

    Benedict Anderson

    Lagerfeuer

    Zwei Sentenzen hört man immer wieder, wenn es um die gesellschaftliche Funktion von Medien geht. Der erste Satz lautet: “Das Fernsehen ist das Lagerfeuer der Nation”. Je nachdem, aus welcher Generation man stammt, mögen die Assoziationen unterschiedlich sein und von Wandervögeln über Pfadfinder bis Indianern reichen. Impliziert sind aber immer die folgenden Dinge: Geselligkeit, Gesang, manchmal: Bohnen aus der Dose.

    Immer jedoch geht es um ein Leuchten inmitten einer dunklen Nacht, das von irgendjemandem bewacht werden muss. Die kalte Einheit der Nation wird durch das Lagerfeuer zu einem spürbar warmen Zusammenhalt. So zumindest die Ideologie der Fernsehmacher, die diesen Satz gerne immer wieder aufwärmen.

    Klebstoff

    Der zweite Satz lautet: “Informationen sind der Kitt der Gesellschaft.” Immerhin, dieser Satz kommt ohne das wärmende Feuer des Fernsehbildes aus und beschränkt sich auf die formale Feststellung, dass Informationen die Gesellschaft zusammenhalten. Geht man von einigermaßen orthodoxen Interpretationen der Systemtheorie aus, ist der Satz eine bloße Tautologie. Wenn Gesellschaft zum Beispiel nach Luhmann das größte soziale System darstellt und soziale Systeme aus Kommunikationen bestehen, versteht sich der Satz von selbst.

    Aber meistens ist dieser Satz viel normativer gemeint (Luhmann würde diese normative Deutung nicht mit einer Zange anfassen). Dann geht es nämlich um den normativ guten Zusammenhalt, der bedroht ist, wenn die Information nicht mehr das leistet, was sie tut – integrieren. Das klingt bei Meckel dann so:

    Es gäbe keinen kritischen Diskurs mehr, und damit würde unser System auseinanderfallen. Informationen sind der Kitt, der unsere Gesellschaft zusammenhält. In meinem Buch treibe ich diese Idee auf die Spitze: Die Menschheit schafft sich durch die Perfektionierung der Algorithmen selbst ab.

    Je mehr die Algorithmen uns in einer Filterblase einlullen, desto geringer die Chance der systemintegrierenden Informationen, uns noch zu erreichen. Irgendwann fällt die Gesellschaft dann auseinander. An dieser Stelle wird es aber spannend. Meckel hat gar nicht einmal Unrecht mit der gesellschaftlichen Funktion der Medien. Medien stützen, ja schaffen sogar Gesellschaften. Die ersten Nationalstaaten des 19. Jahrhunderts waren Drucksachen. Erst die massenhafte Vervielfältigung immer derselben Informationen schaffte in den Köpfen der Menschen eine homogene Vorstellung von Gesellschaft und Nation.

    Aber Meckel verwendet die falsche Zeitform. Informationen waren dieser Kitt, haben diese Funktion aber in der Gegenwart verloren. Nach wie vor sind heute, im Informationszeitalter, Informationen eine Art Kitt. Aber, was dadurch zusammengeklebt wird, ist nicht mehr die eine Gesellschaft, sondern sind viele unterschiedliche, überlappende, große, kleinere, feste, lose Gemeinschaften. Oder wie es der Presseschauer formuliert: Katzenbilder sind der Kitt der Gesellschaft.

    Vor allem hat sich die Art der Information verändert. Es geht nicht mehr um die journalistisch recherchierten und nach Maßgabe der Aufmerksamkeitsfaktoren aufbereiteten Nachrichten für ein durchschnittliches allgemein-gebildetes Publikum. Stattdessen spielen für die Gemeinschaften im Internetzeitalter folgende drei Formen der Information die zentrale Rolle:

    Die drei Arten von Information der Internetgesellschaft

    • Schwarmähnliche Status- und Positionsmeldungen, mit denen wir den anderen Mitgliedern unserer virtuellen Stämme mitteilen, wo wir uns gerade aufhalten und wie unsere Koordinaten relativ zu den anderen Mitgliedern aussehen. Diese Informationsaufnahme geschieht häufig gar nicht voll bewusst, sondern diese “ambient intimacy” wird reflexartig hergestellt. Wir merken vor allem das Fehlen eines Signals / einer Statusmeldung, zumal uns diese Aufmerksamkeit immer stärker von Technologien abgenommen wird. Wenn die Signale vorhanden sind, ist alles in Ordnung, die Gewissheit der (sozialen) Welt kann weiter bestehen.
    • Hermetische Symbolkommunikation, also Meme, die nur innerhalb einer bestimmten Community verständlich ist, außerhalb aber nur als Rauschen oder “Gibberish” wahrgenommen wird. Katzenbilder fallen in diese Kategorie, obwohl sie zu den exoterischsten Spielarten dieser Form von Informationen gehören. Sie können zumindest im Rahmen von Parametern wie “süß” oder “seltsam” auch außerhalb der Gemeinschaften dekodiert werden.
    • Kommunikative Feedbackschleifen, die sehr schnell zu kreisenden oder sich aufschaukelnden und schließlich eskalierenden Erregungszuständen führen können. Zahlreiche jüngere Beispiele zeigen die systemzersetzende Wirkung dieser Kommunikationsform. Hier ist die Information alles andere als Kitt, sondern gesellschaftlicher Sprengstoff.

    Alle drei Arten taugen nicht recht als gesellschaftlicher Kitt, sondern lösen gesellschaftliche Strukturen auf oder stärken tribale Formen der Vergemeinschaftung. Die Statusmeldungen, weil sie reflexartig ablaufen, die Meme, weil sie soziale Substrukturen fördern und die Feedbackschleifen auf Grund der Neigung zur Eskalation.



    Verwandte Artikel:
  • Der Aufstieg der Datenwissenschaftler
  • Twittern auf der Kaiserstiege
  • Einmal mehr: Journalisten vs. Blogger
  • Das Internet, die Gatekeeper und die Qualität

    Fragt man nach den Auswirkungen des Internets auf die Qualität, dann erhält man, je nachdem, wem man diese Frage stellt, unterschiedliche Antworten:

    In der ersten Variante hat das Internet zu einem unglaublichen Abfall der Qualität geführt. In diese Argumentation passt die Polemik gegen die Klowände genauso wie die etwas ruhiger verlaufende Debatte über das Kuratieren als neue Aufgabe der Redaktionen. Als Beispiel für den massiven Qualitätsverlust durch das Internet wird üblicherweise die Wikipedia zitiert, in der es sehr viele miserabel recherchierte, tendenziös geschriebene und immer wieder von Vandalismus heimgesuchte Artikel gibt.

    Früher sorgten in den Massenmedien Redakteure oder im Wissenschaftssystem langwierige Peer-Review-Prozesse dafür, dass am Ende nur geprüfte Qualität gedruckt bzw. publiziert wurde. Wenn diese Instanzen wegfallen – und im Internet kann man an ihnen vorbei publizieren – gibt es keinen Garant mehr für die Qualität der Veröffentlichungen. “Da kann ja jeder herkommen und etwas veröffentlichen!

    In der zweiten Variante ist durch das Internet ein bisher nicht dagewesener Anstieg der Qualität möglich geworden. Jeder kann im Web ein Blog eröffnen und über seine Erfahrungen in Beruf, Leben, Politik, Familie … publizieren. Wissenschaftler, die über Randgebiete von Orchideenfächer forschen, erreichen im Internet mit ihren Forschungsergebnissen genau diejenigen fünf über die Welt verteilten Kolleginnen, die sich für genau dieselben Phänomene interessieren. Jeder kann schreiben, filmen, fotografieren, komponieren … und seine Werke dann auf Plattformen wie Tumblr, Instagram, Vimeo oder Soundcloud hochladen und der Öffentlichkeit zugänglich machen. Als Beispiel für die unglaubliche Qualitätssteigerung durch das Internet wird üblicherweise die Wikipedia zitiert, in der es sehr viele umfassend recherchierte, objektiv geschriebene und immer wieder verbessert, ergänzt und kommentierte Artikel gibt.

    Zu den Aufgaben der Redakteure und Peer-Reviewer gehörte nicht nur die Qualitätssicherung nach unten, sondern auch nach oben. Die wirklich brillanten Forscher und Künstler hatten zu Lebzeiten große Schwierigkeiten, in das offizielle gesellschaftliche Publikationssystem zu gelangen, da ihre Gedanken und Werke damals von den Gatekeepern nicht verstanden oder gefürchtet wurden. Qualitätssicherung heißt immer auch Bewahrung, Innovationsfeindlichkeit und dadurch letztlich Förderung des Mittelmaßes.

    Das kommt auch schon daher, dass die Gatekeeper die Aufgabe haben, auf den Bedarf und die Möglichkeiten eines bestimmten Publikums zu achten – eines Publikums mit bestimmten Voraussetzungen und Beschränkungen. Im Fall der Redakteure ist dies häufig eine “allgemein-gebildete Öffentlichkeit”, im Fall der Wissenschaftler die “scientific community”. Um die Arbeit der Gatekeeper zu erleichtern, nimmt man bei beiden Öffentlichkeiten zum Beispiel einen bestimmten Bildungsgrad an. Die französische Revolution kann hier als bekannt vorausgesetzt werden, während die Oberbayerische Postbauschule erklärt werden muss. Ganz ähnlich funktioniert das in der Wissenschaft, da hier zwar viel mehr Fachwissen vorhanden ist, aber jeder Wissenschaftler in fast allen Disziplinen und Subdisziplinen außer der eigenen ein Laie ist.

    Im Internet ist niemand dafür zuständig, für Rücksicht auf die Bedürfnisse und Voraussetzungen der unterschiedlichen Öffentlichkeiten zu sorgen. Jeder kann (und dies geschieht natürlich auch) so schreiben, dass es nur eine einzige Person – nämlich sie oder er selbst – verstehen kann. Aber noch häufiger richtet sich der Autor an eine mehr oder weniger esoterische Deutungs- oder Erlebnis-Gemeinschaft. Das Schreiben ins Internet zerstört die klaren Vorstellungen von Massen- und Durchschnittsöffentlichkeiten und ähnelt damit eher den hoch-metaphorischen hermetischen Texten der Alchemisten als den Fernsehnachrichten um 20 Uhr.

    Insofern ist die Frage nach der Qualität eine überflüssige oder falsch gestellte Frage: Das Internet hat die Qualität stark vermindert, und das Internet hat die Qualität stark gesteigert. Aber vor allem ist es dabei, unsere Vorstellungen einer einheitlichen Zuschauer-, Hörer- und Leserschaft aufzulösen. Mit allen positiven und negativen Folgen.



    Verwandte Artikel:
  • Online wie Offline. Zimmermann über Online-Öffentlichkeiten
  • Der Aufstieg der Datenwissenschaftler
  • Katzenbilder sind der Kitt der Gesellschaft – oder: Die drei Arten von Information im Internetzeitalter
  • Die Isarrunde fast live

    Demnächst werden wir die wohl erfolgreichste deutsche Webtalk-Fernsehsendung live aufzeichnen. Mit unseren neuen Geräten können wir Bild und Ton zukünftig live abmischen und gehen dann mit fertig produzierten Sendungen aus der Niederlassung. Das technische Setup erklärt unser Cheftechniker Michael Praetorius in diesem kurzen Video:

    Die nächsten beiden Folgen werden noch einmal auf die alte Weise produziert und im neuen Jahr geht es dann mit der Liveaufzeichnung los. Zusammengepackt sieht das Studio, das nahezu dieselben Möglichkeiten bietet wie sie vor 10 Jahren in einen Ü-Wagen gepasst hatten, so aus:



    Verwandte Artikel:
  • Die Renaissance des persönlichen Gesprächs
  • Kulturelle Vielfalt oder Einheitsbrei?
  • Neues metaroll-Feature: Neue Blogs