Nebenan bei im hübschen Datenblog habe ich mir einmal die Twitter-Diskussionen zur diesjährigen DLD-Konferenz vom Kongressvorabend bis zum heutigen Montag angesehen. Man sieht sehr schön, wie sich die Aufmerksamkeit von Tag zu Tag im Netzwerk verschiebt. Ich bin gespannt, wie sich das zum letzten Tag noch einmal ändert. Außerdem werde ich abschließend auch noch einmal die Twitternachrichten selbst betrachten, um Muster herauszufinden. Das zum Beispiel war der Montag:
Monthly Archive for Januar, 2012
Verwandte Artikel:
Why then the world’s mine network
Which I with software will open.
Der Vorteil einer abstrakten Methode wie der Social Network Analysis ist es, dass sich fast alle Daten, die irgendwie zusammenhängen, als Netzwerk betrachten und analysieren lassen. Das Paradebeispiel sind natürlich die Empfehlungsalgorithmen, die Nutzern von Google, Youtube oder Amazon erzählen, was sie sonst noch interessieren könnte. Überall dort, wo es empfohlene Produkte oder Produkte, die andere Kunden auch gekauft haben, gibt, kann man sehr einfach mit den Methoden der Netzwerkanalyse angreifen. Auf diese Weise wird aus den isolierten Paaren oder Mengen verwandter Produkte eine große Verwandtschaftskarte, auf der nicht nur Beziehungen, sondern auch Muster und Schwerpunkte erkennbar sind.
Ich habe mir einmal den iTunes-Appstore vorgenommen. Auf jeder (bzw. fast jeder) Downloadseite einer App sind weitere fünf Apps verzeichnet, die überdurchschnittlich häufig gemeinsam mit dieser App heruntergeladen oder gekauft werden. Das Netzwerk springt einem hier förmlich entgegen. Wenn man die 240 beliebtesten Apps der Kategorie Nachrichten auf diese Beziehungen hin erfasst, erhält man folgendes Netzwerk der Nachrichten-Applandschaft (Klick zum Vergrößern):
Die Größe der Knoten steht für die Anzahl der Bewertungen der Apps – solange es keinen Zugriff auf die Downloadzahlen der Apps gibt, könnte das eine Annäherung an die Bedeutung oder Verbreitung einer App sein. Die Farbe zeigt die unterschiedlichen Cluster von Apps, die besonders eng miteinander verbunden sind: Links in Hellblau und rechts in Dunkelblau sind zwei Cluster von Nachrichtenapps. Rechts findet man die Zeitungsapps von FAZ, Bild, Süddeutsche, Abendzeitung, Weserkurier etc., während links eher die iPad-Varianten von Onlineportalen wie Spiegel, Focus Online, Süddeutsche.de zu finden sind. Oben in Violett ist ein kleines Cluster von redaktionsunabhängigen Newsaggregatoren wie Pulse, Flipboard oder Reeder. Ganz rechts liegt Österreich, während im Süden die Türkei zu finden ist. Dazwischen ein Applecluster mit Apfeltech und Macwelt. Ganz im Norden ist das Review-stärkste Cluster von Nachrichtenaggregatoren und App-Nachrichten-Apps, das von MeinProspekt dominiert wird.
Die Apps mit den meisten Reviews in dieser Karte sind:
- Mein Prospekt XL – 39.382 Reviews
- n-tv iPhone edition – 16.140 Reviews
- DER SPIEGEL eReader – 12.759 Reviews
- FOCUS Online – 10.300 Reviews
- DIE WELT – 9.312 Reviews
- Flipboard – 6.394 Reviews
- BILD HD – 5.722 Reviews
- Tagesschau – 5.705 Reviews
- NYTimes – 5.533 Reviews
- AppTicker Push – 5.524 Reviews
In dieser Aufzählung fehlt die normale Version von BILD mit 24.146 Reviews, die ein isolierter Knoten ist, da für diese App keine verwandten Apps angegeben sind und auch keine der anderen Apps auf sie verweist – eine echte Anomalie, die ich mir im Moment nicht erklären kann.
Interessant ist auch der Blick auf die Anzahl der eingehenden Links, d.h. welche Apps besonders häufig als verwandte Apps genannt werden. Der Durchschnitt liegt bei 2,3. Hier sieht die Liste ganz anders aus:
- The Wall Street Journal – 51 Nennungen
- AppAdvice – 45 Nennungen
- Blastr – 40 Nennungen
- NPR for iPad – 39 Nennungen
- Flo’s Weblog – 27 Nennungen
- eGazety Reader – 27 Nennungen
- ??-??? ????? a – 25 Nennungen
- SAPO News – 23 Nennungen
- DVICE – 20 Nennungen
- DER SPIEGEL – 18 Nennungen
Dieselben Apps erhält man bei der Berechnung des PageRank, d.h. der Wahrscheinlichkeit, beim Abwandern des Netzwerks zufällig auf die verschiedenen Apps zu stoßen. Die Anzahl der Verbindungen zwischen den Apps, also der Vernetzungsgrad ist relativ niedrig, da für jede App nur jeweils 5 verwandte Produkte angezeigt werden – insgesamt sind die 451 Knoten durch 1.055 Kanten verbunden.
Verwandte Artikel:
Eines der wichtigsten Buzzwords im Marktforschungs- und Wissenschaftsjahr 2012 ist mit Sicherheit “Big Data”. Sogar die Zukunft eines Intenretriesen wie Yahoo! wird auf diese Frage zugespitzt: Wie hältst du es mit den großen Daten (dazu auch lesenswert das AdAge-Interview mit dem neuen CEO Scott Thompson)?
Auf den ersten Blick ist das Phänomen, das sich dahinter verbirgt, nichts neues: es gibt riesige Mengen an Daten, die darauf warten, analysiert und interpretiert zu werden. Diese Datenberge gab es früher auch schon – man denke nur an die gewaltigen Kundentransaktionsdaten, die klassischen Webzugriffslogs oder die Himmelsdaten aus den Observatorien.
Besonders spannend sind folgende Entwicklungen und Dimensionen des Big-Data-Phänomens:
Demokratisierung der Technik: Zum einen sind die Werkzeuge, um Datensätze in Terabytegröße zu analysieren, mittlerweile demokratisiert. Jeder, der ein paar alte Rechner im Keller stehen hat, kann daraus ein leistungsfähiges Hadoop-Cluster aufbauen und damit in die Analyse großer Daten einsteigen. Die Software, die man für Datenerfassung, Speicherung, Analyse und Visualisierung benötigt, ist größtenteils frei verfügbare Open-Source-Software. Wer zu Hause keine Rechner herumstehen hat, kann sich die Rechenzeit bei Amazon kaufen.
Ein neues Ökosystem: Mittlerweile hat sich hier eine lebendige Bastlerszene der Big-Data-Hacker entwickelt, die an den verschiedenen Big-Data-Technologien arbeitet und in Präsentationen und Aufsätzen die unterschiedlichen Anwendungsszenarien demonstrieren. Wenn man sich die Biographien der Big-Data-Community ansieht, fällt aber auch, dass man es sehr viel weniger mit Forschergruppen an Universitäten zu tun hat, sondern um Wissenschaftler (“data scientists”), die in den großen Internetunternehmen wie Google, Yahoo, Twitter oder Facebook arbeiten. Das ist zum Beispiel bei der Python-Entwicklergemeinde oder der R-Statistikercommunity anders. Im Augenblick sieht es sogar so aus, als verliefe der typische Karrierepfad an der US-Westküste weg von den Internetgiganten und hin zu neuen Big-Data-Startups.
Visualisierung von Netzwerken: Die visuelle Darstellung der Daten ist mittlerweile fast wichtiger geworden als klassische statistische Methoden, die nach Kausalitäten suchen. In diesem Zusammenhang hat auch die Netzwerkanalyse wieder stark an Bedeutung gewonnen. Fast alle soziale Phänomene und großen Datensätze von Venture Capitalists bis Katzenbildern können als Netzwerke visualisiert und exploriert werden. Auch hier spielen Open-Source-Software und offene Datenschnittstellen eine große Rolle. Programme wie die Netzwerkvisualisierungssoftware Gephi können sich in naher Zukunft direkt mit den Schnittstellen (APIs) der Plattformen Facebook, Twitter, Wikipedia oder Google verbinden und die abgerufenen Daten gleich weiterverarbeiten.
Neue Fähigkeiten und Stellenbeschreibungen: Eines der heißesten Buzzwords in der Big-Data-Szene ist der “Data Scientist”, der jetzt in klassischen Unternehmen genauso wie in Internetunternehmen für die Erhebung und Auswertung der anfallenden Daten sorgen soll. Auf Smart Planet habe ich eine gute Beschreibung der Fertigkeiten dieser “Datenjobs” gefunden: 1) Die Systemadministratoren, die sich mit Aufsetzen und Wartung der Hadoop-Cluster befassen und sicherstellen, dass der Datenfluss nicht gebremst wird. 2) Die Entwickler (oder “Map-Reducer”), die Anwendungen entwickeln, mit denen die Daten aus den Datenbanken abgerufen und verarbeitet werden. 3) Die eigentlichen Datenwissenschaftler oder Analysten, deren Aufgabe es ist, mit den Daten Geschichten zu erzählen und aus ihnen Produkte und Lösungen zu entwickeln. 4) Die Datenkuratoren, die für die Qualitätssicherung und Verknüpfung der Daten zuständig sind.
Um einen besseren Eindruck davon zu gewinnen, wie sich die Big-Data-Community selbst sieht, habe ich die Twitter-Kurzbiographien der 200 wichtigsten Big-Data-Analysten, -Entwickler, -kaufleute einer Netzwerkanalyse unterzogen: Ich habe die Kurztexte in ein Netzwerk transformiert, in dem die Begriffe die Knoten darstellen und gemeinsame Erwähnungen in einer Twitter-Bio die Kanten. Das heißt, jedes mal, wenn jemand in seiner Bio “Hadoop Committer” stehen hat, gibt es in dem Netzwerk eine neue Kante zwischen “Hadoop” und “Committer”. Insgesamt besteht dieses Netzwerk aus knapp 800 Begriffen und 3200 Verbindungen zwischen den Begriffen. Das Netzwerk habe ich dann auf ca. 15% des Umfangs reduziert, indem ich mich auf die am häufigsten verwendeten Begriffe konzentriert habe (z.B. Big Data, Founder, Analytics, Cloudera, Apache, Committer, Hadoop, Computer). Das mit Gephi visualisierte Ergebnis ist oben zu sehen.
Verwandte Artikel:
Vor Jahren hatte ich an dieser Stelle schon über die große Bedeutung der gespeicherten Google-Suchanfragen als “Datenbank der Wünsche” geschrieben. Die Begriffe, die Menschen in das Google-Eingabefeld schreiben, spiegeln sehr genau ihre Wünsche wider – sowohl die offen kommunizierten als auch die geheimen.
Als Nebenbemerkung: Man könnte vermuten, dass Menschen mittlerweile ehrlicher zu ihrer Suchmaschine sind als zu ihren engsten Verwandten. Insofern sollte man intensiv über eine besondere Sorgfaltspflicht und einen besonderen Schutz dieser Daten nachdenken. Vielleicht gibt es bald neben der ärztlichen und der anwaltlichen Schweigepflicht auch so eine Art “Suchmaschinengeheimnis”, das garantiert, dass, was wir in einer Websuche über uns offenbaren, nicht in falsche Hände gerät.
Neben dieser besonderen Vertrauensstellung dieser Datenbanken, beeindruckt vor allem das hier sekündlich anfallende Wissen. Dadurch, welche Begriffe gemeinsam eingegeben werden, und welche überhaupt nicht, oder dadurch, welche Treffer dann tatsächlich angeklickt werden, und welche überlesen werden, entsteht eine Wissensdatenbank, die vielleicht sogar größer als die Wikipedia ist, da sie sich viel schneller ändert. Die Assoziation von “Bundespräsident” und “Anrufbeantworter” dürfte zum Beispiel ein sehr junges Phänomen sein. Ja, wenn es um diese aktuellsten Phänomene geht, scheinen die Algorithmen von Google sogar die Rolle eines politischen Beraters einzunehmen, der dem amtierenden Staatsoberhaupt Handlungsempfehlungen gibt:
Diese scheinbare Empfehlung entsteht schlicht daraus, dass diese beiden Begriffe in den letzten Tagen, Stunden besonders häufig gemeinsam in Suchabfragen verwendet wurden bzw. besonders häufig gemeinsam in Webseiten auftauchen. Diese überdurchschnittliche gemeinsamen Vorkommen (oder: Kollokationen) verwandeln die Suchmaschine aber gleichzeitig in eine neue Art von Wissensspeicher. Anhand der Struktur der sekündlich eingehenden Suchabfragen (bei Google waren es laut ComScore allein in den USA im November 13 Milliarden Abfragen) können Maschinen sehr viel darüber lernen, wie wir Menschen Begriffe und Wissen organisieren.
Eine praktische Anwendung dieses Wissensspeichers habe ich in einem schon etwas älteren, aber einflussreichen Paper (Google Scholar zählt 246 Zitationen) der beiden Google-Mitarbeiter Mehran Sahami und Timothy D. Heilman “A Webbased Kernel Function for Measuring the Similarity
of Short Text Snippets“. Darin geht es um das Problem, die inhaltliche Ähnlichkeit von sehr kurzen Textschnippseln zu erkennen. Da es sich hierbei nur um wenige Wörter handelt, versagen klassische Methoden des Textminings wie zum Beispiel das Kosinus-Ähnlichkeitsmaß. Die Anzahl der Datenpunkte ist schlicht zu klein, um Aussagen über die Ähnlichkeit zu treffen.
Die Google-Wissenschaftler verwenden die Suchtreffer, die eine Suchmaschine wie Google auswirft, wenn man sie mit den Textschnippseln füttert, als Kontext-Vektor, mit dem sie dann die Übereinstimmung berechnen können, da er nun nicht mehr wenige Worte umfasst, sondern ein großer Corpus aus hunderten Dokumenten bzw. 1000-Zeichen langen Ausschnitten daraus darstellt. Das von ihnen beschriebene Verfahren stellt z.B. zwischen “Steve Ballmer” und “Microsoft CEO” eine Übereinstimmung von 0.838 fest, während das Kosinusmaß hier auf einen Wert von 0 gekommen wäre. Auch zwischen dem früheren CEO “Bill Gates” und “Microsoft CEO” gibt es eine Ähnlichkeit von immerhin 0.317 – aber auch seine korrekte Beziehung zu Microsoft findet dieses Maß heraus: “Bill Gates” und “Microsoft Founder” erzielt 0.677.
Der erste Anwendungsfall dieses Verfahrens, der hier in den Sinn kommt, sind natürlich die automatischen Vorschläge bei Suchabfragen. Insofern ist das oben beschriebene Wulff-Beispiel also nicht unbedingt eine politische Handlungsempfehlung, sondern das Ergebnis des Vergleichs von Kontextvektoren.
Verwandte Artikel:
Kommentare