Schon seit einiger Zeit wird im Bibliotheksbereich laut über die Freigabe der bibliographischen Daten als (Linked) Open Data nachgedacht – zuletzt in größerem Rahmen bei der SWIB09 im Kontext des Semantic Web. Kein anderer als der “Erfinder” des Web, Tim Berners Lee, propagierte schon vor einigen Jahren die Freigabe von Daten, zunächst als Roh-Daten, dann beschrieben durch Web-Standards, um sie zum integralen Teil des Webs zu machen. Diese Daten – oder Teile davon – können dann vielfältig genutzt und kombiniert werden – in Anwendungsgebieten, an die man selbst mit seinen Daten eventuell noch gar nicht gedacht hat. Adrian Pohl hat die Thematik der Freigabe bibliographischer Daten gerade sehr schön in dem Blog-Artikel “Die Zeit ist reif, wir müssen sie nur pflücken” zusammengefasst. Und diese Zeit ist nun endlich gekommen.
Die Universitäts- und Stadtbibliothek Köln (USB Köln) hat heute in Kooperation mit dem Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) ihre bibliographischen Daten für die Allgemeinheit geöffnet. Jahrzehntelang wurde die Erfassung dieser Daten öffentlich finanziert, nun stehen sie der Öffentlichkeit in ihrer Gesamtheit uneingeschränkt zur Verfügung.
Zusammen mit der USB Köln haben sich weitere Bibliotheken zu einer Freigabe ihrer Daten entschlossen und mit dem hbz eine gemeinsame Mitteilung verfasst.
Die zentrale Adresse mit Informationen über die von der USB Köln freigegebenen bibliographischen Daten ist:
http://opendata.ub.uni-koeln.de/
Zusätzlich wird auch auf Verbundebene im hbz eine Sammelstelle für alle freigegebenen bibliographichen Daten eingerichtet.
Durch die Freigabe der Daten wird es jedem möglich, die Daten herunterzuladen, zu modifizieren und für beliebige Zwecke zu nutzen.
Die bibliographischen Daten des Katalogs der USB Köln umfassen etwa 3.1 Millionen Titelaufnahmen, 1.5 Millionen Personenaufnahmen, 156 Tausend Körperschaftsaufnahmen, 40 Tausend Notationen sowie 243 Tausend Schlagworte (Stand: 12.3.2010).
Bereitgestellt werden die Daten in einem auf dem MAB2-Kategorienschema basierenden Metadaten-Format, das nächtlich im Rahmen des KUG-Projektes automatisch aus unserem Bibliothekssystem generiert wird. Im Rahmen dieses Projektes werden aus dem USB-Bestand auch Teilkataloge gebildet, z.B. des wirtschaftswissenschaftlichen Bestandes, der Lehrbuchsammlung usw. Auch diese automatisch generierten Daten werden an dieser Stelle getrennt bereit gestellt.
Das Metadaten-Format ist in diesem Wiki-Artikel genau beschrieben und lässt sich sehr einfach weiter verarbeiten.
Alle Datenbestände werden unter dem URL http://opendata.ub.uni-koeln.de/dumps/ bereit gestellt.
Jenseits der bibliographischen Daten im Katalog der USB Köln werden an der USB im Rahmen von Projekten weitere Bestände in anderen Spezial-Katalogen erfasst. Die Daten dieser Spezial-Kataloge werden ebenso freigegeben.
Sämtliche Daten, die zum Download bereitstehen, sind unter der Creative Commons Lizenz CC0 veröffentlicht. Sie sind somit gemeinfrei, d.h. die Daten gehören allen und dürfen zu beliebigen Zwecken und ohne Auflagen genutzt werden. Jeder Person und Institution wird ein zeitlich und inhaltlich uneingeschränktes Nutzungsrecht an den Werken eingeräumt. Aus unserer Sicht ist die wirklich vollständige Freigabe als gemeinfreie Daten wesentliche Voraussetzung für ein semantisches Web mit Linked Data. Dies hatte bereits Patrick Danowski auf der SWIB09 in seinem Vortrag “Free Data – the road to linked data” (pdf,wmv) sehr gut verdeutlicht.
Es freut mich ganz besonders, daß das hbz ein so innovatives Feld wie das Semantic Web und die Freigabe bibliographischer Daten besetzt hat, aktiv die Entwicklung voran treibt und hier als Katalysator und Kooperationspartner für unsere Aktivitäten an der USB und den anderen beteiligten Bibliotheken gewirkt hat.
Gerade die Einbeziehung von uns und den anderen “Willigen” in ihre interne Arbeitsgruppe war sehr fruchtbar und ich freue mich schon auf die weitere Zusammenarbeit, wenn wir im nächsten Schritt die Beschreibung unserer Daten durch Web-Standards wie OWL angehen.
Ich denke 2010 wird ein sehr spannendes Jahr!
Update 12.4.2010: Die Zentralbibliothek der Sportwissenschaften der Deutschen Sporthochschule Köln schließt sich der Open-Access-Bewegung für bibliographische Daten an. Weitere Informationen unter http://www.vifasport.de/OpenDATA.html und http://opendata.zbsport.de/.
12 Kommentare
CH
12|Mrz|2010 1Herzlichen Glückwunsch, Köln ist mal wieder Pionier!
Dr. Klaus Graf
12|Mrz|2010 2Auch von mir: Daumen hoch.
PatrickD
12|Mrz|2010 3Willkommen im Club
Freue mich sehr das sich die Idee weiter verbreitet und hoffe das noch viele weitere Bibliotheken folgen.
Jakob
13|Mrz|2010 4Gibt es irgend eine Art von Dokumentation, um was für ein “auf dem MAB2-Kategorienschema basierendes Metadaten-Format” es sich handelt? Einzelne Datensätze werden durch Leerzeilen getrennt und bestehen aus einer Liste von Feldern (ein Feld pro Zeile) – aber wie sind die Felder aufgebaut? Sind die ersten 5-9 Zeichen immer die MAB2-Feldnummer und Indikator oder ist das nur daran “angelehnt”? Was ist mit MAB-Steuerzeichen Teilfeldtrennzeichen, Stichwortzeichen und Nicht-Sortierzeichen und Unterfeldern? Mit diesen Informationen liesse sich das Format ja nach MABxml konvertieren und aus den MAB2-Feldnummern ließe sich eine Feldbeschreibung erstellen (siehe http://www.ib.hu-berlin.de/~voj/MABxmlTools/)
Jakob
13|Mrz|2010 5Sorry, da war ich etwas vorschnell und habe den Link auf die Formatbeschreibung überlesen. Das Format hat also eher nichts mit MAB2 zu tun und lässt sich im Gegensatz dazu ziemlich gut weiterverarbeiten. Vielen Dank für die Daten und die Beschreibung!
Oliver Flimm
13|Mrz|2010 6@Jakob: Eine Beschreibung des Metadaten-Formats auf Kategorieebene ist im Artikel verlinkt. Das sollte für viele Zwecke ausreichen.
Ein Mapping auf MAB2 – wie Du es anvisierst – wird schon daran scheitern, dass wir in unseren Daten diverse “eigene” (aber dokumentierte) Kategorien verwenden, für die es keine Entsprechung in MAB2 gibt. Darüber hinaus gibt es weitere Probleme mit MAB2, wie z.B. der verwendete MAB2-Zeichensatz ISO 5426-1983, über den man nicht alle Zeichen abgebildet bekommt. Über diese Zeichensatzproblematik kann MABxml IMHO auch nicht hinwegtäuschen, selbst wenn dieses natürlich – wie wir in unseren Daten – auch UTF8 verwenden kann – zusätzlich ist bei MABxml ja auch noch x-MAB und IBM850 möglich. Das Problem ist in Bezug auf die Zeichensatzkonvertierung nicht der Weg MAB2 nach MABxml, sondern der umgekehrte, den man normalerweise braucht, um die Daten in ein x-beliebiges Bibliothekssystem einladen zu können.
Die gleichen Probleme hat auch das hbz mit MAB2, obwohl das dortige Aleph intern UTF8 verwendet. Japanische oder chinesische Schriftzeichen können auch dort nicht einfach als MAB2 exportiert werden. In diesem Spannungsfeld – einerseits die Verwendung eines Standards wie MAB2 (der in 2 dicken Ordnern dokumentiert ist) und andererseits die Lieferung maximaler Information – haben wir uns für Letztere entschieden.
Wir liefern unter opendata.ub.uni-koeln.de alles an bibliographischen Informationen, was in unseren lokalen Bibliothekssystemen vorhanden ist. Das ist mehr als in der Verbunddatenbank enthalten ist.
Dennoch wird im hbz selbst ab dem 15.3. auch ein Abzug der USB-Daten angeboten werden, der direkt aus der Verbunddatenbank kommt – in einem anderen Format. Mit der KUG-Infrastruktur hatten wir bereits grundsätzlich alle Daten für eine Veröffentlichung parat, ein zusätzlicher technischer Aufwand ist also erst gar nicht angefallen. Als kleiner Nebeneffekt kann man somit also auch die von uns veröffentlichten Daten automatisch in eine OpenBib-Installation einladen und verarbeiten
Die konkrete Weiterverarbeitung unserer Daten ist durch den Open Source-Charakter von OpenBib also zusätzlich auch transparent software-technisch dokumentiert.
Endlich freie bibliografische Daten aus Bibliotheken! « Jakoblog — Das Weblog von Jakob Voß
14|Mrz|2010 7[...] freigegeben. Die Stadtbibliothek Köln will mit ihren Daten später folgen. Weitere Details hat Oliver Flimm zusammengetragen. Die etwa 1,3 Millionen Titelaufnahmen stehen unter http://opendata.ub.uni-koeln.de/, das [...]
Freiheit für Bibliotheksdaten » Bibliotheken, Weitere, Angebot, Katalogsdaten, Infos, Daten » Duftender Doppelpunkt
15|Mrz|2010 8[...] Weitere Infos zum Thema „offene bibliographische Daten“ finden Sie auf der Site „OpenBibBlog“. [...]
Felix Ostrowski
17|Mrz|2010 9Mit fast 600 Downloads (allein vom hbz-Server, wie sieht es bei der USB aus?) innerhalb des ersten Tages ist das Interesse an freien bibliographischen Daten offensichtlich groß. Nicht nur aus Deutschland, sondern aus aller Welt werden die Daten abgerufen. Bibliotheken, Privatpersonen, Firmen und Hochschulen sind dabei.
Wie werden die Daten aufgenommen, wie werden sie verarbeitet, wie weiter verteilt? Wie kann eine Praxis für offene (bibliographische) Daten etabliert werden? Alle Interessierten sind herzlich dazu eingeladen, dies auf
http://opendata.hbz-nrw.de/ zu diskutieren!
Offene Katalogdaten – Reaktionen - OpenBibBlog
18|Mrz|2010 10[...] 1300 Aufrufe unserer opendata.ub.uni-koeln.de-Seite und die etwas mehr als 800 Aufrufe meines Blog-Artikel in den vergangenen 6 [...]
Fab Fuerste
20|Mrz|2010 11Chapeau!
OCLC fördert die Open-Data-Bewegung » Infobib
20|Mrz|2010 12[...] so etwas aussehen kann, kann man ja aktuell in Köln [...]
Kommentar schreiben
Blog durchsuchen
Kategorien
Tags
E-Books Kataloganreicherung KUG Linked Open Data Literaturlisten Mashups OpenBib Open Bibliographic Data Open Data PaperC QR-Code Sammlungen Systematiken Thematischer Zugang WikisourceBlogroll
Kalender
A design creation of Design Disease
© 2007 - OpenBibBlog - powered by WordPress
InSense 1.0 Theme by BloggingPro and 1000ff