Internet Archiv Internet Archiv Home | Sitemap | Suche: 
  Intelligent Software Licensing Business Process Solutions Inside Microsoft Technologies  

Clients Only


     







Internet Archive:

Der Friedhof für böse Taten, schlechtes Design und Dinge, die man nie behauptet hat.

Es ist wie mit alten Passfotos: Schaut einer, dann klappt man das Dokument schnell zu, weil einem das eigene Erscheinungsbild aus grauer Vorzeit peinlich ist. Früher sah man eben anders aus. Das gilt auch für Webseiten. Das Medium Internet und die Möglichkeit, darauf eigene Seiten einzurichten, sind gerade mal seit rund 15 Jahren in breiterem Gebrauch. Doch bereits jetzt tun sich Welten auf, vergleicht man die ersten Versionen der Eigendarstellung von Unternehmen, Parteien, Behörden, Vereinen und Privatpersonen mit ihrem jeweils aktuellen Auftritt im Web. Wo ist so ein Vergleich möglich? Im Internet Archive. 150.000 User nutzen dort täglich kostenfrei die „Wayback Machine“ und betrachten überholte, aber deshalb noch  lange nicht weniger interessante Webseiten.

   

    

Wer erinnert sich noch deutlich an die Webseite der eigenen Firma, die man – vielleicht auf Stellensuche – vor Jahren zu allererst zu Gesicht bekommen hat? Die Mehrheit wohl eher schemenhaft. Kein Wunder: Deutsche Unternehmen wechseln Details im Kontext ihrer Webseiten meist täglich, Teilstücke innerhalb von Wochen und alle zwei Jahre wird der Webauftritt technisch, designerisch und konzeptionell völlig neu gestaltet.

    

   

Brewster Kahles Traum der Webseiten-Archivierung

Der 1960 geborene US-amerikanische Informatiker Brewster Kahle wurde als einer der Architekten des Thinking-Machines-Parallelcomputers bekannt. Er entwarf bereits früh Suchmaschinen und  ndizierungssoftware, ebenso wie das erste Internet-Publikationssystem, WAIS, das 1995 von AOL gekauft wurde. Danach gründete er den Internetdienst Alexa, der 1999 an Amazon verkauft wurde. So konnte er schließlich seinen lange gehegten Traum, die systematische Sammlung aller Webseiten, mit der 1996 von ihm gegründeten Stiftung Internet Archive selbst finanzieren. Die in San Francisco ansässige Institution hat es sich zum Ziel gesetzt, eine für alle zugängliche Bibliothek aller jemals im Internet zugänglich gewesenen Inhalte zu schaffen.

    

Die Auswahl der zu speichernden Seiten erfolgt beim Internet Archive über den Dienst Alexa Internet. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Beim Erfassen der Seiten bedient sich Kahle automatischer  Scanroboter, die mit mechanischen Armen selbstständig die Seien umblättern. Über die Suchmaschine Wayback Mashine kann der User mit der "Take-Me-Back" Funktion die gespeicherten Webseiten abrufen. Eine Liste nennt, aufgeteilt nach Jahren, alle verfügbaren Versionen einer URL.

   

Ein gigantisches Vorhaben.

Das Internet Archive wurde vom USBundesstaat Kalifornien im Mai 2007 offiziell als Bibliothek anerkannt. Der Gesamtumfang der gesammelten Seiten betrug damals bereits 85 Milliarden! Die Seiten werden erst ca. sechs Monate nach dem Indexieren öffentlich verfügbar gemacht. Jeden Monat, schätzt Kahle, wächst sein Bestand um rund 25 Terabyte – was ungefähr dem gesamten Bestand der Staatsbibliothek der Vereinigten Staaten, der Library of Congress, entspricht, so dieser digitalisiert und als einfacher Text abgespeichert würde. Zentrale Server großer Projekte sind oft nicht in der Lage, ihre Dienste allen zur Verfügung zu stellen, die diese benutzen möchten. Um den Usern den Zugang zu erleichtern, dient ein identisches Computernetzwerk in der neuen Bibliothek von Alexandria als Mirror.

   

Wen interessiert so etwas?

Browsen in dieser gigantischen Sammlung ist zuerst einmal lustig und unterhaltsam. Zu krass ist der stilistische Fortschritt in der Gestaltung – oder so primitiv erscheinen uns heute die ersten Gehversuche im Net.

   

Darüber hinaus lassen sich Statements aus dem Kreis der Bevölkerung überprüfen, dem oft nachgesagt wird, er würde sein Fähnchen nach dem Wind richten:  Den Politikern. Ein kurzer Blick auf Angela  Merkel: Nur die Frisur hat sich geändert. Ansonsten ist die Bundeskanzlerin sich – oder zumindest ihren Hobbies – treu geblieben: 1999 wie 2009 nennt sie Wandern, Kochen und Gartenarbeit.

   

Nun zur anderen Fraktion. Auf einer der der frühsten ihrer archivierten Seiten von 1996 bezeichnet sich die SPD – verständlich,  auf dem brandneuen Medium – als „technologiefreundliche Partei“. Interessant daran ist, wer für diese Worte mit seinem Bild steht; der Parteivorsitzende: Oskar Lafontaine! Also Internet Archive auch als Quelle für die Historiker der Zukunft? Schwierig. In einem herkömmlichen Archiv entscheidet ein ausgebildeter Historiker, ob aus einem Bestand etwas weggeworfen oder konserviert wird. Hier übernimmt diese Aufgabe ein Roboter. Nun verweist jede Webseite im Schnitt auf 15 andere Seiten und enthält fünf Objekte wie Bilder, Grafiken, Videos, Tondateien und Werbung. Wer archiviert, muss bei den Weiterleitungen irgendwo eine Grenze ziehen und schneidet damit eventuell verständniswichtigen Kontext für immer ab. Datensätze mit unterschiedlicher Aussagekraft wären dann im Format gleich und nicht zu unterscheiden. Das wäre so, als würde der eine unterzeichnete Staatsvertrag zur deutschen Einheit zwischen zwei Millionen Autoversicherungs-Verträgen abgeheftet werden, weil alle unter dem Oberbegriff "Vertrag" laufen. Überspitzt ausgedrückt weiß der Historiker zwar, dass einmal viele Fahrzeuge auf der Erde unterwegs waren, aber er erfährt nicht unbedingt etwas über politische Konstellationen.

   

Neben den inhaltlichen existieren technische Probleme. Browser etwa gibt es erst seit Anfang der 90er Jahre – und schon jetzt divergiert die Darstellung bei den verschiedenen Versionen von Netscape, Microsofts Internet Explorer oder Apples Safari.

  

Auf dem Internet-Friedhof ruht nichts in Frieden.

Ganz davon abgesehen werden alte Geister gerufen, die längst niemand mehr sehen möchte. Wer etwa gerichtlich erzwungen hat, dass üble Nachrede oder Verleumdung von der Seite eines presserechtlichen Kontrahenten gelöscht werden muss, findet diesen Kontext unkommentiert wieder. Dennoch: Im Internet Archive lassen sich heitere und wissenswerte Dinge finden!

Ihr Ansprechpartner

Roland  Gruschka
Roland Gruschka
Pressesprecher
+49.89.579.30-100
marketing(at)datalog.de
Impressum | AGB