Texturae sunt ambiguae

Einführung in das wissenschaftliche Informationswesen, insbesondere anhand von Gegenständen aus der Geistesgeschichte der Renaissance

Teil 11: Internetrecherchen

Kursleiter:
Dr. Heinrich C. Kuhn
Semester:
Wintersemester 2003/04
Stand:
2004-01-26


Übersicht:


Allgemeines zu Roboterindices ("Suchmaschinen")

Diese Indices werden folgendermaßen erstellt: ein Programm ruft ein Dokument im WWW auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren noch nicht in der Datenbank verzeichneten Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren noch nicht in der Datenbank verzeichneten Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, etc. etc. pp.. Die Dokumente von denen aus dieser Algorithmus startet gelangen durch "manuelle" Einträge (der Verwalter des Programmes oder durch Leute, die über "interessante" neue Adressen informieren) in die Datenbank.

Derzeit (2004-01-23) sind mir keine hinreichend aktuellen Zahlen dazu bekannt,wieviele Dokumente es insgesamt in jenem Teil des WWW gibt, der Weberschießungsprogrammen, die nach obigem Muster arbeiten, zugänglich sind. Und ich habe auch den eindruck dass es derzeit wenige (falls überhaupt) aktuelle Veröffentlichungen zu derlei Zahlen gibt. Im Februar 2000 enthielt das WWW vermutlich zwischen gut 500 Millionen und knapp eine Milliarde Dokumente. Gegen Ende Juni 2001 gab es mindestens 1.3 Milliarden derartiger Dokumente, Im Januar 2002 meldete Google (auch damals m.W. die "dokuemntenreichste" Suchmaschine etwas über 2 Milliarden derartiger Dokumente zu indizieren, heute (2004-01-24) meldet Google etwas über 3.3 Milliarden Dokumente (und, gemäß Google Corporate Information: Google at a Glance 425 Millionen Bilder und 800 Millionen Nachrichten in Newsgroups) zu indizieren, AllTheWeb meldet etwas über 3.15 Milliarden Dokumente zu indizieren. Soweit so schön.

Wären nun die Dokumente, die AllTheWeb indiziert einfach eine Untermenge der Dokumente, die Google indiziert, so müsste man sich damit zufrieden geben, zu sagen, dass das WWW derzeit mindestens etwas mehr als 3.3 Milliarden Doumente (die genaue Zahl derzeit [www.google.de, 2004-01-24, 10:52 GMT+1] ist 3,307,998,701) Dokumente enhält. Aber: Die die Dokumente, die AllTheWeb indiziert sind nicht einfach eine Untermenge der Dokumente, die Google indiziert: es gibt durchaus (und gar nicht so wenige) Dokumente, die sich bei AllTheWeb finden, nicht aber bei Google (und umgekehrt auch!). Ich habe eine Vergleichssuche mit dem Suchwort "Titelmannus" gemacht. Germäß den Ergebnissen dieser Vergleichssuche finden sind immerhin 25% der in AllTheWeb indizierten Seiten nicht in Google. Wäre das Ergebnis dieser Vergleichssuche von allgemeiner Gültigkeit, und addierte man einfach die Zahl der Seiten, die sich bei AllTheWeb bei Hochrechnung der Titelmannus-Suche-Ergebnisse auf alle Web-Dokumente als nur in AllTheWeb vorhanden ergeben zu den Google-zahlen, so könnte man auf rund 4.1 Milliarden Webdokumente insgesamt schliessen. Andererseits: Macht man's umgekehrt: hochrechnet man die Zahl der nur bei Google nicht aber bei AllTheWeb vorhandenen Dokumente und addiert sie zur Zahl der bei AllTheWeb indozierten, so kommt man auf zimlich genau 5 Milliarden Web-Dokumente. Und all die Rechnerei berücksichtigt nicht, dass es neben den beiden erwähnten noch weitere Suchmaschinen gibt, und die vermutlich auch noch Dokuemete enthalten, die sich in keiner der beiden erwähnet "großen" finden … . Alles in allem: Ich vermute: Eine Schätzung, die davon ausgeht, dass es zwischen 4 und 5 Milliarden im WWW zugänglicher Dokumente gibt, und dass die "richtige" Zahl näher an 5 als an 4 Milliarden liegen wird, dürfte von der Wahrheit nicht sehr weit entfernt sein. Damit indiziert vermutlich selbst die größte der derzeitgen Suchmascginen (Google) nur zwischen ca. Zweidrittel und ca. Vierfünftel aller im WWW für Suchmaschinen zugänglichen Dokumete.

<

Sei's wie es sei: Aus prinzipiellen Gründen gilt: Keiner der derzeit verfügbaren Indices enthält Informationen zu allen diesen Dokumenten, keiner kann es, keiner wird es je können. Der Besuch und das Auswerten von auch "nur" rund 1.5 Milliarden Dokumenten (Altavista am 23. Januar 2004: 1571242 , · 14. Januar 2002: 379.616.332, · 27. Juni 2001 erstaunlicherweise: 392.519.444] indizierte Seiten mit mindestens 1 Link nach außen) braucht Zeit, d.h. indizierten Dokumente können nicht täglich auf Änderungen untersucht werden. Für Dokumente, die "höher" in der Hirarchie stehen (wie z.B. die Leitseiten eines Servers) kann mit durchschnittlich ca. anderthalb Besuche pro Woche durch einen der "fleissigeren" Indizieyrungs-Roboter (wie Altavista oder Google), in Extremfällen (Inktomi-familie ,amchmla) sogar mit ca. 1 Besuch pro Tag gerechnet werden, für tiefer in der Hierarchie liegende (wie z.B. dieses Dokument hier) mit deutlich selteneren Besuchen (ca. 1 Mal pro Vierteljahr, oder noch seltener) durch deutlich weniger Roboter. (Beispiele von Jahresende 2001: das Dokument mit dem Anmeldeformular für denb Kurs im Wintersemester 2001/2002 Kurs stammt vom 27. Juli 2001 und wurde bis 31. Dezember 2001 von 6 Robotern besucht [· Northernlight: an 15 Tagen, · Google: an 13 Tagen [mit 323 hits!] · Fast an 8 Tagen, · Inktomi an 3 Tagen, · Altavista an 1 Tag, · Fireball an 1 Tag. (Vergleichszahlen SoSe 2001 für ein vergleichbares Dokument: 5 Roboter [· Fast: 8Mal, · Google: 5mal, · Northernlight ca.3?mal, · Fireball: 2mal, · Altavista: 2mal]; WiSe 1999/2000 nur 2 Roboter, und nur jeweils einmal.)).

Es gab schon mehrmals Zeiten, für die vermutet wurde, dass das WWW schneller wuchs, als die Inhalte der Datenbanken der Robterindices. Das hatte zur Folge, daß neue Dokumente immer später erstmals indiziert werden und möglicherweise auch, daß ältere Dokumente immer seltener auf Änderungen überprüft wurden. Falls eine derzeite Situation erneut auftreten sollte, falls die Vermutung dann richtig sein sollte, und der vermutete Sachverhalt (schnelleres Wachstum des WWW als der Datenbanken der Roboterindices) dann anhalten sollte, wird es Dokumente geben, die nie indiziert werden werden. Neuere Lektüre unserer Server-Logfiles legt nahe: wir befinden uns derzeit wohl in keiner derartigen Situation.).

Es gibt Dokumente, die von keinem Roboter (inhaltlich) indiziert werden (können): das sogenannte "Invisible Web": · Web-Dokumente, die aufgrund von Datenbankabfragen erzeugt werden, · Web-Dokumente, die nur einem beschränkten Nutzerkreis (zu dem der Roboter nicht gehört) zugänglich sind, · Web-Dokumente, auf die keine Links verweisen, · Web-Dokumente, von denen Roboter aufgrund der Beachtung der Konventionen über den Ausschluss der Indizierung durch wohlerzogene Roboter ferngehalten werden, · Web-Dokumente, die aufgrund ihres Formats nicht (inhaltlich) indizierbar sind (z.B. Abbildungen von Text-Seiten).

Die verschiedenen Indices unterscheiden sich durch · Anzahl der indizierten Dokumente, · Häufigkeit der Indizierung, · Komfort und Differenziertheit der möglichen Suchanfragen, · Kriterien für die Auswahl der indizierten Dokumente, · Kriterien für die Sortierung der Ergebnisse von Suchanfragen.

Die Zahl der von Robotern erstellten Indices ist groß, die Unterschiede zwischen ihnen wie erwähnt nicht unerheblich. Empfehlungen dazu, welche Indices Sie für Ihre Suchanfragen heranziehen sollten sind kaum möglich: am besten sie probieren die untegenannten für einige für Ihre Interessen typische Fragestellungen aus, und nutzen dann diejenigen häufiger, die Ihnen bessere Ergebnisse geliefert haben.

Google ist nun schon seit langem der (aus guten Gründen) von den meisten (und auch mir) besuchte Ort für die übliche "qick-n-dirty-Schnellsuche: großer Index, schnelle Reaktion, of brauchbare sortierung der Ergebnisse. Aber für Suchen die auf Vollständigkeit gehen sollen geht's nicht ohne Beiziehung anderer Suchmaschinen. Und nicht nur meine Erfahrung zeigt, dass die Fälle, wo man das für die eigene Fragestellung relevanteste Dokument weit oben in Googles Ergebnissliste findet, leider abzunehmen scheinen.


Roboterindices ohne lokale Beschränkung


Roboterindices für den deutschen Sprachraum


Metasuchmaschinen: weltweit und für deutschen Sprachraum

Metasuchmaschinen sind Angebote, die mehrere Roboterindices (weltweite und/oder lokale) durchsuchen und die Ergebnisse mehr oder minder übersichtlich zusammenfassen. Die Suchmöglichkeiten sind notwendigerweise eingeschränkt (da bestenfalls auf den kleinsten gemeinsamen Nenner der Suchmöglichkeiten der durchsuchten einzelnen Roboterindices beschränkt). Metasuchmaschinen eignen sich für die Suche nach Dokumenten zu Themen zu denen es sehr wenige Dokumente im Internet gibt. Zudem tauglich um rauszufinden welche Roboterindices besonders viele Ergebnisse zu einem bestimmten Thema enthalten.


Verzeichnisdienste: allgemein

Verzeichnisdienste sind Übersichten, in denen (meist) Menschen (also keine Roboter) Internet-Resourcen nach bestimmten Themen verzeichnet haben. wenn man auch solche mit ziemlich wenigen Einträgen mitzählt gibt es mehrere Millionen davon. Hier nur einige der größeren und m.E. nützlicheren. Andere Bezeichnunge für derlei: "Virtual library", "Clearing house", "Internetographie", "Webliography".


Verzeichnisdienste: spezialisiert

M.E.: Mit das nützlichste überhaupt für Suchen nach WWW-Dokumenten. Für fast jedes Fach bzw. Interessengebiet gibt es inzwischen mehr oder minder umfangreiche, mehr oder minder taugliche Verzeichnisdienste. Diejenigen, die mir als Verzeichnisse von Resourcen von Relevanz für die Geistesgeschichte der Renaissance tauglich erschienen sind in der Internetographien-Übersicht von GGRENir verzeichnet.

Selbstverständlich ist auch GGRENir selbst eine Internetographie zur Geistesgeschichte der Renaissance ... [;-)].

Verzeichnisdienste zu anderen Themen sind meistens in den entsprechenden fachlich-sachlichen Untergliederungen der allgemeinen Verzeichnisdienste verzeichnet.

Von besonderem Interesse aus "deutscher" geisteswissenschaftlicher Sicht dürfte jedoch eine besondere Internetographie großer Internetographien etc. sein: Die Virtuelle Fachbibliothek (Geistes- und Sozialwissenschaften) . (November 2003 ¶ gesehen 2004-01-23)


Suchhilfsmittel für Programme, News, eMail-Adressen, &c.


Übersichten & Theorie

  1. Sebastian Wolf: Suchen im Internet (Suchdienste-Kompass) :: Sehr gute, sehr gut gegliederte Übersicht. Enthält u.a. einen m.E. sehr lesenswerten Suchmaschinenvergleich. (Juni 2003, gehehen: 2004-01-26)
  2. Danny Sullivan: Search Engine Sizes :: Übersicht darüber, welche Suchmaschinen Informationen zu wievielen Dokumenten anbieten. Hat auch interessante historische Infpormationen dazu. (September 2003, gehehen: 2004-01-26)
  3. Stefan Karzaunikat: Suchfibel Gute deutschsprachige Einführung zu Suchen im Internet. Sehr gute Übersichten zu Suchmaschinen: Das meiste von dem was Sie in meiner Übersicht für den Kurs nicht finden, finden Sie vermutlich hier. (Dezember 2003[gesehen: 2004-01-26])
  4. Thomas Hilberer: Über die Zugänglichkeit der Informationen im Internet. - Die Rolle der Bibliotheken : Über Anzahl von Internetdokumenten, Erfassungsgrad durch Suchmaschinen, Anteil wissenschaftlicher Dokumente unter den mit Suchmaschinen erfassten, und Folgerungen daraus. Datenstand inzw. veraltet, aber dennoch lesenswert. (September 1999 [gesehen: 2004-01-26])
  5. Konrad Umlauf: Suchmaschinen im Internet : Mittelausführliche, m. E. gut verständliche Einführung mit vielen gut kommentierten nützlichen Links. Wenn Sie eine Einführung wollen, die kürzer ist als die von Karzaunikat und anders als meine: versuchen Sie's hiermit. (März 2003 [gesehen: 2002-01-18])
  6. Amanda Spink: Selected results from a large study of Web searching: the Excite study :: Resultate aus Untersuchung dazu, wie Suchende mithilfe einer Suchmaschine suchen. (September 2000, gesehen: 2004-01-26)
  7. Danny Sullivan (ed.): Search Engine Watch : Allgemeineres und spezielleres zu Suchmaschinen. Einiges an sehr brauchbaren Informationen. (2004-01-26 [gesehen: 2004-01-26])
  8. BrightPlanet: The Deep Web. - Surfacing Hidden Value :: Zu WWW-Resourcen, die nicht über Suchmaschinen findbar sind, und dazu, wie man dran kommt. Hat eine immer noch recht beachtliche FAQ-Datei. (Irgendwann 2003, gesehen: 2004-01-26)
  9. Danny Sullivan: The End for Search Engines? :: Zu Zukunft und Vergangenheit der Entwicklungen bei Suchmaschinen. Interessant inzw. wohl for allem wg. der enthaltenen historischen Informationen. (Februar 2001, gesehen: 2004-01-26)
  10. hck: Naud.mdb : MS-Access97-Datenbank: fürchterlich veraltete aber reichhaltige Internetographie zu Suchhilfsmitteln auf Stand Juni 1998. Nota bene: Bei Interesse sollten Sie einen Browser verwenden, der HTTP-Transfer auf Datenträger für binäre Dateien erlaubt - oder im Notfall sich direkt an mich wenden. (Juni 1998 [gesehen: 2004-01-26])
  11. hck: WebPages von potentiellem Interesse auf dem Gebiet "Suchhilfen für's Internet": Stand von 1996 [!!!]. U.U. von historischem Interesse. Außerdem: ziemlich kurz! (Dezember 1996 [gesehen: 2004-01-26])
  12. hck: Sucheinstiege Stand: Anfang Dezember 1995 [!!!!!] Ausschließlich von historischem Interesse; sehr kurz. Vergleich mit neuerem zeigt m.E. recht brauchbar was sich so in den letzten gut 8 Jahren geändert hat. (Dezember 1995 [gesehen: 2004-01-26])

Links zu sonstigem, Vermischtem