Kurs hck WiSe 1999/2000: Kursunterlagen:

Kursteil: Umgang mit und Auffinden von Internet-Quellen:
Suchhilfsmittel


Autor:: Dr. Heinrich C. Kuhn (ua212ac@mail.lrz-muenchen.de)
Dokument erstellt: 1999-09-06
Dokument geändert:2000-02-07



Übersicht:


Allgemeines zu Roboterindices ("Suchmaschinen")

Diese Indices werden folgendermaßen erstellt: ein Programm ruft ein Dokument im WWW auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren noch nicht in der Datenbank verzeichneten Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren noch nicht in der Datenbank verzeichneten Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, etc. etc. pp.. Die Dokumente von denen aus dieser Algorithmus startet gelangen durch "manuelle" Einträge (der Verwalter des Programmes oder durch Leute, die über "interessante" neue Adressen informieren) in die Datenbank.

Das WWW enthält derzeit vermutlich zwischen gut 500 Millionen und knapp eine Milliarde Dokumente. Keiner der derzeit verfügbaren Indices enthält Informationen zu allen diesen Dokumenten; die derzeit größten Indicies dürften rund 25% abdecken. Der Besuch und das Auswerten von auch "nur" 130 Millionen Dokumenten (Altavista am 6. Oktober 1999: 132,022,832 indizierte Seiten) braucht Zeit, d.h. indizierten Dokumente können nicht täglich auf Änderungen untersucht werden. Für Dokumente, die "höher" in der Hirarchie stehen (wie z.B. die Leitseiten eines Servers) kann mit ca. 1 Besuch pro Woche durch einen der "fleissigeren" Indizirungs-Roboter (wie Altavisa oder Inktomi) gerechnet werden, für tiefer in der Hierarchie liegende (wie z.B. dieses Dokument hier) mit deutlich selteneren Besuchen (ca. 1 Mal pro Vierteljahr, oder noch seltener) durch deutlich weniger Roboter. (Z.B.: das Dokument zu den Teilnahmebestätigungen für diesen Kurs hier stammt von Juli 1999 und wurde bis 5. Oktober 1999 von nur 2 Robotern [Crawler (deutscher Regionalroboter) und Altavista] besucht - jeweils nur einmal.)

Es wird vermutet, daß derzeit das WWW schneller wächst, als die Inhalte der Datenbanken der Robterindices (siehe WWWmetrics-Studie ). Das hat zur Folge, daß neue Dokumente immer später erstmals indiziert werden und möglicherweise auch, daß ältere Dokumente immer seltener auf Änderungen überprüft werden. Falls die Vermutung richtig ist und der vermutete Sachverhalt (schnelleres Wachstum des WWW als der Datenbanken der Roboterindices) anhalten sollte, wird es Dokumente geben, die nie indiziert werden werden.

Die verschiedenen Indices unterscheiden sich durch · Anzahl der indizierten Dokumente, · Häufigkeit der Indizierung, · Komfort und Differenziertheit der möglichen Suchanfragen, · Kriterien für die Auswahl der indizierten Dokumente, · Kriterien für die Sortierung der Ergebnisse von Suchanfragen.

Die Zahl der von Robotern erstellten Indices ist groß, die Unterschiede zwischen ihnen wie erwähnt nicht unerheblich. Empfehlungen dazu, welche Indices Sie für Ihre Suchanfragen heranziehen sollten sind kaum möglich: am besten sie probieren die untegenannten für einige für Ihre Interessen typische Fragestellungen aus, und nutzen dann diejenigen häufiger, die Ihnen bessere Ergebnisse geliefert haben.


Roboterindices ohne lokale Beschränkung


Roboterindices für den deutschen Sprachraum


Metasuchmaschinen: weltweit und für deutschen Sprachraum

Metasuchmaschinen sind Angebote, die mehrere Roboterindices (weltweite und/oder lokale) durchsuchen und die Ergebnisse mehr oder minder übersichtlich zusammenfassen. Die Suchmöglichkeiten sind notwendigerweise eingeschränkt (da bestenfalls auf den kleinsten gemeinsamen nennenr der Suchmöglichkeiten der durchsuchten einzelnen Roboterindices beschränkt). Metasuchmaschinen eignen sich für die Suche nach Dokumenten zu Themen zu denen es sehr wenige Dokumente im Internet gibt. Zudem tauglich um rauszufinden welche Roboterindices besonders viele Ergebnisse zu einem bestimmten Thema enthalten.


Verzeichnisdienste: allgemein

Verzeichnisdienste sind Übersichten, in denen (meist) Menschen (also keine Roboter) Internet-Resourcen nach bestimmten Themen verzeichnet haben. wenn man auch solche mit ziemlich wenigen Einträgen mitzählt gibt es mehrere Millionen davon. Hier nur einige der größeren und m.E. nützlicheren. Andere Bezeichnunge für derlei: "Virtual library", "Clearing house", "Internetographie", "Webliography".


Verzeichnisdienste: spezialisiert

Für fast jedes Fach bzw. Interessengebiet gibt es inzwischen mehr oder minder umfangreiche, mehr oder minder taugliche Verzeichnisdienste. Diejenigen, die mir als Verzeichnisse von Resourcen von Relevanz für die Geistesgeschichte der Renaissance tauglich erschienen sind in der Internetographien-Übersicht von GGRENir verzeichnet. (Achtung: da diese Übersicht derzeit [1999-10-12] bereits 95 Einträge enthält, ist zu erwarten, daß sie in mittlerer bis näherer Zukunft aufgeteilt werden wird. Etwaige Untergliederungen sind dem Thesaurus-Eintrag "Internetographie" von GGRENir entnehmbar.

Selbstverständlich ist auch GGRENir selbst eine Internetographie zur Geistesgeschichte der Renaissance ... [;-)].

Verzeichnisdienste zu anderen Themen sind meistens in den entsprechenden fachlich-sachlichen Untergliederungen der alggemeinen Verzeichnisdienste verzeichnet.


Suchhilfsmittel für Programme, News, eMail-Adressen, &c.


Übersichten & Theorie

  1. Thomas Hilberer: Über die Zugänglichkeit der Informationen im Internet. - Die Rolle der Bibliotheken : Über Anzahl von Internetdokumenten, Erfassungsgrad durch Suchmaschinen, Anteil wissenschaftlicher Dokumente unter den mit Suchmaschinen erfassten, und Folgerungen daraus. (September 1999 [gesehen: 1999-09-07])
  2. Stefan Karzaunikat: Suchfibel Gute deutschsprachige Einführung zu Suchen im Internet. Sehr gute Übersichten zu Suchmaschinen: Das meiste von dem was Sie in meiner Übersicht für den Kurs nicht finden, finden Sie vermutlich hier. (August 1999 [gesehen: 1999-09-07])
  3. Traugott Koch: Browsing and searching internet ressources Gut, obwohl von "vermischter" Aktualität. Erfreulich umfänglich, gut gegliedert. (September 1999 [gesehen: 1999-09-07])
  4. Konrad Umlauf: Suchmaschinen im Internet : Mittelausführliche, m. E. gut verständliche Einführung. Wenn Sie eine Einführung wollen, die kürzer ist als die von Karzaunikat und "einführender" als die von Koch: versuchen Sie's hiermit. (Juli 1999 [gesehen: 1999-09-07])
  5. Danny Sullivan (ed.): Search Engine Watch : Allgemeineres und spezielleres zu Suchmaschinen. Einiges an sehr brauchbaren Informationen. (September 1999 [gesehen: 1999-09-07])
  6. hck: Naud.mdb : MS-Access97-Datenbank: u.a. reichhaltige Internetographie zu Suchhilfsmitteln auf Stand Juni 1998 - nicht mehr völlig frisch, aber sehr reichhaltig. Nota bene: Bei Interesse sollten Sie einen Browser verwenden, der HTTP-Transfer auf Datenträger für binäre Dateien erlaubt - oder im Notfall sich direkt an mich wenden. (Juni 1998 [gesehen: 1999-09-07])
  7. Chris Sherman: Search Engine Strategies 99: Special Report :: Bericht über eine Veranstaltung, auf der Wege behandelt wurden, eigene Seite möglichst gut in Suchmaschinen-Listen zu plazieren: insbes.: Einfache Gestaltung der Seite und Verwendung von Infomationen im <HEAD> des Dokuments, Tricks für bessere Plazierung, allgemeine Verzeichnisdienste, Vorgehensweisen unterschiedlicher Betreiber von Suchmaschinen (Altavista, Excite, Google, Inktomi, Infoseek): Nicht uninteressant zu lesen. (Dezember 1999 [gesehen: 1999-12-07]).
  8. hck: WebPages von potentiellem Interesse auf dem Gebiet "Suchhilfen für's Internet": Stand von 1996 [!!!]. U.U. von historischem Interesse. Außerdem: ziemlich kurz! (Dezember 1996 [gesehen: 1999-09-07])
  9. hck: Sucheinstiege Stand: Anfang Dezember 1995 [!!!!!] Ausschließlich von historischem Interesse; sehr kurz. Vergleich mit neuerem zeigt m.E. recht brauchbar was sich so in den letzten knapp 4 jahren geändert hat. (Dezember 1995 [gesehen: 1999-09-07])
  10. hck: Theorie der Suchen, Anleitungen ... Entsprechende Sektion im Dokument für's Sommersemester 1999: enthält auch Einträge, die hier diesmal nicht aufgenommen wurden, - aber dennoch von Interesse sein könnten. (Mai 1999 [gesehen: 1999-09-07])

  11. Größe des WWW:

Links zu sonstigem, Vermischtem



[ Kursteil Internetresourcen ] / [ Leitseite Kursunterlagen ]