Kurs hck WiSe 1999/2000: Kursunterlagen:
Kursteil: Umgang mit und Auffinden von Internet-Quellen:
Suchhilfsmittel
Autor:: Dr. Heinrich C. Kuhn
(ua212ac@mail.lrz-muenchen.de)
Dokument erstellt: 1999-09-06
Dokument geändert:2000-02-07
Übersicht:
Allgemeines zu Roboterindices ("Suchmaschinen")
Diese Indices werden folgendermaßen erstellt: ein Programm ruft ein Dokument im WWW auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren noch nicht in der Datenbank verzeichneten Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, überprüft auf welche weiteren noch nicht in der Datenbank verzeichneten Adressen im WWW das Dokument verweist, ruft die entsprechenden Dokumente auf, trägt Informationen dazu in eine Datenbank ein, etc. etc. pp.. Die Dokumente von denen aus dieser Algorithmus startet gelangen durch "manuelle" Einträge (der Verwalter des Programmes oder durch Leute, die über "interessante" neue Adressen informieren) in die Datenbank.
Das WWW enthält derzeit vermutlich zwischen gut 500 Millionen und knapp eine Milliarde Dokumente. Keiner der derzeit verfügbaren Indices enthält Informationen zu allen diesen Dokumenten; die derzeit größten Indicies dürften rund 25% abdecken. Der Besuch und das Auswerten von auch "nur" 130 Millionen Dokumenten (Altavista am 6. Oktober 1999: 132,022,832 indizierte Seiten) braucht Zeit, d.h. indizierten Dokumente können nicht täglich auf Änderungen untersucht werden. Für Dokumente, die "höher" in der Hirarchie stehen (wie z.B. die Leitseiten eines Servers) kann mit ca. 1 Besuch pro Woche durch einen der "fleissigeren" Indizirungs-Roboter (wie Altavisa oder Inktomi) gerechnet werden, für tiefer in der Hierarchie liegende (wie z.B. dieses Dokument hier) mit deutlich selteneren Besuchen (ca. 1 Mal pro Vierteljahr, oder noch seltener) durch deutlich weniger Roboter. (Z.B.: das Dokument zu den Teilnahmebestätigungen für diesen Kurs hier stammt von Juli 1999 und wurde bis 5. Oktober 1999 von nur 2 Robotern [Crawler (deutscher Regionalroboter) und Altavista] besucht - jeweils nur einmal.)
Es wird vermutet, daß derzeit das WWW schneller wächst, als die Inhalte der Datenbanken der Robterindices (siehe WWWmetrics-Studie ). Das hat zur Folge, daß neue Dokumente immer später erstmals indiziert werden und möglicherweise auch, daß ältere Dokumente immer seltener auf Änderungen überprüft werden. Falls die Vermutung richtig ist und der vermutete Sachverhalt (schnelleres Wachstum des WWW als der Datenbanken der Roboterindices) anhalten sollte, wird es Dokumente geben, die nie indiziert werden werden.
Die verschiedenen Indices unterscheiden sich durch · Anzahl der indizierten Dokumente, · Häufigkeit der Indizierung, · Komfort und Differenziertheit der möglichen Suchanfragen, · Kriterien für die Auswahl der indizierten Dokumente, · Kriterien für die Sortierung der Ergebnisse von Suchanfragen.
Die Zahl der von Robotern erstellten Indices ist groß, die Unterschiede zwischen ihnen wie erwähnt nicht unerheblich. Empfehlungen dazu, welche Indices Sie für Ihre Suchanfragen heranziehen sollten sind kaum möglich: am besten sie probieren die untegenannten für einige für Ihre Interessen typische Fragestellungen aus, und nutzen dann diejenigen häufiger, die Ihnen bessere Ergebnisse geliefert haben.
Roboterindices ohne lokale Beschränkung
- Nota Bene: Die Benchmarks wurden am 6. Oktober 1999 gemessen; die Beurteilung der Suchmöglichkeiten geht auf die Freiheiten der Nutzer/innen selbst zu bestimmen was genau gesucht wird; die Reihenfolge der nennung gibt grob meine eigene Nutzungshäufigkeit wieder. Es gibt nachweisbar noch weitere derartige Suchmaschinen, über die Meldung von guten solchen würde ich mich freuen.
- Altavista : großer Index, sehr gute Suchmöglichkeiten; Benchmark: Treffer für Suche nach "Cremonini": 1095
- AllTheWeb : großer Index, gute Suchmöglichkeiten, derzeit erfreulich schnell; Benchmark: Treffer für Suche nach "Cremonini": 1816
- Northern Light : mittelprächtige Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 1888
- Google : gerühmter Sortieralgorithmus, rudimentäre Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 574
- Infoseek : für Regionale und weltweite Suchen, gute Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 301 (intransparent, u.U. mehr in der Datenbank)
- EZresults : Vergleichsweise kleiner Index (ca. 70 Millionen Seiten), rudimentäre Suchmöglichkeiten, bedenkenswerte Gruppierung der Treffer, Benchmark: Treffer für Suche nach "Cremonini": 435
- MSN Search : Vom DFN-Netz aus langsam zu erreichen, mittelprächtige Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 1095
- HotBot : Gute Suchmöglichkeiten bei "Expertensuche", Benchmark: Treffer für Suche nach "Cremonini": 210
- EZresults : Vergleichsweise kleiner Index (ca. 70 Millionen Seiten), rudimentäre Suchmöglichkeiten, bedenkenswerte Gruppierung der Treffer, Benchmark: Treffer für Suche nach "Cremonini": 435
- Excite : Mäßig schnell, gute Suchmöglichkeiten in der "Expertensuche", Benchmark: Treffer für Suche nach "Cremonini": 370
- Lycos Klassiker, Gute Suchmöglichkeiten, nicht sonderlich schnell, ;, Benchmark: Treffer für Suche nach "Cremonini": Unbekannt: intransparent
Roboterindices für den deutschen Sprachraum
- Nota Bene: Die Benchmarks wurden am 6. Oktober 1999 gemessen; die Beurteilung der Suchmöglichkeiten geht auf die Freiheiten der Nutzer/innen selbst zu bestimmen was genau gesucht wird; die Reihenfolge der nennung gibt grob meine eigene Nutzungshäufigkeit wieder. Es gibt vermutlich noch weitere derartige Suchmaschinen, über die Meldung von guten solchen würde ich mich freuen.
- Fireball : Gute Suchmöglichkeiten, schnell, Benchmark: Treffer für Suche nach "Cremonini": 31
- Crawler : Sehr rudimentäre Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 27
- Eule : Mittelprächtige Suchmöglichkeiten, aber gute Möglichkeit Sortierung zu bestimmen; Benchmark: Treffer für Suche nach "Cremonini": 11
- Intersearch Deutschland : Sehr rudimentäre Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 7
- Accon : Sehr rudimentäre Suchmöglichkeiten, Benchmark: Treffer für Suche nach "Cremonini": 7
- Gerhard : Groß, veraltet, spezialisiert auf "wissenschaftlicheres", auch browsebar über (auch durchsuchbaren) Index, gute Suchmöglichkeiten, bei Zugriffsversuchen Anfang Oktober 1999 keine Suche im Dokumenteninhaltsindex möglich!
- Früher gab's mal eine sehr schön aktuelle suchmöglichkeit über die Seiten der LMU; derzeit (1999-10-06) scheint die aber nicht zu funktionieren ... .
Metasuchmaschinen: weltweit und für deutschen Sprachraum
Metasuchmaschinen sind Angebote, die mehrere Roboterindices (weltweite und/oder lokale) durchsuchen und die Ergebnisse mehr oder minder übersichtlich zusammenfassen. Die Suchmöglichkeiten sind notwendigerweise eingeschränkt (da bestenfalls auf den kleinsten gemeinsamen nennenr der Suchmöglichkeiten der durchsuchten einzelnen Roboterindices beschränkt). Metasuchmaschinen eignen sich für die Suche nach Dokumenten zu Themen zu denen es sehr wenige Dokumente im Internet gibt. Zudem tauglich um rauszufinden welche Roboterindices besonders viele Ergebnisse zu einem bestimmten Thema enthalten.
- Nota Bene: die Beispielsuchen wurden am 12. Oktober 1999 durchgeführt; die Benchmarks beziehen sich auf suchen nach "GGRENir" und "Web4Ren" (letzteres ein Aktualitätstest, da es Web4Ren erst seit Ende September 1999 gibt).
- Dogpile :: Kann auch nach WebNews suchen. Sucht in ca. 12 Suchmaschinen. Benchmark: GGRENir: 26, Web4Ren: 0.
- SavvySearch :: Oberfläche in zahlreichen Sprachen. Möglichkeit schrittweise Roboterindices "anzuziehen". Benchmark: GGRENir: 17 [in mehreren Stufen erreicht], Web4Ren: 0.
- MetaCrawler :: Durchsucht ca. 8 Roboterindices. Langsam. Benchmark: GGRENir: 5, Web4Ren: 0.
- MetaGer :: Primär für deutschen Sprachraum. Auswahl der genutzten Roboterindices möglich (Maximum: 20). Auch maximnale Wartezeit ist auswählbar. Gute Gruppierung der Treffer. Durchsucht auch "Internationales". Benchmark: GGRENir: 42 [!], Web4Ren: 0.
- Apollo7 :: Maximal 12 Indices auswählbar. Schnell. Suche auf internationales ausweitbar (für Benchmark nicht getan). Benchmark: GGRENir: 14, Web4Ren: 0.
Verzeichnisdienste: allgemein
Verzeichnisdienste sind Übersichten, in denen (meist) Menschen (also keine Roboter) Internet-Resourcen nach bestimmten Themen verzeichnet haben. wenn man auch solche mit ziemlich wenigen Einträgen mitzählt gibt es mehrere Millionen davon. Hier nur einige der größeren und m.E. nützlicheren. Andere Bezeichnunge für derlei: "Virtual library", "Clearing house", "Internetographie", "Webliography".
- The WWW Virtual Library :: meist von Leuten aus Unis zusammengestellt. Mäßig aktuell. Nicht irrsinnig groß. M.W. älteste derartige Übersicht. [gesehen: 1999-10-12]
- Düsseldorfer Virtuelle Bibliothek (DVB) :: Schwerpunkt deutschsprachiges, aber auch einiges "internationales". Soweit überprüft ziemlich aktuell. Von Bibliothekaren erstellt. [gesehen: 1999-10-12]
- BUBL :: Nicht sehr groß, dafür ziemlich aktuell, wohlgegliedert. Eindeutig angelsächsischer Schwerpunkt. [gesehen: 1999-10-12]
- Open Directory: Humanities :: Für eine allgemeine Internetographie ziemlich ordentlich. [gesehen: 1999-10-12]
- Verzeichniszugang zu GERHARD :: Schwerpunkt: Resourcen aus deutschen Unis u.dgl.. Derzeit sehr mäßig aktuell. [gesehen: 1999-10-12]
- Yahoo :: Gibts auch in Regionalvarianten. Eher kommerziell orientiert. Bei aller Reichhaltigkeit für Geistesgeschichte der Renaissance wenig tauglich. [gesehen: 1999-10-12]
- WEB.de :: Deutsches "kommerzielles Verzeichnis". Auswahl innerhalb von Rubriken die die Geistesgeschichte der Renaissance betreffen mir unklar. [gesehen: 1999-10-12]
- Beyond Bookmarks :: Verzeichnis von Internetographien gemäß der genutzen Klassifikation. [gesehen: 1999-10-12]
Verzeichnisdienste: spezialisiert
Für fast jedes Fach bzw. Interessengebiet gibt es inzwischen mehr oder minder umfangreiche, mehr oder minder taugliche Verzeichnisdienste. Diejenigen, die mir als Verzeichnisse von Resourcen von Relevanz für die Geistesgeschichte der Renaissance tauglich erschienen sind in der Internetographien-Übersicht von GGRENir verzeichnet. (Achtung: da diese Übersicht derzeit [1999-10-12] bereits 95 Einträge enthält, ist zu erwarten, daß sie in mittlerer bis näherer Zukunft aufgeteilt werden wird. Etwaige Untergliederungen sind dem Thesaurus-Eintrag "Internetographie" von GGRENir entnehmbar.
Selbstverständlich ist auch GGRENir selbst eine Internetographie zur Geistesgeschichte der Renaissance ... [;-)].
Verzeichnisdienste zu anderen Themen sind meistens in den entsprechenden fachlich-sachlichen Untergliederungen der alggemeinen Verzeichnisdienste verzeichnet.
Suchhilfsmittel für Programme, News, eMail-Adressen, &c.
-
FTP:
- Es gibt derzeit ein gewisses Archie-Sterben (siehe http://archie.th-darmstadt.de/why.html , aber einige gibt's immer noch (Stand: 1999-10-12...)... .
- THD Archie : TH Darmstadt; Ende September 1999 wg. juristischen Problemen außer Dienst gegangen! Verzeichnis weiterer Server vorhanden.[gesehen: 1999-10-12
- ArchiePlexForm : TH Darmstadt, alternativzugang; funktioniert derzeit nicht. .[gesehen: 1999-10-12
- Oldenburg Archie Gateway Uni Oldenburg .[gesehen: 1999-10-12
- Dogpile : Suchmaschine für WWW, news, FTP ... . [gesehen: 1999-10-12
-
NEWS:
- Deja News : Verschiedene Suchoptionen, brauchbare "power search", sehr reichhaltige Datenbank. [gesehen: 1999-10-12
- MetaCrawler : Durchsucht hauptsächlich WWW, kann auch nach News suchen. Eher intransparent.
- Dogpile : Suchmaschine für WWW, news, FTP ... .
-
eMail:
- Es gibt verschiedene Werkzeuge, aber keines das genug Inhalte hätte und aktuell genug wäre. Ich empfehle nach der Institution der Person zu suchen deren email-Adresse gesucht wird, und sich dann "weiterzuhangeln", oder, falls keine Institution bekannt ist, nach der Person selbst (auch in News-Group-Archiven!) zu suchen.
- Siehe aber auch die Einträge in der DVB zur "Personen-Suche" in der Untergruppe"E-Mail-Adressen" [gesehen 1999-10-12]
-
Verzeichnisse von eMail-Listen:
- Hier nur vergleichsweise kleine Auswahl!
- Liszt :: durchsuchbar und browse-bar. Über 90000 Einträge. [gesehen 1999-10-12]
- Diane K. Kovacs & al.: The Directory of Scholarly and Professional E-Conferences :: durchsuchbar und browse-bar. [gesehen 1999-10-12]
- Tile :: The Directory of Scholarly and Professional E-Conferences :: durchsuchbar und browse-bar. [gesehen 1999-10-12]
- CataList :: durchsuchbar und browse-bar. Eingeschränkt auf Listen mit Software
listsrv? [gesehen 1999-10-12]
- falls Ihnen diese Auswahl nicht reicht: Probieren Sie doch mal die bei der DVB: "Verzeichnisse von E-Mail-Diskussionslisten"
Übersichten & Theorie
- Thomas Hilberer: Über die Zugänglichkeit der Informationen im Internet. - Die Rolle der Bibliotheken : Über Anzahl von Internetdokumenten, Erfassungsgrad durch Suchmaschinen, Anteil wissenschaftlicher Dokumente unter den mit Suchmaschinen erfassten, und Folgerungen daraus. (September 1999 [gesehen: 1999-09-07])
- Stefan Karzaunikat: Suchfibel Gute deutschsprachige Einführung zu Suchen im Internet. Sehr gute Übersichten zu Suchmaschinen: Das meiste von dem was Sie in meiner Übersicht für den Kurs nicht finden, finden Sie vermutlich hier. (August 1999 [gesehen: 1999-09-07])
- Traugott Koch: Browsing and searching internet ressources Gut, obwohl von "vermischter" Aktualität. Erfreulich umfänglich, gut gegliedert. (September 1999 [gesehen: 1999-09-07])
- Konrad Umlauf: Suchmaschinen im Internet : Mittelausführliche, m. E. gut verständliche Einführung. Wenn Sie eine Einführung wollen, die kürzer ist als die von Karzaunikat und "einführender" als die von Koch: versuchen Sie's hiermit. (Juli 1999 [gesehen: 1999-09-07])
- Danny Sullivan (ed.): Search Engine Watch : Allgemeineres und spezielleres zu Suchmaschinen. Einiges an sehr brauchbaren Informationen. (September 1999 [gesehen: 1999-09-07])
- hck: Naud.mdb : MS-Access97-Datenbank: u.a. reichhaltige Internetographie zu Suchhilfsmitteln auf Stand Juni 1998 - nicht mehr völlig frisch, aber sehr reichhaltig. Nota bene: Bei Interesse sollten Sie einen Browser verwenden, der HTTP-Transfer auf Datenträger für binäre Dateien erlaubt - oder im Notfall sich direkt an mich wenden. (Juni 1998 [gesehen: 1999-09-07])
- Chris Sherman: Search Engine Strategies 99: Special Report :: Bericht über eine Veranstaltung, auf der Wege behandelt wurden, eigene Seite möglichst gut in Suchmaschinen-Listen zu plazieren: insbes.: Einfache Gestaltung der Seite und Verwendung von Infomationen im <HEAD> des Dokuments, Tricks für bessere Plazierung, allgemeine Verzeichnisdienste, Vorgehensweisen unterschiedlicher Betreiber von Suchmaschinen (Altavista, Excite, Google, Inktomi, Infoseek): Nicht uninteressant zu lesen. (Dezember 1999 [gesehen: 1999-12-07]).
- hck: WebPages von potentiellem Interesse auf dem Gebiet "Suchhilfen für's Internet": Stand von 1996 [!!!]. U.U. von historischem Interesse. Außerdem: ziemlich kurz! (Dezember 1996 [gesehen: 1999-09-07])
- hck: Sucheinstiege Stand: Anfang Dezember 1995 [!!!!!] Ausschließlich von historischem Interesse; sehr kurz. Vergleich mit neuerem zeigt m.E. recht brauchbar was sich so in den letzten knapp 4 jahren geändert hat. (Dezember 1995 [gesehen: 1999-09-07])
- hck: Theorie der Suchen, Anleitungen ... Entsprechende Sektion im Dokument für's Sommersemester 1999: enthält auch Einträge, die hier diesmal nicht aufgenommen wurden, - aber dennoch von Interesse sein könnten. (Mai 1999 [gesehen: 1999-09-07])
- Größe des WWW:
Links zu sonstigem, Vermischtem
[ Kursteil Internetresourcen ] / [ Leitseite Kursunterlagen ]