eJournals, Suchmaschinen und die Katalogisierung des WWW


Vortrag gehalten auf der 20. Jahrestagung der Gesellschaft für Klassifikation in Freiburg am 7. März 1996

Stand: 15. März 1996,
Korrekturen am "Coding": 9. April 1996
Autor: Heinrich C. Kuhn


MDDHH,

Aristoteles, der maestro di coloro che sanno, Aristoteles unterscheidet zwei Seinsweisen von Wissen : [1] potentielles Wissen und aktuales Wissen: § potentielles Wissen, Wissen der Möglichkeit nach, das ist etwas was von einer Person gewußt wird, ohne daß es in dem Augenblick, wo es sich um solches Wissen der Möglichkeit nach handelt von der betreffenden Person angewendet wird - Kenntnis einer Sprache etwa in den Augenblicken, wo man diese Sprache weder hört noch spricht noch liest, oder etwa das Wissen um die Winkelsumme im Dreieck in Augenblicken wo man sich weder mit Winkeln noch mit Dreiecken beschäftigt. § Und dann ist da: Aktuales Wissen, Wissen der Wirklichkeit nach: das ist Wissen das angewendet wird, wie wenn wir eine Sprache gebrauchen, oder wenn wir uns konkret mit bestimmten geometrischen Problemen beschäftigen. Die Aristotelische Tradition [2] hat gesehen, daß diese beiden Seinsweisen des Wissens allein zur Beschreibung der Weisen der Erkenntnis nicht ausreichen, und hat weitere Stufen eingeführt, weitere Stufen zunehmender "Möglichkeit", Stufen höherer Potentialität und zugleich geringerer Aktualität, Stufen jeweils geringerer Wirklichkeit.

Wissen um einen Sachverhalt, das wir noch nicht rezipiert haben, das uns aber in einem uns vorliegenden Text zur Verfügung steht, ist von geringerer "Wirklicheit" in solchem Sinne, als Wissen das wir aus einem bereits gelesenen Text gezogen haben. Wissen in einem ungelesenen Text, den wir nicht vorliegen haben, um den wir aber wissen, und den wir uns beschaffen können wiederum hat einen geringeren Grad an "Wirklichkeit" als das in einem uns vorliegenden Text. Wissen in einem Text, von dessen Existenz wir noch nicht wissen, aber über dessen Existenz wir durch geeignete Kataloge Kenntnis erlangen können hat einen nochmals geringeren Grad der Wirklichkeit. Bei Texten aber, von denen wir so keine Kenntnis erlangen können, kann wohl nicht einmal mehr von Wissen der bloßen Möglichkeit nach gesprochen werden.

Dazu, wie wir es möglich machen können, solches Wissen, das Wissen nicht einmal mehr der bloßen Möglichkeit nach ist, als solches, höchst unwirkliches Wissen unmöglich zu machen, dazu möchte ich Ihnen heute wirkliche Vorschläge für mögliches Vorgehen machen.

(Der knapp begrenzten Redezeit und des geringen Wissens um Ihre Interessen wegen werde ich im Vortrag selbst primär einen Kontext abstecken, der dann in der Diskussion mit Details gefüllt werden kann.)

MDDHH, was uns hier heute zusammengebracht hat, ist zumindest z.T. das Wissen um die Verwirrung des Wissens, ist unsere Verwirrtheit und unser Unwissen über die tauglichen Weisen die wachsende Menge des Wissens im WWW so aufzubereiten, daß sie zu aktualem, wirklichem, genutztem Wissen gemacht werden können. Obwohl ich es (da ich die Zusammensetzung des Zuhörerkreies nicht vorher hinreichend kannte), obwohl ich es kaum vermeiden kann, einiges zu sagen, was die meisten von Ihnen schon wissen, was vielen von Ihnen schon gewusste Selbstverständlichkeit ist, hoffe ich doch, nicht bei allen von Ihnen statt aktualen Wissens wirkliche Langweile hervorzurufen.

_

MDDHH:

Das Problem ist dringlich, denn: Das noch junge WWW wird älter. Die Zahl der WWW-Resourcen wächst. Damit wächst auch die Zahl derjenigen WWW-Resourcen, deren Qualität hinreichend hoch ist, um sie auch für die Kundschaft von wissenschaftlichen Bibliotheken und Spezialbibliotheken verschiedenster Ausrichtung interessant zu machen . [3] Die Erschließung dieser Resourcen ist jedoch derzeit so, daß sie nur vom einem Teil derjenigen, für die sie von potentiellem Interesse wären, wahrgenommen werden. Der Anteil wesentlicher geistiger Erzeugnisse, die nur unvollkommen wahrgenommen werden, wächst daher. Die damit verbundenen Risiken und Nachteile dürfen als bekannnt gelten , [4] desgleichen daß die für die Informationsversorgung der Wissenschaftler Zuständigen versuchen müssen derlei Risiko durch die adäquate Erschließung aller potentiell relevanten Resourcen zu verringern. Hierfür zuständig sind sowohl die Wissenschaftler selbst über den Eigenbedarf hinaus, indem sie Forschungsergebnisse und Überlegungen publizieren, als auch die sogenannten Informationsspezialisten: Bibliothekarinnen und Bibliothekare, Informationsvermittlerinnen und Informationsvermittler; hinzu kommen die EDVler.

Als Beispiel für den Bedarf an erschließender Tätigkeit seien die an Zahl zunehmenden [5] eJournals bzw. WWW-Journals [6] genommen. Die Zeiten, wo Verzeichnisse der existierenden eJournals zu einem bestimmten grobgefassten Gebiet (wie z.B. die einschlägigen Verzeichnisse der WWW-Virtual Library > [7] ) zusammen mit den Beschreibungen im Archiv der Liste newjour noch so kurz waren, daß sie (u.U. mit Einschränkung auf "peer reviewed" Publikationen) durchgesehen werden konnten, wobei alle potentiell interessierenden Titel kurz eingesehen werden , [8] dürften wohl bald zu Ende sein - falls sie nicht bereits zu Ende sind. Wir befinden uns in einer Situation, die immer schneller immer mehr der Lage bei den gedruckten Zeitschriften zu ähneln beginnt . [9] Was die Bibliotheken für den Umgang mit den gedruckten Zeitschriften tun aber fehlt (weitestgehend) für die eJournals . [10] Und durch das, was an weiterer Entwicklung elektronischer Publikationsformen zu erwarten ist, wird die Sitution eher noch schwieriger . [11] Die "klassischen" Mittel zur Verzeichnung von Einzelbeiträgen im Druckbereich: Bibliothekskataloge, Referatewerke und bibliographische Datenbanken nehmen sich der elektronischen Veröffentlichungen (zumindest derzeit noch ) [12] kaum an . [13] (Auch erfreuliche Ausnahmen scheinen hier eher die Regel zu bestätigen.)

_

Doch gibt es durchaus mehrere Versuche, diese Art von Internet-Literatur auf dem Internet selbst zu erschließen: Versuche mithilfe von Automaten, und Versuche mithilfe menschlicher Intelligenz. Beides löst das Problem nur sehr unvollkommen, wie im folgenden erläutert wird.

Es gibt eine inzwischen recht beträchtliche Anzahl von sogenannten SearchEngines, Programmen, die nach unterschiedlichen Algoritmen die öffentlich zugänglichen Dateien verschiedener Server aufrufen, analysieren und verzeichnen.
Die Zahl dieser SearchEngines wächst , [14] ihre Vorgehensweisen werden zunehmend differenziert - was als Zeichen der Reaktion auf die derzeitige, durchaus problematische Situation zu interpretieren ist.

Die Automaten verwenden verschiedene Verfahren, um zu den Dokumenten zu kommen, die sie indizieren: § ein Teil versucht ausgehend von einem oder mehreren Start-Dokumenten alle Links dieser Dokumente nachzuverfolgen, die damit geladenen Dokumente zu indizieren, und dann wiederum deren Links nachzuverfolgen, das dort gefundene zu indizieren, und so weiter und so fort. Dieses Verfahren erlaubt zwar potentiell die Erschließung des gesamten WWW, doch eben auch nur potentiell: § Es ist in keiner Weise sicher gestellt, daß von den gewählten Dokumenten aus ein wie auch immer langer Weg tatsächlich zu allen Dokumenten im WWW führt . [15] § Die Anzahl der aufzurufenden und zu indexierenden Dokumente ist trotz dieser Einschränkungen so groß und wächst so schnell, daß ein einzelner Roboter kaum noch in der Lage ist, alles was er erreichen könnte auch aufzurufen und zu indexieren: Die Behauptungen von Lycos, dem langezeit umfangreichsten Index von WWW-Resourcen, an die 90% aller Dokumente im Internet indexiert zu haben sind in der letzten Zeit wiederholt bestritten - und durch den Bestand von Alta Vista widerlegt - worden . [16]
§ Einige Suchmaschinen fordern Personen bzw. Institutionen auf, WebPages, an deren Indizierung sie interessiert sind, zur Indizierung zu melden . [17] § Viele Suchmaschinen kombinieren beides: automatische und meldungsgesteuerte Auswahl der zu indizierenden Texte. § Allen gemeinsam ist, daß sie (zumindest im Vergleich zu konventionellen Bibliotheken und Bibliographien) sehr unspezifisch in der Auswahl der aufzunehmenden Texte sind, und daß sie Ansprüche auf Vollständigkeit nicht vollständig einlösen können . [18]

Probleme bei der "formalen Erschließung" (bzw. "Erfassung"), bei den Daten, durch die die Roboter das WWW-Äquivalent zu dem, was bei Druckwerken bibliographische Daten sind, zu bilden versuchen, kommen hinzu.
Es ist bekannt, daß Bibliotheksnutzer, die nach Dokumenten suchen, den Sucheinstieg bevorzugt über den Titel suchen [19] - Was zwischen den entsprechenden HTML- <title>-tags steht ist häufig nur der Kurztitel, nicht aber der eigentliche Titel des Werkes [20] und auch was zwischen den tags für die oberste Überschriften-Ebene (<h1> und </h1>) steht ist in der Praxis leider nicht immer (nur) der Titel des entsprechenden Dokuments.
Für den nächsthäufigen Sucheinstieg, den Autorennamen [21] ist die Situation eher noch ungünstiger: Suchautomaten indizieren Autorennamen höchstens "zufällig". Automaten, die versuchten, die Namen von Autoren von indizierten Texten aus den Wörtern, die sich in der Nähe von Wörtern wie "Verfasser", "author", "autore", "von", "by" "da" etc. befinden, zu eruieren fehlen m.W. bislang ebenso wie HTML-Felder, als deren Inhalt Verfassernamen (und sonst nichts) vorgesehen wären . [22] § (Der Internet-Draft zu den Inhgalten für META-tags ist - so wie er derzeit [Anfang März 1996] vorliegt m.E. hier ungenügend - obwohl er eine Verzeichnung von Autoren vorsieht. [Es fehlen Differenzierungen von Namensbestandteilen wie Vor- und Nachnamen, und es fehlen Differenzierungen zwischen Haupt- und Nebenautoren, Autoren und Herausgebern, etc.]) § Daß Verknüpfungen zwischen Vorlageformen und (etwa gar genormten) Ansetzungsformen ebenso fehlen wie vieles anderes, an das wir uns bei der Benutzung bibliothekarischer Formalkataloge gewöhnt haben versteht sich (leider) von selbst.

_

Daß die Lage in bezug auf die sachliche Erschließung eher noch unerfreulicher ist, wird jedem, der derartige reine Roboterdaten verwendet um zu versuchen relevante Dokumente zu lokalisieren, sehr schnell und sehr schmerzhaft bewußt. Die Suchmaschinen versuchen zwar, das zu indizieren, was sie an einem Text für besonders relevant ansehen, z.B. das, was zwischen den Titel-tags steht, oder die ersten soundosoviel Zeichen Text, oder das was zwischen Überschriften-Tags steht, oder die Beschreibungstexte externer Links, oder einzelne Wörter, die wegen besonders häufigem Auftreten für besonders wichtig gehalten werden.
Die Resultate des letzteren Ansatzes angewendet auf Texte in Sprachen für die dem Roboter keine Stopwortliste zugänglich ist, sind vorstellbar.
Die Zahl der Treffer, die man mit Suchen nach "chapter 2" erhält dürfte in allen entsprechenden Roboter-Datenbanken beträchtlich sein, ebenso wie Treffer bei Suchen nach Namen von Konvertern die sich in der Titelzeile von Dokumenten "verewigen".
Dokumente mit Inhaltsverzeichnissen bei denen die Angaben zu den einzelnen Sektionen nicht repetitiv Teile der Überschrift übernehmen schneiden bei der Indizierung nicht sehr gut ab selbst wenn das Inhaltsverzeichnis direkt zu Beginn des Textes steht, die Präferenz für Dokumente bei denen ein großer Teil des Textes als Überschrift formatiert ist, ist bei menschlichen Lesern wohl auch geringer, als bei Robotern, und die Tatsache, daß nicht alle von Menschen verfassten Texte sich der Englischen Sprache bedienen wird von den mir bekannten rein maschinell erstelltenen WWW-Indices ebenfalls weniger berücksichtigt, als von den menschlichen und z.T. auch maschinen-unterstützten [23] Sacherschließern in Bibliotheken . [24]
Beschreibung der Inhalte von Dokumenten mithilfe genormter und gewichteter Schlagworte wie wir es von vielen bibliographischen Datenbanken gewöhnt sind [25] wird m.W. von keinem der derzeitigen Roboter angestrebt.
Von der Präzision der Sacherschließung in fachspezifischen Datenbanken wie etwa Medline oder Chemical Abstracts sind die Ergebnisse auch der besten Roboter-Indizierungen sehr weit entfernt.

Was die Roboter derzeit leisten, ist zwar viel besser als gar nichts, aber es ist auch immer noch alles andere als gut genug. Die Roboter werden durchaus zunehmend beser, aber ihre Aufgabe wird auch gleichzeitig durch die sehr rasch wachsende Menge relevanter zu indizierender Information immer schwieriger, und die richtige Bewältigung dieser Aufgabe dadurch zugleich immer wichtiger.

_

Es wäre ein Irrtum, zu meinen, wo Automaten scheitern, würde in Jahrhunderten erprobte klassische bibliothekarische Kompetenz, quasi von selbst und sofort, brauchbare Lösungen liefern.

Wo Maschinen an der reinen Masse des zu katalogisierenden scheitern zu erwarten mit menschlicher bibliothekarischer Arbeitskraft der oft beschworenen elektronischen Informationsflut Herr zu werden, solches zu hoffen überschätzt zwar vielleicht nicht die Einsatzbereitschaft der einzelnen Bibliothekare, wohl aber ihre derzeitige Zahl, und die Fähigkeit der bibliothekarischen Ausbildungsstätten und staatlichen wie anderen Etats uns so schnell wie die Zahl der relevanten Internet-Resourcen wächst hinreichend viele zusätzliche Bibliothekare zur Verfügung zu stellen.

Zudem sind bibliothekarische Erschließungsregeln, Ergebnisse wohldurchdachter langer Erfahrungen mit der Verzeichnung gedruckter, in der jeweils katalogisierenden Institution vorhandenen Monographien und Serienschriften, nicht notwendig geeignet zur Erfassung von WWW- Dokumenten . [26]
Die bibliothekarischen Regeln gehen davon aus, daß das, was da katalogisiert wird in der Bibliothek vorhanden und "stabil" ist, WWW-Dokumente aber müssen sich nicht in der Sammlung des Katalogisierenden befinden, und ein und das selbe Dokument kann täglich, oder gar noch häufiger, seinen Inhalt ändern . [27]
Ob der Werkbegriff traditioneller Katalogiserung füglich auf Dinge wie listserv-Listen und newsgroups angewendet werden kann, ist zumindest dann zu bezweifeln, wenn die entsprechenden Diskussionsforen nirgends archivert werden und unmoderiert sind . [28]
Daß Internet-Resourcen, bei denen sich kein persönlicher oder korporativer Autor eruieren läßt, durchaus nicht allzu selten sind, ist uns allen schmerzlich bewusst.
Exakte Entsprechungen zu Druckorten, Verlagen, Erscheinungsjahren, Auflagenbezeichnungen gibt es längst nicht in allen Fällen; Kollationsvermerke mit Seitenzahl sind für die meisten Internet-Resourcen unsinnig:
es läßt sich nicht verdrängen: Internet-Resourcen sind keine gedruckten Monographien.

Bei der Anwendung bibliothekarischer Sacherschließung ist die Lage kaum besser. RSWK läßt sich natürlich problemlos auch auf Internet-Resourcen anwenden, doch in wie weit die weitere Anwendung von RSWK so wie sie heute geschieht, auch in Zukunft sinnvoll ist, ist auch unter Bibliothekaren nicht unumstritten. Und eine adäquate Einheitssystematik, auf die sich alle Anwender auf Erschließer- wie auf Nutzerseite einigen könnten, scheint aus guten Gründen zu fehlen , [29] und die "klassischen" bibliographischen Datenbanken sind - wie erwähnt - kaum bereit das Internet zu katalogiseren. Ganz zu schweigen davon, daß die erforderliche beträchtliche Kapazität an Indexierern natürlich erst noch aufgebaut und unterhalten werden müßte.

_

Nicht durch Menschen, nicht durch Roboter: wie dann ist das Internet katalogiserbar, indexierbar?

Die Arbeitskraft der menschlichen Sacherschließer reicht zur Bewältigung der Menge der zu erschließenden Resourcen nicht aus?
Man sollte versuchen, sie durch die Arbeitskraft und Sachkompetenz, derjenigen zu ergänzen, die die Spezialgebiete auf denen die entsprechenden Resourcen entstehen noch besser kennen als die professionellen Sacherschließer: durch die Sachkompetenz und Arbeitskraft der Autoren der jeweiligen Dokumente selbst, die zur Indexierung beitragen sollte . [30]

Die bestehenden SearchEngines erlauben keine sprachgrenzenüberschreitenden Recherchen?
Man sollte versuchen, diesen Fehler zu beheben [31] .

Die bestehenden SearchEngines haben Schwierigkeiten mit der strukturierten Erschließung unstrukturierter Dokumente?
Man sollte versuchen hier durch bessere Strukturierung auf der Dokumenten-Seite abzuhelfen.

"Internetographien" zu einzelnen Fachgebieten, wie sie die derzeitigen Virtual Libraries bieten, sind auf Dauer von Menschen kaum aktuell zu halten?
Man sollte massiv Automaten einsetzen um die Qualität derartiger Resourcen zu erhalten zu helfen.

Die Informationsmenge im WWW wird bald zu groß sein, um durch einen einzigen Index nachgewiesen werden zu können?
Man sollte verteilte Indices für bestimmte Regionen und Fachgebiete einsetzen.

Eine einheitliche Sacherschließung war schon für gedruckte Dokumente nicht durchsetzbar, und wird es für WWW-Resourcen noch weniger sein?
Man sollte darauf verzichten: man hat sie ja auch bisher nicht gebraucht.

_

Im Einzelnen: Wir sollten versuchen, darauf hinzuwirken, daß sich möglichst breit Indexierungsfelder für WWW-Dokumente durchsetzen, die von den Autoren der jeweiligen Dokumente ausgefüllt werden können, unter Einbeziehung aller Indexierungsweisen und Schemata, deren sich die Autoren bedienen wollen. Derlei könnte (mit Ähnlichkeiten und Unähnlichkeiten zu dem, was derzeit in bezug auf META-tags [32] und URCs in Dikukssion ist) z.B. folgendermaßen aussehen:


<index>

<author-last-name>Kuhn</author-last-name>
<author-first-name>Heinrich C.</author-first-
name>
<author-affilation>Max-Planck-Gesellschaft / 
Generalverwaltung, München </author-affilation>

<secondary-author-last-name>Meier
</secondary-author-last-name>
<secondary-author-first-name>Martin
</secondary-author-first-name>
<secondary-author-affilation> Institut für 
Bibliothekswesen, Kleinkarlbach 
</secondary-author-affilation>
<secondary-author-last-name>Müller
</secondary-author-last-name>
<secondary-author-first-name>Manuel
</secondary-author-first-name>
<secondary-author-affilation> Arbeitskreis für 
Bibliothekswesen, Untergiesing 
</secondary-author-affilation>
<secondary-author-last-name>Huber
</secondary-author-last-name>
<secondary-author-first-name>Harald
</secondary-author-first-name>
<secondary-author-affilation> Kolleg für 
Sacherschließung, Borghorst 
</secondary-author-affilation>

<full-title>Schöner länglicher 
Dokumententitel 
mit einem oder mehreren Untertiteln: Bei 
Büchern beliebt, bei anderem auch möglich
</full-title>

<date-creation>19951222</date-creation>
<date-update>19960226</date-update>

<technical-info>HTML-Dokument with search-interface 
to 
Database and Links to ftp-resources</technical-info>

Und: noch interessanter, da jetzt die "eigentliche" Sacherschließung betreffend:


<RSWK> "Schlagwort / Kette / Eins", 
"Kette / Schlagwort / Eins", 
"Schlagwort / Kette / Zwei", 
"Kette / Schlagwort / Zwei"</RSWK> 

<LOC-SH> Subject-Headding 1, 
Subject-Heading 2 <LOC-SH>

<DDC>1.2.3.</DDC>

<MeSH> Meshterm_1, *Meshterm_2, 
Meshterm_3</MeSH>

<BiosisBioCode>Biocode1, *Biocode2, Biocode3, 
*Biocode4 </BiosisBioCode>
<BiosisConceptCode>ConceptCode1, ConceptCode2 
</BiosisConceptCode>

<CARef> 123456, 123457, 123458 </CARef>

<AuthorsKeywords> Keyword1, Keyword2, Keyword3 
</AuthorsKeywords>

<MPG-GV-AZ>25842, 2535 </MPG-GV-AZ>

<abstract>
<abstract-deutsch>Kurze Zusammenfassung 
des Dokumenten-Inhalts auf Deutsch
</abstract-deutsch>
<abstract-english>Short resumee of the document; 
in English language
</abstract-englisch>
</abstract>

</index>

So wie hier vorgeschlagen , [33] oder anders vom Autor geindext müssen die so behandelten Dokumente immer noch in Verzeichnissen oder Katalogen gleich welcher Art versammelt werden um vom Nutzer gefunden werden zu können. (- Darüber, wie SearchEngines mit derartigen Informationen in Dokumenten umgehen sollten können wir vielleicht noch Rahmen der Diskssion reden. -)

Regionale Index-Server (an Zahl und Funktion ähnlich denen unserer Bibliotheksverbünde für die Verbundkataloge) oder auch Allumfassende Indexserver - falls solche auf Dauer wirklich realisierbar sein bzw. realiserbar werden bzw. realisierbar bleiben sollten - Index-Server können mit Hilfe solcher Indexierungsinformationen durch den Autor mithilfe relativ einfacher WebCrawler [34] sinnvolle und wohlbenutzbare Indices aufbauen und aktuell halten. Server für bestimmte Fachgebiete könnten wiederum auf Basis der Informationen dieser regionalen Server eigene Indices erstellen (z.B. ein Humanbiologie-Server durch Abruf aller Indizierungs-Informationen, bei denen die Felder für MeSH und/oder Biosis-Codes vorhanden und entsprechend belegt sind). Nachdem Verweise auf die eigenen Dokumente in derartigen Fach-Index-Servern durchaus im Interesse der Autoren sind, stünde zu erwarten, daß relativ bald eine relativ beträchtliche Zahl der "seriösen" Autoren von Internet-Dokumenten entsprechende Indexierungs-Informationen ihren Texten beigibt . [35] Aus den gleichen Gründen steht zu hoffen, daß Autoren von bereits bestehenden HTML-Dokumenten diesen Dokumenten häufig entsprechende Indexierungsinformationen nachtragen werden ((und Autoren von Nicht-HTML- Dokumenten [36] entsprechende kurze HTML-Dokumente mit der zugehörigen Indexierungs-Information und einem Link zu eigentlichen Resource verfassen werden)).

_

Was ich hier heute vorgeschlagen habe, könnte vielleicht zumindest ein Weg sein, das Problem der Erschließung von Internet- Dokumenten zu lösen, und so das mögliche Wissen in den Internet-Dokumenten zu wirklichem Wissen zu machen. Und wenn wir nicht nur in der Theorie, sondern auch in der Praxis, nicht nur der Möglichkeit, sondern auch der Wirklichkeit nach das Problem der Indexierung dieser Dokumente gelöst haben, dann können wir uns dem Problem widmen, wie wir es erreichen können, daß das, was für uns heute wirkliches Wissen in Internet-Dokumenten ist auch in Zukunft zumindest mögliches Wissen bleibt: Dem Problem der Langzeit-Archivierung.

MDDHH, worüber ich hier heute vorgetregen habe war der Möglichkeit nach existierendes; für Ihre wirkliche Geduld mit meinem Vortrag danke ich Ihnen sehr herzlich - und erwarte Ihre möglichen Einwände und Fragen.

Danke.



[ Vortrag und Diskussion(en) ]
[ "Zentralseite zum Thema" ]
[ Generalverwaltung der Max-Planck-Gesellschaft ]


Fußnoten


[1] Locus classicus für potentielles und aktuales Wissen bei Aristoteles ist De anima III,5 (430a16-22)
[Zurück zum Text]


[2] Für ein solches "Stufenmodell" der Erkenntnis siehe z.B. Cesare Cremoninis Lectiones super de anima: ms. Biblioteca Nazionale Marciana (Venedig) Lat. cl. VI, cod. 192 (=2838), f. 28v-34v, ediert bei Kuhn, Heinrich C.: Venetischer Aristotelismus im Ende der aristotelischen Welt. Aspekte der Welt und des Denkens des Cesare Cremonini (1550-1631), Frankfurt 1996, p. 603-610 und die Erläuterungen dazu p. 212-228.
[Zurück zum Text]


[3] Es scheint auch insofern ein gewisser "Umschlag" stattgefunden zu haben, als die Zahl der Resourcen, die sich mit Aspekten und "Meta-Aspekten" des WWW beschäftigen, und die ich hier als "sekundäre Resourcen" bezeichnen möchte inzwischen tendentiell langsamer zu wachsen scheint, als die der Resourcen, die sich mit Forschungsinhalten beschäftigen, die nichts mit dem Medium der Verbreitung dieser Forschungen zu tun haben, und die ich hier als "primäre" Resourcen bezeichnen möchte. § Ich sammle seit August 1995 sowohl Links zu solchen "sekundären Ressourcen" auf dem Gebiet des Bibliothekswesens, als auch Links zu "primären Resourcen" auf dem traditionell eher etwas EDV-ferneren Gebiet der Geistesgeschichte (intellectual history, history of ideas) der Renaissance (wobei ich die zeitlichen Grenzen eher weit ansetze). Die Updates zu beiden Sammlungen lassen sich bis November 1995 zurückverfolgen. Im November 1995 machten die zur Geistesgeschichte gesammelten Links 24% der Gesamtlinks zu Bibliothekswesen und Geistesgeschichte aus, um dann im Dezember 1995 auf 62% zu steigen, und sich für Januar und Februar 1996 bei 32% bzw. 37% zu finden. Ich werde den "Trend" weiter verfolgen, und wäre sehr dankbar für Rückmeldungen über entsprechende (oder gegenläufige) Trends auf anderen Gebieten. Entsprechende Rückmeldungen werde ich (mit namensnennder Danksagung) auf dem Server auf dem auch dieses Dokument liegt zur Verfügung stellen.
[Zurück zum Text]


[4] Die Folgen der Nichtwahrnehmung potentiell einschlägiger Literatur sind vor allem das Fehlen potentiell relevanter Anregungen für die eigene wissenschaftliche Arbeit und das erhöhte Risiko von Doppelarbeit; die Nichtwahrnehmung potentiell einschlägiger Literatur kann somit zu schlechteren und zu unnötigen wissenschaftlichen Arbeiten führen.
[Zurück zum Text]


[5] Ihre Zahl steigt sehr schnell. Über die listserv-Liste Liste newjourn werden an "normalen" Werktagen (die Meldungsfrequenz ist etwas unregelmäßig) rund 10 neue derartige Publikationen angezeigt. Nur rund ein Drittel bis maximal die Hälfte der so angezeigten neuen Publikationen dürfte von Interesse für den einen oder anderen Fachwissenschaftler sein. Von diesen wiederum dürfte wohl nur die Hälfte sowohl nicht Organ von Studenten, als auch peer reviewed sein. Doch auch so kommt in relativ kurzer Zeit eine relativ große Zahl potentiell interessanter eJournals zusammen. Hinzu kommt, daß durchaus nicht alle neuen eJournals über Listserv-Liste newjourn angezeigt werden - über manches erfährt man nur aus anderen, deutlich fachspezifischeren Publikationen.
[Zurück zum Text]


[6] Unter eJournals werden hier nicht Online-Parallel-Versionen "kommerzieller" Zeitschriften verstanden, sondern Publikationen, die kostenlos über das Internet zugänglich sind.
[Zurück zum Text]


[7] weitere Verzeichnisse von eJournals finden sich unter http://www.gwdg.de/~hkuhn1/ejourn.htm#Verzeichnisse
[Zurück zum Text]


[8] Joseph Jones hat eine Metaresource zu eJournals: ein Verzeichnis von Verzeichnissen von eJournals zusammengestellt, die auch zu Links zu derzeit (Februar 1996) 13 Verzeichnissen von wissenschaftlichen Zeitschriften in elektronischer Form bietet.
[Zurück zum Text]


[9] Dort, bei den gedruckten Zeitschriften, ist - von wenigen Ausnahmen abgesehen, kaum ein Wissenschaftler mehr in der Lage, stets selbst zu prüfen, ob neue Hefte einer ihn interessierenden Zeitschrift erschienen sind, diese Hefte dann gegebenenfalls durchzusehen, alles was ihn jetzt und vielleicht in Zukunft interessiert zu kopieren und wiederfindbar zu archivieren, und eine perfekten Überblick über relevante Neuerscheinungen auf dem Zeitschriftenmarkt zu behalten: Gedruckte Zeitschriften werden nicht nur desshalb von Bibliotheken abonniert, weil das billiger ist, als Abonnements durch alle einzelnen interessierten Wissenschaftler, sondern auch und vor allem, weil erst die Arbeit der Bibliotheken mit den Zeitschriften den Umgang mit ihnen für die Wissenschaftler wirklich effizient macht.
[Zurück zum Text]


[10] Dabei handelt es sich um:

Solange nur sehr wenige eJournals bei erscheinen einer neuen Nummer per eMail an alle interessierten Berichte über den Inhalt der neuen Nummer verschicken, kann auch für eJournals - in Anbetracht ihrer wachsenden Zahl - auf keinen der erwähnten Dienste der Bibliotheken ohne Abstriche für die Nutzer verzichtet werden. Und auch wenn alle eJournals eine solche Praxis verfolgten, würde sich noch nicht viel ändern.
[Zurück zum Text]


[11] Zwar folgen derzeit erzeit noch die meisten eJournals dem Paradigma der gedruckten Zeitschriften, indem sie mehr oder minder regelmäßig mehere Beiträge zu einer Nummer zusammenfassen. Doch es steht - da diese Praxis Nachteile bei der Aktualität, und keine Vorteile für Leser oder Autoren mit sich bringt - mit der Zeit mehr und mehr ePublikationen zur Veröffentlichung von Einzelbeiträgen sofort nachdem sie akzeptiert wurden übergehen werden. Dann ist nicht mehr die Nummer, das "Heft" eine Einheit, sondern nur noch der einzelne Artikel. eJournals werden dann von Periodica zu Orten, wo einzelne Beiträge erscheinen. Damit nähern sie sich deutlich Listserv-Listen und Newsgroups auf der einen Seite, und Monographien auf der anderen Seite. Auf relevante Beiträge an nicht sehr häufig konsultierten Stellen aufmerksam zu werden, wird so eher nicht einfacher.
[Zurück zum Text]


[12] Es gibt allerdings Katalogisierungsprojekte von SuUB Göttingen sein..
[Zurück zum Text]


[13] Suchen in mehreren bibliographischen Datenbanken (Current Contents [alle Serien], Medline, Biosis Previews) brachten im Herbst 1995 für die peer reviewed eJournals der Verzeichnisse der WWW-Virtual Library keinen einzigen Treffer. Ob sich hier bald etwas ändern wird, steht zu bezweifeln.
[Zurück zum Text]


[14] Ich habe ein relativ umfangreiches Verzeichnis von SearchEngines, Informationen dazu und verwandten Informationen zusammengestellt. Die wachsende Zahl von derlei wird von den Einträgen zu neuen Suchwerkzeugen in http://www.gwdg.de/~hkuhn1/webpages.html#Suchen reflektiert, über die die entsprechenden Update-Hinweise in http://www.gwdg.de/~hkuhn1/neu.html informieren.
[Zurück zum Text]


[15] Fast jede virtuelle Sammlung von lokalen wie nicht lokalen Dokumenten kann irgendwo zur "Sackgasse" werden: nur auf sich selbst verweisend, und nicht mehr auf Dokumente, die außerhalb ihrer Grenzen liegen. Derlei Grenzen über die hinaus keine Verweisung mehr stattfindet können sprachliche wie inhaltliche Grenzen sein. So würde z.B. von Paul Ginspargs physikalischer Preprint- Sammlung (so groß auch immer sie ist) kaum ein Weg zu den WebPages des Max-Planck-Instituts für Bildungsforschung führen. Zudem ist nicht zu übersehen, daß Links durchaus eine Richtung haben: Es gibt zwar ein Link von den WebPages der Generalverwaltung der Max- Planck-Gesellschaft zu Paul Ginspargs Sammlung, nicht aber umgekehrt. § Schriftarten sollten als Grenzen ebenfalls nicht unterschätzt werden. Unsere eigenen WebPages verweisen weit überwiegend auf Dokumente in lateinischen Schriften, nur in einem Fall auf eine Sammlung, die auch Resourcen in kyrillischer Schrift enthält, und in derzeit keinem Fall auf Resourcen in asiatischen Schriften.
[Zurück zum Text]


[16] Siehe z.B. die Message Nummer 201/Oktober 1995 und die Message Nummer 218/Oktober 1995 aus dem Archiv der eMail-Liste Web4Lib
Die URL von Alta Vista ist Web-Bereich www.gwdg.de/~hkuhn1/ neue verstärkte Indexierungsbedingungen von Lycos und anderen SearchEngines ein, und inzwischen [Stand: Februar 1996] scheint auch Alta Vista wieder verstärkt "auf der Jagd" zu sein.
[Zurück zum Text]


[17] URLs von WebPages wo man Seiten zur Aufnahme in SearchEngines "submitten" kann: Submit it , Eureka! Internet Search Engine , Open Text Index .
[Zurück zum Text]


[18] Im "automatischen" Bereich ist dies schon allein dadurch bedingt, daß wohlerzogene Roboter robots.txt-Dateien respektieren, in denen vom WebMaster des Rechners um dessen (Teil-)Indizierung sich der Roboter bemüht festgelegt wird, welche Bereiche auf diesem Rechner der Roboter nicht in seine Indizierungs-Versuche einbeziehen soll. (Für Informationen zu derlei siehe http://info.webcrawler.com/mak/projects/robots/norobots.html , für Gründe Roboter auszuschließen siehe z.B. die Erläuterungen auf Paul Ginspargs Physik-Preprints-Server
[Zurück zum Text]


[19] Dreis, Gariele: Benutzerverhalten an einem Online-Publikumskatalog für wissenschaftliche Bibliotheken, Frankfurt 1994, p. 49.
[Zurück zum Text]


[20] ganz zu schweigen von den Fällen, wo zwischen <title> und </title> nur der Name des verwendeten Konvertierprogramms steht _ .
[Zurück zum Text]


[21] Dreis, Gariele: Benutzerverhalten an einem Online-Publikumskatalog für wissenschaftliche Bibliotheken, Frankfurt 1994, p. 49.
[Zurück zum Text]


[22] Die (noch dazu recht seltene) Kodierung von Informationen zu Personen und Institutionen mit <address></address> kann hier keinen adäquaten Ersatz liefern. Die Umständlichkeit der Meta-Tags dürfte mit ein Grund ihrer seltenen Verwendung sein, ihre seltene Verwendung wiederum ein Grund dafür, daß sie von SearchEngines noch nicht, oder zumindest noch kaum ausgewertet werden. URCs (zu diesen siehe die Ausführungen von Jörn Clausen und Price, David J.: indexing the World. Current Developments in Accessing Distributed Information, in: Hobohm H. Chr. & H.-J. Wätjen (edd.): Wissen in elektronischen Netzwerken. Strukturierung, Erschließung und Retrieval von Informationsressourcen im Internet, Oldenburg 1995, p. 87s) existieren noch nicht, und sind - wegen der geplanten Nicht-Diffrenzierung von Primär- und Sekundär-, Haupt und Neben- Autoren, Herausgebern, Redactoren, etc. -(cf. Price, loc. cit.) kaum tauglich um die hier vorgetragenen Bedürfnisse adäquat zu erfüllen.
[Zurück zum Text]


[23] Zum "Milos-Projekt". siehe den Abschlußbericht zu MILOS I und die Ergebnisse eines Retrievaltests
[Zurück zum Text]


[24] denen ebenfalls ja gelegentlich durchaus schon vorgeworfen worden ist, inadäquat zu arbeiten.
[Zurück zum Text]


[25] Z.B.: Biosis, Medline.
[Zurück zum Text]


[26] Die Bestimmungen der ensprechenden deutschen Regeln für die Formalkatalogisierung (Popst, Hans [red.]: Regeln für die alphabetische Katalogisierung in wissenschaftlichen Bibliotheken. RAK-WB, Berlin 1993 [2. ed., Mit Ergänzungsliefrungen Berlin 1995]) z.B. sind derart deutlich auf die Erfassung derartiger Werke in mit hilfe eines Kopierers erstellten Zettelkästen hin geordnet, daß schon ihre Umordnung auf die Erfassung der selben Werke in Onlinekatalogen Schwierigkeiten bereitet (siehe Payer, Margarete [ed.]: RAK für Online-Kataloge. Vorschläge für eine Reform, Berlin 1993, und die [zögerlichen] Diskussionen in der Listservliste RAK-ONL). Daß der "Umbau" bzw. die Erweiterung dieses Regelwerks hin in eines, das zur Erfassung von WWW-Dokumenten wie wir sie kennen wirklich geeignet ist, bald und einfach (falls überhaupt) zu bewerkstelligen wäre, steht m.E. zu bezweifeln.
[Zurück zum Text]


[27] URNs (bibliographische Hinweise: URLs entsprechender Informationen) können zwar helfen Dokumente als mit sich selbst zu einem früheren Zustand identisch oder erschieden zu identifizieren, nicht aber das Problem der Veränderungen der Katalogisierungsobjekte als solcher beheben. Jens Bleuel hat - m.E. zu recht - gefordert, bei bibliographischen Angaben zu Internet-Resourcen wo immer möglich nicht nur den Tag der Erstellung der Version der gesehenen Resource, sondern auch den Tag anzugeben, wo man sie das letzte Mal auf ihren Inhalt hin überprüft hat. Doch auch dies verhilft gegegebnenenfalls natürlich auch noch nicht zu mehr, als der Möglichkeit, begründetere Vermutungen darüber anzustellen, wann genau eine Resource angefangen hat, von dem abzuweichen, was an anderer Stelle über sie verzeichnet bzw. katalogisiert wurde..
[Zurück zum Text]


[28] In einer Diskssion mit Jens Bleuel in INETBIB habe ich betreffend des Zitierens aus nicht an einem bekannten Ort archivierten Internetquellen dieser Art dafür plädiert, bei entsprechenden Zitaten dort wo dies (wie bei der hier angesprichenen Diskussion mit Bleuel) zutrifft jeweils ein "Kopie der Stellungnahme/des Postings erhältlich bei _" (in diesem Falle: kuhn@mpg-gv.mpg.de) hinzuzufügen. Siehe hierzu eine mail von Jens Bleuel aus diesem Kontext .
[Zurück zum Text]


[29] DDC ist nicht nur eurozentristisch, sondern vor allem sehr grob. Was für die Katalogisierung der Monograhien kleinerer und mittlerer wenig spezialisierter Bibliotheken noch zu verschmerzen ist, ist es für die Katalogiserung zahlloser Beiträge zu hoch differenzierten Spezialgebieten - wie sie für die Zukunft im Internet zu erwarten sind -nicht mehr. So ist es auch kein Wunder, daß keine der mir bekannten bibliographischen Fach- Datenbanken DDC (oder eine andere entsprechende Einheitsklassifikation bzw. einen Ausschnitt daraus) zur Erschließung einsetzt.
[Zurück zum Text]


[30] Für Indexierung durch Autoren hat auch Lutz Donnerhacke in de.comp.www.authoring plädiert. (Stellungnahme auf Wunsch erhällich von kuhn@mpg- gv.mpg.de).
[Zurück zum Text]


[31] Derlei ist für deutsche Sacherschließung fremdsprachiger Monographien in konventionellen OPACs bereits durch das MILOS-Projekt mit Erfolg geschehen.(siehe den Abschlußbericht zu MILOS I und die Ergebnisse eines Retrievaltests ).
[Zurück zum Text]


[32] Ich habe vor, nach Ende der Diskussion hier der HTML-Workingroup eine Erweiterung der Anwendung des META-tags vorzuschlagen, die es ermöglichen würde, ihn zum Transport von derlei Information einzusetzen. Hierfür müßte nur gestattet werden, daß für den Inhalt eines META-Felds "Index" nicht nur Text, sondern auch Hyperlinks, die dann auf Texte wie den vorliegenden verweisen könnten, verwendet werden können.
[Zurück zum Text]


[33] Vorteile des hier vorgeschlagenen gegenüber URCs als Indexierung: § größere Flexibilität (zusätzliche Felder/Kategorien können ohne Änderung eines Standards definiert und verwendet werden), § größere Differenzierung (z.B. Differenzierung zwischen Haupt- und weiteren Autoren), § Verbindung von formalen und inhaltlichen Indexierungsinformationen (URCs bieten nur Basisinformatinen aus der Formalkatalogisierung).
Vorteile gegenüber META-tags: § leichtere Handhabung für die Autoren, § Strukturierung der Informationsinhalte in sich ist möglich, § nested tags sind möglich, § Browser und die Indexierungsteile der SearchEngines haben bessere Darstellungs uns Auswertungsmöglichkeiten, § längere Texte (wie z.B. Abstracts) weden nicht unhandlich.
[Zurück zum Text]


[34] Das Vorgehen für einen "Punkt-De-Index-Server" könnte z.B. so sein:

  1. Definition einer hinreichend großen Anzahl von "Start- Seiten" (z.B. alle deutschen Universitäten, Fachhochschulen, Max- Planck-Institute, Fraunhofer-Institute mit WWW-Servern plus die WWW-Server der Service-Provider plus diejenigen WWW-Seiten aus dem de-Bereich, die dem Indizierungsserver einzeln gemeldet werden),
  2. Von diesen Start-Seiten aus anwählen der entsprechenden Server
  3. Überprüfen auf Sperrhinweise in robots.txt-Datei
  4. Ablage von Sperrhinweisen in Warnungs-Datei, die es den menschlichen Verantwortlichen für den Indexierungs-Server ermöglicht, mit den Verantwortlichen für solche teilgesperrten Server Kontakt aufzunehmen, um abzuklären, wieweit Indexierung der so für Automaten gesperrten Dateien sinnvoll ist.
  5. Laden der nicht aus der automatischen Indexierung ausgeschlossenen Dateien im de-Bereich.
    Dann für jedes Dokument:
  6. Belegen entsprechender Felder für Adresse und "Kurztitel" und "Datum der Indexierung" in der Indexierungsdatenbank.
  7. Überprüfen ob Information in Indexierungs-Feldern der oben beschriebenen Art vorhanden ist.
  8. Wenn nein:
    1. Übernahme der ersten maximal 250 Zeichen, die zwischen <h1> und </h1> stehen in ein Feld "Überschrift" und
    2. Übernahme der ca. 25 am häufigsten vorkommenden bzw. "wichtigsten" Worte (ohne Formatierungen, ohne Stop-Worte, und unter Bevorzugung von Worten, die auch dann wenn sie nicht nach Punkt oder Doppelpunkt stehen mit Majuskel beginnen, sowie unter Bevorzugung von Worten, für die Äquivalente in anderen Sprachen [z.B. unter Nutzung der Wörterverzeichnisse des Milos- Projekts] gefunden werden können) in ein Feld "Wörter aus Freitext".
    3. Suche im Dokument nach Wörtern wie "Autor", "Autoren", "Author", "von", "by" etc. unter Präferenz für Auftreten zu Beginn oder am Ende des Dokuments; Übernahme des Umfelds des präferierten Auftretens dieser Worte in ein Feld "Potentielle Information über Autor/en".
    4. Übernahme von Inhalten wie Link-Informationen von mailto- Feldern in ein Feld "Potentielle Kontaktperson/en".
  9. Wenn Indexierungs-Informationen gefunden werden:
    1. Übernahme derjenigen Informationen, die zwischen Tags stehen, die der Indexierungs-Datenbank bekannt sind in entsprechende Felder der Index-Datenbank.
    2. Ausgabe eines Warnhinweises für die menschlichen Verantwortlichen für die Indexierungsdatenbank wenn unbekannte Tags zwischen <index> und </index> gefunden werden - so daß gegebenenfalls Kontakt mit den Autoren von Dokumenten mit solchen Tags aufgenommen werden kann, und beschlossen werden kann, ob der Datenbank neue Indexierungsfelder hinzugefügt werden sollen.
    3. Übernahme solch nicht klar zugeordneter Indexierungsinformationen mit den sie umgebenden Tags [!] in ein eigenes Feld "Sonstige Indexierungsinformationen".
Das hier beschriebene ist die Logik für eine "Erstindexierung"; das Vorgehen bei einem zweiten bis enten Indexierungsversuch für jedes Dokument kann daraus leicht entwickelt werden. Wie mit Dokumenten umgegangen werden soll, die indexiert wurden, und bei erneuten Durchläufen nicht wieder aufgerufen werden können, müßten die Verantwortlichen für die Indexierungs-Server entscheiden; ich würde empfehlen möglichst lange die letzte Indexierungs-Information nicht zu löschen, sondern nur ein weiteres Feld mit einer Information wie "Zugangsversuvch x mal gescheitert seit dd.mm.yyyy; letzter Versuch: dd1.mm1.yyyy1" belegen. Der Nutzer der Indexierungsinformationen kann dann selbst entscheiden, ob er Dokumente, bei denen im entsprechenden Datensatz das entsprechende Feld belegt ist, in seine Suche einbeziehen will, oder nicht.
[Zurück zum Text]


[35] Selbstverständlich steht zu erwarten, daß es zu Mißbrauch - z.B. durch bewußt falsche Verwendung von normiertem Vokabular durch Autoren, die mehr Treffer als bei korrekter Indexierung möglich ereichen wollen - doch steht m.E. zu hoffen, daß der Schaden für das Ansehen des jeweiligen Autors durch solche Praktiken größer ist, als der Nutzen für sein Ansehen, den er durch Auftauchen seiner Papers als "rosa Rauschen" in ansonsten einschlägigen Hitlists erreichen kann, und daß derartiger Mißbrauch daher selten bleiben wird.
[Zurück zum Text]


[36] Zu denken ist hier z.B. an Autoren von Dokumenten in Postcript-Format, die auf FTP-Servern zugänglich sind.
[Zurück zum Text]




[ Vortrag und Diskussion(en) ]
[ "Zentralseite zum Thema" ]
[ Generalverwaltung der Max-Planck-Gesellschaft ]


Danksagung

Besonderer Dank gilt Dr. Peter Stelzel (Bibliothek des Max-Planck-Instituts fuer Biochemie [Martinsried]) fuer seinen Hinweis darauf, dass bei einer frueheren Version dieses Dokuments die Fussnoten (aufgrund schlampiger Behandlung durch meinen Konvertierer) beim Betrachten mit WinNetscape 2.0 nicht richtig bzw. nicht vollstaendig angezeigt wurden.



[ Vortrag und Diskussion(en) ]
[ "Zentralseite zum Thema" ]
[ Generalverwaltung der Max-Planck-Gesellschaft ]