
Stand: 15. März 1996,
Korrekturen am "Coding": 9. April 1996
Autor:
Heinrich C. Kuhn
MDDHH,
Aristoteles, der maestro di coloro che sanno, Aristoteles unterscheidet zwei Seinsweisen von Wissen : [1] potentielles Wissen und aktuales Wissen: § potentielles Wissen, Wissen der Möglichkeit nach, das ist etwas was von einer Person gewußt wird, ohne daß es in dem Augenblick, wo es sich um solches Wissen der Möglichkeit nach handelt von der betreffenden Person angewendet wird - Kenntnis einer Sprache etwa in den Augenblicken, wo man diese Sprache weder hört noch spricht noch liest, oder etwa das Wissen um die Winkelsumme im Dreieck in Augenblicken wo man sich weder mit Winkeln noch mit Dreiecken beschäftigt. § Und dann ist da: Aktuales Wissen, Wissen der Wirklichkeit nach: das ist Wissen das angewendet wird, wie wenn wir eine Sprache gebrauchen, oder wenn wir uns konkret mit bestimmten geometrischen Problemen beschäftigen. Die Aristotelische Tradition [2] hat gesehen, daß diese beiden Seinsweisen des Wissens allein zur Beschreibung der Weisen der Erkenntnis nicht ausreichen, und hat weitere Stufen eingeführt, weitere Stufen zunehmender "Möglichkeit", Stufen höherer Potentialität und zugleich geringerer Aktualität, Stufen jeweils geringerer Wirklichkeit.
Wissen um einen Sachverhalt, das wir noch nicht rezipiert haben, das uns aber in einem uns vorliegenden Text zur Verfügung steht, ist von geringerer "Wirklicheit" in solchem Sinne, als Wissen das wir aus einem bereits gelesenen Text gezogen haben. Wissen in einem ungelesenen Text, den wir nicht vorliegen haben, um den wir aber wissen, und den wir uns beschaffen können wiederum hat einen geringeren Grad an "Wirklichkeit" als das in einem uns vorliegenden Text. Wissen in einem Text, von dessen Existenz wir noch nicht wissen, aber über dessen Existenz wir durch geeignete Kataloge Kenntnis erlangen können hat einen nochmals geringeren Grad der Wirklichkeit. Bei Texten aber, von denen wir so keine Kenntnis erlangen können, kann wohl nicht einmal mehr von Wissen der bloßen Möglichkeit nach gesprochen werden.
Dazu, wie wir es möglich machen können, solches Wissen, das Wissen nicht einmal mehr der bloßen Möglichkeit nach ist, als solches, höchst unwirkliches Wissen unmöglich zu machen, dazu möchte ich Ihnen heute wirkliche Vorschläge für mögliches Vorgehen machen.
(Der knapp begrenzten Redezeit und des geringen Wissens um Ihre Interessen wegen werde ich im Vortrag selbst primär einen Kontext abstecken, der dann in der Diskussion mit Details gefüllt werden kann.)
MDDHH, was uns hier heute zusammengebracht hat, ist zumindest z.T. das Wissen um die Verwirrung des Wissens, ist unsere Verwirrtheit und unser Unwissen über die tauglichen Weisen die wachsende Menge des Wissens im WWW so aufzubereiten, daß sie zu aktualem, wirklichem, genutztem Wissen gemacht werden können. Obwohl ich es (da ich die Zusammensetzung des Zuhörerkreies nicht vorher hinreichend kannte), obwohl ich es kaum vermeiden kann, einiges zu sagen, was die meisten von Ihnen schon wissen, was vielen von Ihnen schon gewusste Selbstverständlichkeit ist, hoffe ich doch, nicht bei allen von Ihnen statt aktualen Wissens wirkliche Langweile hervorzurufen.
_
MDDHH:
Das Problem ist dringlich, denn: Das noch junge WWW wird älter. Die Zahl der WWW-Resourcen wächst. Damit wächst auch die Zahl derjenigen WWW-Resourcen, deren Qualität hinreichend hoch ist, um sie auch für die Kundschaft von wissenschaftlichen Bibliotheken und Spezialbibliotheken verschiedenster Ausrichtung interessant zu machen . [3] Die Erschließung dieser Resourcen ist jedoch derzeit so, daß sie nur vom einem Teil derjenigen, für die sie von potentiellem Interesse wären, wahrgenommen werden. Der Anteil wesentlicher geistiger Erzeugnisse, die nur unvollkommen wahrgenommen werden, wächst daher. Die damit verbundenen Risiken und Nachteile dürfen als bekannnt gelten , [4] desgleichen daß die für die Informationsversorgung der Wissenschaftler Zuständigen versuchen müssen derlei Risiko durch die adäquate Erschließung aller potentiell relevanten Resourcen zu verringern. Hierfür zuständig sind sowohl die Wissenschaftler selbst über den Eigenbedarf hinaus, indem sie Forschungsergebnisse und Überlegungen publizieren, als auch die sogenannten Informationsspezialisten: Bibliothekarinnen und Bibliothekare, Informationsvermittlerinnen und Informationsvermittler; hinzu kommen die EDVler.
Als Beispiel für den Bedarf an erschließender Tätigkeit seien die an Zahl zunehmenden [5] eJournals bzw. WWW-Journals [6] genommen. Die Zeiten, wo Verzeichnisse der existierenden eJournals zu einem bestimmten grobgefassten Gebiet (wie z.B. die einschlägigen Verzeichnisse der WWW-Virtual Library > [7] ) zusammen mit den Beschreibungen im Archiv der Liste newjour noch so kurz waren, daß sie (u.U. mit Einschränkung auf "peer reviewed" Publikationen) durchgesehen werden konnten, wobei alle potentiell interessierenden Titel kurz eingesehen werden , [8] dürften wohl bald zu Ende sein - falls sie nicht bereits zu Ende sind. Wir befinden uns in einer Situation, die immer schneller immer mehr der Lage bei den gedruckten Zeitschriften zu ähneln beginnt . [9] Was die Bibliotheken für den Umgang mit den gedruckten Zeitschriften tun aber fehlt (weitestgehend) für die eJournals . [10] Und durch das, was an weiterer Entwicklung elektronischer Publikationsformen zu erwarten ist, wird die Sitution eher noch schwieriger . [11] Die "klassischen" Mittel zur Verzeichnung von Einzelbeiträgen im Druckbereich: Bibliothekskataloge, Referatewerke und bibliographische Datenbanken nehmen sich der elektronischen Veröffentlichungen (zumindest derzeit noch ) [12] kaum an . [13] (Auch erfreuliche Ausnahmen scheinen hier eher die Regel zu bestätigen.)
_
Doch gibt es durchaus mehrere Versuche, diese Art von Internet-Literatur auf dem Internet selbst zu erschließen: Versuche mithilfe von Automaten, und Versuche mithilfe menschlicher Intelligenz. Beides löst das Problem nur sehr unvollkommen, wie im folgenden erläutert wird.
Es gibt eine inzwischen recht beträchtliche Anzahl von sogenannten
SearchEngines, Programmen, die nach unterschiedlichen Algoritmen die
öffentlich zugänglichen Dateien verschiedener Server aufrufen,
analysieren und verzeichnen.
Die Zahl dieser SearchEngines wächst
,
[14] ihre Vorgehensweisen werden zunehmend differenziert
- was als Zeichen der Reaktion auf die derzeitige, durchaus problematische
Situation zu interpretieren ist.
Die Automaten verwenden verschiedene Verfahren, um zu den Dokumenten
zu kommen, die sie indizieren: § ein Teil versucht ausgehend von einem
oder mehreren Start-Dokumenten alle Links dieser Dokumente
nachzuverfolgen, die damit geladenen Dokumente zu indizieren, und dann
wiederum deren Links nachzuverfolgen, das dort gefundene zu indizieren, und
so weiter und so fort. Dieses Verfahren erlaubt zwar potentiell die
Erschließung des gesamten WWW, doch eben auch nur potentiell: §
Es ist in keiner Weise sicher gestellt, daß von den gewählten
Dokumenten aus ein wie auch immer langer Weg tatsächlich zu
allen Dokumenten im WWW führt .
[15] § Die Anzahl der aufzurufenden und zu
indexierenden Dokumente ist trotz dieser Einschränkungen so groß
und wächst so schnell, daß ein einzelner Roboter kaum noch in der
Lage ist, alles was er erreichen könnte auch aufzurufen und zu
indexieren: Die Behauptungen von Lycos, dem langezeit
umfangreichsten Index von WWW-Resourcen, an die 90% aller Dokumente im
Internet indexiert zu haben sind in der letzten Zeit wiederholt bestritten - und
durch den Bestand von Alta Vista widerlegt - worden
. [16]
§ Einige Suchmaschinen fordern Personen bzw. Institutionen auf,
WebPages, an deren Indizierung sie interessiert sind, zur Indizierung zu
melden
. [17] § Viele
Suchmaschinen kombinieren beides: automatische und meldungsgesteuerte
Auswahl der zu indizierenden Texte. § Allen gemeinsam ist, daß sie
(zumindest im Vergleich zu konventionellen Bibliotheken und Bibliographien)
sehr unspezifisch in der Auswahl der aufzunehmenden Texte sind, und
daß sie Ansprüche auf Vollständigkeit nicht vollständig
einlösen können . [18]
Probleme bei der "formalen Erschließung" (bzw. "Erfassung"), bei den
Daten, durch die die Roboter das WWW-Äquivalent zu dem, was bei
Druckwerken bibliographische Daten sind, zu bilden versuchen, kommen hinzu.
Es ist bekannt, daß Bibliotheksnutzer, die nach Dokumenten suchen, den
Sucheinstieg bevorzugt über den Titel suchen
[19] - Was zwischen den entsprechenden HTML-
<title>-tags steht ist häufig nur der Kurztitel, nicht aber der
eigentliche Titel des Werkes [20]
und auch was zwischen den tags für die oberste
Überschriften-Ebene (<h1> und </h1>) steht ist in der Praxis
leider nicht immer (nur) der Titel des entsprechenden Dokuments.
Für den nächsthäufigen Sucheinstieg, den
Autorennamen
[21] ist die Situation eher
noch ungünstiger: Suchautomaten indizieren Autorennamen
höchstens "zufällig". Automaten, die versuchten, die
Namen von Autoren von indizierten Texten aus den Wörtern, die sich in
der Nähe von Wörtern wie "Verfasser",
"author", "autore", "von", "by"
"da" etc. befinden, zu eruieren fehlen m.W. bislang ebenso wie
HTML-Felder, als deren Inhalt Verfassernamen (und sonst nichts) vorgesehen
wären . [22] § (Der
Internet-Draft zu den Inhgalten für META-tags ist - so wie er derzeit
[Anfang März 1996] vorliegt m.E. hier ungenügend - obwohl er eine
Verzeichnung von Autoren vorsieht. [Es fehlen Differenzierungen von
Namensbestandteilen wie Vor- und Nachnamen, und es fehlen
Differenzierungen zwischen Haupt- und Nebenautoren, Autoren und
Herausgebern, etc.]) § Daß Verknüpfungen zwischen
Vorlageformen und (etwa gar genormten) Ansetzungsformen ebenso fehlen wie
vieles anderes, an das wir uns bei der Benutzung bibliothekarischer
Formalkataloge gewöhnt haben versteht sich (leider) von selbst.
_
Daß die Lage in bezug auf die sachliche Erschließung eher noch
unerfreulicher ist, wird jedem, der derartige reine Roboterdaten verwendet um
zu versuchen relevante Dokumente zu lokalisieren, sehr schnell und sehr
schmerzhaft bewußt. Die Suchmaschinen versuchen zwar, das zu
indizieren, was sie an einem Text für besonders relevant ansehen, z.B.
das, was zwischen den Titel-tags steht, oder die ersten soundosoviel Zeichen
Text, oder das was zwischen Überschriften-Tags steht, oder die
Beschreibungstexte externer Links, oder einzelne Wörter, die wegen
besonders häufigem Auftreten für besonders wichtig
gehalten werden.
Die Resultate des letzteren Ansatzes angewendet auf
Texte in Sprachen für die dem Roboter keine Stopwortliste
zugänglich ist, sind vorstellbar.
Die Zahl der Treffer, die man mit
Suchen nach "chapter 2" erhält dürfte in allen
entsprechenden Roboter-Datenbanken beträchtlich sein, ebenso wie
Treffer bei Suchen nach Namen von Konvertern die sich in der Titelzeile von
Dokumenten "verewigen".
Dokumente mit
Inhaltsverzeichnissen bei denen die Angaben zu den einzelnen Sektionen nicht
repetitiv Teile der Überschrift übernehmen schneiden bei der
Indizierung nicht sehr gut ab selbst wenn das Inhaltsverzeichnis direkt zu
Beginn des Textes steht, die Präferenz für Dokumente bei denen
ein großer Teil des Textes als Überschrift formatiert ist, ist bei
menschlichen Lesern wohl auch geringer, als bei Robotern, und die Tatsache,
daß nicht alle von Menschen verfassten Texte sich der Englischen
Sprache bedienen wird von den mir bekannten rein maschinell erstelltenen
WWW-Indices ebenfalls weniger berücksichtigt, als von den
menschlichen und z.T. auch maschinen-unterstützten
[23] Sacherschließern in
Bibliotheken .
[24]
Beschreibung der Inhalte von Dokumenten
mithilfe genormter und gewichteter Schlagworte wie wir es von vielen
bibliographischen Datenbanken gewöhnt sind
[25] wird m.W. von keinem der derzeitigen Roboter
angestrebt.
Von der Präzision der Sacherschließung in
fachspezifischen Datenbanken wie etwa Medline oder Chemical
Abstracts sind die Ergebnisse auch der besten Roboter-Indizierungen
sehr weit entfernt.
Was die Roboter derzeit leisten, ist zwar viel besser als gar nichts, aber es ist auch immer noch alles andere als gut genug. Die Roboter werden durchaus zunehmend beser, aber ihre Aufgabe wird auch gleichzeitig durch die sehr rasch wachsende Menge relevanter zu indizierender Information immer schwieriger, und die richtige Bewältigung dieser Aufgabe dadurch zugleich immer wichtiger.
_
Es wäre ein Irrtum, zu meinen, wo Automaten scheitern, würde in Jahrhunderten erprobte klassische bibliothekarische Kompetenz, quasi von selbst und sofort, brauchbare Lösungen liefern.
Wo Maschinen an der reinen Masse des zu katalogisierenden scheitern zu erwarten mit menschlicher bibliothekarischer Arbeitskraft der oft beschworenen elektronischen Informationsflut Herr zu werden, solches zu hoffen überschätzt zwar vielleicht nicht die Einsatzbereitschaft der einzelnen Bibliothekare, wohl aber ihre derzeitige Zahl, und die Fähigkeit der bibliothekarischen Ausbildungsstätten und staatlichen wie anderen Etats uns so schnell wie die Zahl der relevanten Internet-Resourcen wächst hinreichend viele zusätzliche Bibliothekare zur Verfügung zu stellen.
Zudem sind bibliothekarische Erschließungsregeln, Ergebnisse
wohldurchdachter langer Erfahrungen mit der Verzeichnung gedruckter, in der
jeweils katalogisierenden Institution vorhandenen Monographien und
Serienschriften, nicht notwendig geeignet zur Erfassung von WWW-
Dokumenten . [26]
Die
bibliothekarischen Regeln gehen davon aus, daß das, was da
katalogisiert wird in der Bibliothek vorhanden und "stabil"
ist, WWW-Dokumente aber müssen sich nicht in der Sammlung des
Katalogisierenden befinden, und ein und das selbe Dokument kann
täglich, oder gar noch häufiger, seinen Inhalt ändern
. [27]
Ob der Werkbegriff
traditioneller Katalogiserung füglich auf Dinge wie listserv-Listen und
newsgroups angewendet werden kann, ist zumindest dann zu bezweifeln, wenn
die entsprechenden Diskussionsforen nirgends archivert werden und
unmoderiert sind . [28]
Daß Internet-Resourcen, bei denen sich kein persönlicher oder
korporativer Autor eruieren läßt, durchaus nicht allzu selten sind, ist
uns allen schmerzlich bewusst.
Exakte Entsprechungen zu Druckorten,
Verlagen, Erscheinungsjahren, Auflagenbezeichnungen gibt es längst
nicht in allen Fällen; Kollationsvermerke mit Seitenzahl sind für die
meisten Internet-Resourcen unsinnig:
es läßt sich nicht
verdrängen: Internet-Resourcen sind keine gedruckten
Monographien.
Bei der Anwendung bibliothekarischer Sacherschließung ist die Lage kaum besser. RSWK läßt sich natürlich problemlos auch auf Internet-Resourcen anwenden, doch in wie weit die weitere Anwendung von RSWK so wie sie heute geschieht, auch in Zukunft sinnvoll ist, ist auch unter Bibliothekaren nicht unumstritten. Und eine adäquate Einheitssystematik, auf die sich alle Anwender auf Erschließer- wie auf Nutzerseite einigen könnten, scheint aus guten Gründen zu fehlen , [29] und die "klassischen" bibliographischen Datenbanken sind - wie erwähnt - kaum bereit das Internet zu katalogiseren. Ganz zu schweigen davon, daß die erforderliche beträchtliche Kapazität an Indexierern natürlich erst noch aufgebaut und unterhalten werden müßte.
_
Nicht durch Menschen, nicht durch Roboter: wie dann ist das Internet katalogiserbar, indexierbar?
_
Im Einzelnen: Wir sollten versuchen, darauf hinzuwirken, daß sich möglichst breit Indexierungsfelder für WWW-Dokumente durchsetzen, die von den Autoren der jeweiligen Dokumente ausgefüllt werden können, unter Einbeziehung aller Indexierungsweisen und Schemata, deren sich die Autoren bedienen wollen. Derlei könnte (mit Ähnlichkeiten und Unähnlichkeiten zu dem, was derzeit in bezug auf META-tags [32] und URCs in Dikukssion ist) z.B. folgendermaßen aussehen:
<index> <author-last-name>Kuhn</author-last-name> <author-first-name>Heinrich C.</author-first- name> <author-affilation>Max-Planck-Gesellschaft / Generalverwaltung, München </author-affilation> <secondary-author-last-name>Meier </secondary-author-last-name> <secondary-author-first-name>Martin </secondary-author-first-name> <secondary-author-affilation> Institut für Bibliothekswesen, Kleinkarlbach </secondary-author-affilation> <secondary-author-last-name>Müller </secondary-author-last-name> <secondary-author-first-name>Manuel </secondary-author-first-name> <secondary-author-affilation> Arbeitskreis für Bibliothekswesen, Untergiesing </secondary-author-affilation> <secondary-author-last-name>Huber </secondary-author-last-name> <secondary-author-first-name>Harald </secondary-author-first-name> <secondary-author-affilation> Kolleg für Sacherschließung, Borghorst </secondary-author-affilation> <full-title>Schöner länglicher Dokumententitel mit einem oder mehreren Untertiteln: Bei Büchern beliebt, bei anderem auch möglich </full-title> <date-creation>19951222</date-creation> <date-update>19960226</date-update> <technical-info>HTML-Dokument with search-interface to Database and Links to ftp-resources</technical-info>
Und: noch interessanter, da jetzt die "eigentliche" Sacherschließung betreffend:
<RSWK> "Schlagwort / Kette / Eins", "Kette / Schlagwort / Eins", "Schlagwort / Kette / Zwei", "Kette / Schlagwort / Zwei"</RSWK> <LOC-SH> Subject-Headding 1, Subject-Heading 2 <LOC-SH> <DDC>1.2.3.</DDC> <MeSH> Meshterm_1, *Meshterm_2, Meshterm_3</MeSH> <BiosisBioCode>Biocode1, *Biocode2, Biocode3, *Biocode4 </BiosisBioCode> <BiosisConceptCode>ConceptCode1, ConceptCode2 </BiosisConceptCode> <CARef> 123456, 123457, 123458 </CARef> <AuthorsKeywords> Keyword1, Keyword2, Keyword3 </AuthorsKeywords> <MPG-GV-AZ>25842, 2535 </MPG-GV-AZ> <abstract> <abstract-deutsch>Kurze Zusammenfassung des Dokumenten-Inhalts auf Deutsch </abstract-deutsch> <abstract-english>Short resumee of the document; in English language </abstract-englisch> </abstract> </index>
So wie hier vorgeschlagen , [33] oder anders vom Autor geindext müssen die so behandelten Dokumente immer noch in Verzeichnissen oder Katalogen gleich welcher Art versammelt werden um vom Nutzer gefunden werden zu können. (- Darüber, wie SearchEngines mit derartigen Informationen in Dokumenten umgehen sollten können wir vielleicht noch Rahmen der Diskssion reden. -)
Regionale Index-Server (an Zahl und Funktion ähnlich denen unserer Bibliotheksverbünde für die Verbundkataloge) oder auch Allumfassende Indexserver - falls solche auf Dauer wirklich realisierbar sein bzw. realiserbar werden bzw. realisierbar bleiben sollten - Index-Server können mit Hilfe solcher Indexierungsinformationen durch den Autor mithilfe relativ einfacher WebCrawler [34] sinnvolle und wohlbenutzbare Indices aufbauen und aktuell halten. Server für bestimmte Fachgebiete könnten wiederum auf Basis der Informationen dieser regionalen Server eigene Indices erstellen (z.B. ein Humanbiologie-Server durch Abruf aller Indizierungs-Informationen, bei denen die Felder für MeSH und/oder Biosis-Codes vorhanden und entsprechend belegt sind). Nachdem Verweise auf die eigenen Dokumente in derartigen Fach-Index-Servern durchaus im Interesse der Autoren sind, stünde zu erwarten, daß relativ bald eine relativ beträchtliche Zahl der "seriösen" Autoren von Internet-Dokumenten entsprechende Indexierungs-Informationen ihren Texten beigibt . [35] Aus den gleichen Gründen steht zu hoffen, daß Autoren von bereits bestehenden HTML-Dokumenten diesen Dokumenten häufig entsprechende Indexierungsinformationen nachtragen werden ((und Autoren von Nicht-HTML- Dokumenten [36] entsprechende kurze HTML-Dokumente mit der zugehörigen Indexierungs-Information und einem Link zu eigentlichen Resource verfassen werden)).
_
Was ich hier heute vorgeschlagen habe, könnte vielleicht zumindest ein Weg sein, das Problem der Erschließung von Internet- Dokumenten zu lösen, und so das mögliche Wissen in den Internet-Dokumenten zu wirklichem Wissen zu machen. Und wenn wir nicht nur in der Theorie, sondern auch in der Praxis, nicht nur der Möglichkeit, sondern auch der Wirklichkeit nach das Problem der Indexierung dieser Dokumente gelöst haben, dann können wir uns dem Problem widmen, wie wir es erreichen können, daß das, was für uns heute wirkliches Wissen in Internet-Dokumenten ist auch in Zukunft zumindest mögliches Wissen bleibt: Dem Problem der Langzeit-Archivierung.
MDDHH, worüber ich hier heute vorgetregen habe war der Möglichkeit nach existierendes; für Ihre wirkliche Geduld mit meinem Vortrag danke ich Ihnen sehr herzlich - und erwarte Ihre möglichen Einwände und Fragen.
Danke.
[1] Locus classicus für
potentielles und aktuales Wissen bei Aristoteles ist De anima
III,5 (430a16-22)
[Zurück zum Text]
[2] Für ein solches
"Stufenmodell" der Erkenntnis siehe z.B. Cesare
Cremoninis Lectiones super de anima: ms. Biblioteca
Nazionale Marciana (Venedig) Lat. cl. VI, cod. 192 (=2838), f. 28v-34v, ediert
bei Kuhn, Heinrich C.: Venetischer Aristotelismus im Ende der
aristotelischen Welt. Aspekte der Welt und des Denkens des Cesare
Cremonini (1550-1631), Frankfurt 1996, p. 603-610 und die
Erläuterungen dazu p. 212-228.
[Zurück zum Text]
[3] Es scheint auch insofern ein
gewisser "Umschlag" stattgefunden zu haben, als die Zahl der
Resourcen, die sich mit Aspekten und "Meta-Aspekten" des WWW
beschäftigen, und die ich hier als "sekundäre Resourcen"
bezeichnen möchte inzwischen tendentiell langsamer zu wachsen
scheint, als die der Resourcen, die sich mit Forschungsinhalten
beschäftigen, die nichts mit dem Medium der Verbreitung dieser
Forschungen zu tun haben, und die ich hier als "primäre"
Resourcen bezeichnen möchte. § Ich sammle seit August 1995
sowohl Links zu solchen "sekundären Ressourcen" auf dem
Gebiet des Bibliothekswesens, als auch Links zu "primären Resourcen"
auf dem traditionell eher etwas EDV-ferneren Gebiet der Geistesgeschichte
(intellectual history, history of ideas) der Renaissance (wobei ich die zeitlichen
Grenzen eher weit ansetze). Die Updates zu beiden Sammlungen lassen sich
bis November 1995 zurückverfolgen. Im November 1995 machten die zur
Geistesgeschichte gesammelten Links 24% der Gesamtlinks zu
Bibliothekswesen und Geistesgeschichte aus, um dann im Dezember 1995 auf
62% zu steigen, und sich für Januar und Februar 1996 bei 32% bzw. 37%
zu finden. Ich werde den "Trend" weiter verfolgen, und wäre
sehr dankbar für Rückmeldungen über entsprechende (oder
gegenläufige) Trends auf anderen Gebieten. Entsprechende
Rückmeldungen werde
ich (mit namensnennder
Danksagung) auf dem Server auf dem auch dieses Dokument liegt zur
Verfügung stellen.
[Zurück zum Text]
[4] Die Folgen der Nichtwahrnehmung
potentiell einschlägiger Literatur sind vor allem das Fehlen potentiell
relevanter Anregungen für die eigene wissenschaftliche Arbeit und das
erhöhte Risiko von Doppelarbeit; die Nichtwahrnehmung potentiell
einschlägiger Literatur kann somit zu schlechteren und zu
unnötigen wissenschaftlichen Arbeiten führen.
[Zurück zum Text]
[5] Ihre Zahl steigt sehr schnell.
Über die listserv-Liste Liste
newjourn werden an "normalen" Werktagen (die Meldungsfrequenz
ist etwas unregelmäßig) rund 10 neue derartige Publikationen
angezeigt. Nur rund ein Drittel bis maximal die Hälfte der so angezeigten
neuen Publikationen dürfte von Interesse für den einen oder
anderen Fachwissenschaftler sein. Von diesen wiederum dürfte wohl nur
die Hälfte sowohl nicht Organ von Studenten, als auch peer reviewed
sein. Doch auch so kommt in relativ kurzer Zeit eine relativ große Zahl
potentiell interessanter eJournals zusammen. Hinzu kommt, daß durchaus
nicht alle neuen eJournals über
Listserv-Liste newjourn
angezeigt werden - über manches erfährt man nur aus anderen,
deutlich fachspezifischeren Publikationen.
[Zurück zum Text]
[6] Unter eJournals werden hier nicht
Online-Parallel-Versionen "kommerzieller" Zeitschriften verstanden,
sondern Publikationen, die kostenlos über das Internet zugänglich
sind.
[Zurück zum Text]
[7] weitere Verzeichnisse von
eJournals finden sich unter
http://www.gwdg.de/~hkuhn1/ejourn.htm#Verzeichnisse
[Zurück zum Text]
[8] Joseph Jones hat eine
Metaresource zu eJournals: ein Verzeichnis von Verzeichnissen von
eJournals zusammengestellt, die auch zu Links zu derzeit (Februar 1996) 13
Verzeichnissen von wissenschaftlichen Zeitschriften in elektronischer
Form bietet.
[Zurück zum Text]
[9] Dort, bei den gedruckten
Zeitschriften, ist - von wenigen Ausnahmen abgesehen, kaum ein
Wissenschaftler mehr in der Lage, stets selbst zu prüfen, ob neue Hefte
einer ihn interessierenden Zeitschrift erschienen sind, diese Hefte dann
gegebenenfalls durchzusehen, alles was ihn jetzt und vielleicht in Zukunft
interessiert zu kopieren und wiederfindbar zu archivieren, und eine perfekten
Überblick über relevante Neuerscheinungen auf dem
Zeitschriftenmarkt zu behalten: Gedruckte Zeitschriften werden nicht nur
desshalb von Bibliotheken abonniert, weil das billiger ist, als Abonnements
durch alle einzelnen interessierten Wissenschaftler, sondern auch und vor
allem, weil erst die Arbeit der Bibliotheken mit den Zeitschriften den Umgang
mit ihnen für die Wissenschaftler wirklich effizient macht.
[Zurück zum Text]
[10] Dabei handelt es sich um:
[11] Zwar folgen derzeit erzeit noch
die meisten eJournals dem Paradigma der gedruckten Zeitschriften, indem sie
mehr oder minder regelmäßig mehere Beiträge zu einer
Nummer zusammenfassen. Doch es steht - da diese Praxis Nachteile bei der
Aktualität, und keine Vorteile für Leser oder Autoren mit sich bringt -
mit der Zeit mehr und mehr ePublikationen zur Veröffentlichung von
Einzelbeiträgen sofort nachdem sie akzeptiert wurden übergehen
werden. Dann ist nicht mehr die Nummer, das "Heft" eine Einheit,
sondern nur noch der einzelne Artikel. eJournals werden dann von Periodica
zu Orten, wo einzelne Beiträge erscheinen. Damit nähern sie sich
deutlich Listserv-Listen und Newsgroups auf der einen Seite, und
Monographien auf der anderen Seite. Auf relevante Beiträge an nicht
sehr häufig konsultierten Stellen aufmerksam zu werden, wird so eher
nicht einfacher.
[Zurück zum Text]
[12] Es gibt allerdings
Katalogisierungsprojekte von SuUB Göttingen sein..
[Zurück zum Text]
[13] Suchen in mehreren
bibliographischen Datenbanken (Current Contents [alle Serien],
Medline, Biosis Previews) brachten im Herbst 1995 für die peer
reviewed eJournals der
Verzeichnisse der
WWW-Virtual Library keinen einzigen Treffer. Ob sich hier bald etwas
ändern wird, steht zu bezweifeln.
[Zurück zum Text]
[14] Ich habe ein relativ
umfangreiches
Verzeichnis von SearchEngines, Informationen dazu und verwandten
Informationen zusammengestellt. Die wachsende Zahl von derlei wird von
den Einträgen zu neuen Suchwerkzeugen in
http://www.gwdg.de/~hkuhn1/webpages.html#Suchen reflektiert,
über die die entsprechenden Update-Hinweise in
http://www.gwdg.de/~hkuhn1/neu.html informieren.
[Zurück zum Text]
[15] Fast jede virtuelle Sammlung von
lokalen wie nicht lokalen Dokumenten kann irgendwo zur
"Sackgasse" werden: nur auf sich selbst verweisend, und nicht
mehr auf Dokumente, die außerhalb ihrer Grenzen liegen. Derlei Grenzen
über die hinaus keine Verweisung mehr stattfindet können
sprachliche wie inhaltliche Grenzen sein. So würde z.B. von
Paul Ginspargs physikalischer Preprint-
Sammlung (so groß auch immer sie ist) kaum ein Weg zu den
WebPages des Max-Planck-Instituts
für Bildungsforschung führen. Zudem ist nicht zu
übersehen, daß Links durchaus eine Richtung haben: Es gibt zwar
ein Link von den WebPages der
Generalverwaltung der Max-
Planck-Gesellschaft zu Paul Ginspargs Sammlung, nicht aber
umgekehrt. § Schriftarten sollten als Grenzen ebenfalls nicht
unterschätzt werden. Unsere eigenen WebPages verweisen weit
überwiegend auf Dokumente in lateinischen Schriften, nur in einem Fall
auf eine Sammlung, die auch Resourcen in kyrillischer Schrift enthält,
und in derzeit keinem Fall auf Resourcen in asiatischen Schriften.
[Zurück zum Text]
[16] Siehe z.B. die
Message Nummer 201/Oktober 1995 und die
Message Nummer 218/Oktober 1995 aus dem Archiv der eMail-Liste
Web4Lib
Die
URL von Alta Vista ist Web-Bereich www.gwdg.de/~hkuhn1/
neue verstärkte Indexierungsbedingungen von Lycos und
anderen SearchEngines ein, und inzwischen [Stand: Februar 1996] scheint
auch Alta Vista wieder verstärkt "auf der Jagd" zu sein.
[Zurück zum Text]
[17] URLs von WebPages wo man
Seiten zur Aufnahme in SearchEngines "submitten" kann:
Submit it ,
Eureka! Internet
Search Engine , Open Text Index .
[Zurück zum Text]
[18] Im "automatischen"
Bereich ist dies schon allein dadurch bedingt, daß wohlerzogene Roboter
robots.txt-Dateien respektieren, in denen vom WebMaster des Rechners um
dessen (Teil-)Indizierung sich der Roboter bemüht festgelegt wird, welche
Bereiche auf diesem Rechner der Roboter nicht in seine Indizierungs-Versuche
einbeziehen soll. (Für Informationen zu derlei siehe
http://info.webcrawler.com/mak/projects/robots/norobots.html >, für
Gründe Roboter auszuschließen siehe z.B. die
Erläuterungen auf Paul
Ginspargs Physik-Preprints-Server
[Zurück zum Text]
[19] Dreis, Gariele:
Benutzerverhalten an einem Online-Publikumskatalog für
wissenschaftliche Bibliotheken, Frankfurt 1994, p. 49.
[Zurück zum Text]
[20] ganz zu schweigen von den
Fällen, wo zwischen <title> und </title> nur der Name des
verwendeten Konvertierprogramms steht _ .
[Zurück zum Text]
[21] Dreis, Gariele:
Benutzerverhalten an einem Online-Publikumskatalog für
wissenschaftliche Bibliotheken, Frankfurt 1994, p. 49.
[Zurück zum Text]
[22] Die (noch dazu recht seltene)
Kodierung von Informationen zu Personen und Institutionen mit
<address></address> kann hier keinen adäquaten Ersatz
liefern. Die Umständlichkeit der Meta-Tags dürfte mit ein Grund
ihrer seltenen Verwendung sein, ihre seltene Verwendung wiederum ein Grund
dafür, daß sie von SearchEngines noch nicht, oder zumindest noch
kaum ausgewertet werden. URCs (zu diesen siehe
die
Ausführungen von Jörn Clausen und Price,
David J.: indexing the World. Current Developments in Accessing Distributed
Information, in: Hobohm H. Chr. & H.-J. Wätjen
(edd.): Wissen in elektronischen Netzwerken. Strukturierung,
Erschließung und Retrieval von Informationsressourcen im Internet,
Oldenburg 1995, p. 87s) existieren noch nicht, und sind - wegen der geplanten
Nicht-Diffrenzierung von Primär- und Sekundär-, Haupt und Neben-
Autoren, Herausgebern, Redactoren, etc. -(cf. Price, loc. cit.) kaum tauglich um
die hier vorgetragenen Bedürfnisse adäquat zu erfüllen.
[Zurück zum Text]
[23] Zum "Milos-Projekt".
siehe den Abschlußbericht zu MILOS I
und die
Ergebnisse eines Retrievaltests
[Zurück zum Text]
[24] denen ebenfalls ja gelegentlich
durchaus schon vorgeworfen worden ist, inadäquat zu arbeiten.
[Zurück zum Text]
[25] Z.B.: Biosis, Medline.
[Zurück zum Text]
[26] Die Bestimmungen der
ensprechenden deutschen Regeln für die Formalkatalogisierung
(Popst, Hans [red.]: Regeln für die alphabetische
Katalogisierung in wissenschaftlichen Bibliotheken. RAK-WB, Berlin 1993 [2.
ed., Mit Ergänzungsliefrungen Berlin 1995]) z.B. sind derart deutlich auf
die Erfassung derartiger Werke in mit hilfe eines Kopierers erstellten
Zettelkästen hin geordnet, daß schon ihre Umordnung auf die
Erfassung der selben Werke in Onlinekatalogen Schwierigkeiten bereitet
(siehe Payer, Margarete [ed.]: RAK für Online-Kataloge.
Vorschläge für eine Reform, Berlin 1993, und die [zögerlichen]
Diskussionen in der Listservliste RAK-ONL). Daß der "Umbau"
bzw. die Erweiterung dieses Regelwerks hin in eines, das zur Erfassung von
WWW-Dokumenten wie wir sie kennen wirklich geeignet ist, bald und einfach
(falls überhaupt) zu bewerkstelligen wäre, steht m.E. zu bezweifeln.
[Zurück zum Text]
[27] URNs (bibliographische
Hinweise: URLs entsprechender Informationen) können zwar helfen
Dokumente als mit sich selbst zu einem früheren Zustand identisch oder
erschieden zu identifizieren, nicht aber das Problem der Veränderungen
der Katalogisierungsobjekte als solcher beheben. Jens Bleuel hat - m.E. zu
recht - gefordert, bei bibliographischen Angaben zu Internet-Resourcen wo
immer möglich nicht nur den Tag der Erstellung der Version der
gesehenen Resource, sondern auch den Tag anzugeben, wo man sie das
letzte Mal auf ihren Inhalt hin überprüft hat. Doch auch dies verhilft
gegegebnenenfalls natürlich auch noch nicht zu mehr, als der
Möglichkeit, begründetere Vermutungen darüber anzustellen,
wann genau eine Resource angefangen hat, von dem abzuweichen, was an
anderer Stelle über sie verzeichnet bzw. katalogisiert wurde..
[Zurück zum Text]
[28] In einer Diskssion mit Jens
Bleuel in INETBIB habe ich betreffend des Zitierens aus nicht an einem
bekannten Ort archivierten Internetquellen dieser Art dafür plädiert,
bei entsprechenden Zitaten dort wo dies (wie bei der hier angesprichenen
Diskussion mit Bleuel) zutrifft jeweils ein "Kopie der Stellungnahme/des
Postings erhältlich bei _" (in diesem Falle: kuhn@mpg-gv.mpg.de)
hinzuzufügen. Siehe hierzu eine
mail von Jens Bleuel aus diesem Kontext .
[Zurück zum Text]
[29]
DDC ist
nicht nur eurozentristisch, sondern vor allem sehr grob. Was für die
Katalogisierung der Monograhien kleinerer und mittlerer wenig spezialisierter
Bibliotheken noch zu verschmerzen ist, ist es für die Katalogiserung
zahlloser Beiträge zu hoch differenzierten Spezialgebieten - wie sie
für die Zukunft im Internet zu erwarten sind -nicht mehr. So ist es auch
kein Wunder, daß keine der mir bekannten bibliographischen Fach-
Datenbanken DDC (oder eine andere entsprechende Einheitsklassifikation
bzw. einen Ausschnitt daraus) zur Erschließung einsetzt.
[Zurück zum Text]
[30] Für Indexierung durch
Autoren hat auch Lutz Donnerhacke in de.comp.www.authoring
plädiert. (Stellungnahme auf Wunsch erhällich von kuhn@mpg-
gv.mpg.de).
[Zurück zum Text]
[31] Derlei ist für deutsche
Sacherschließung fremdsprachiger Monographien in konventionellen
OPACs bereits durch das MILOS-Projekt mit Erfolg geschehen.(siehe den
Abschlußbericht zu MILOS I und die
Ergebnisse eines Retrievaltests ).
[Zurück zum Text]
[32] Ich habe vor, nach Ende der
Diskussion hier der HTML-Workingroup eine Erweiterung der Anwendung des
META-tags vorzuschlagen, die es ermöglichen würde, ihn zum
Transport von derlei Information einzusetzen. Hierfür müßte
nur gestattet werden, daß für den Inhalt eines META-Felds "Index"
nicht nur Text, sondern auch Hyperlinks, die dann auf Texte wie den
vorliegenden verweisen könnten, verwendet werden können.
[Zurück zum Text]
[33] Vorteile des hier
vorgeschlagenen gegenüber URCs als Indexierung: §
größere Flexibilität (zusätzliche Felder/Kategorien
können ohne Änderung eines Standards definiert und verwendet
werden), § größere Differenzierung (z.B. Differenzierung
zwischen Haupt- und weiteren Autoren), § Verbindung von formalen und
inhaltlichen Indexierungsinformationen (URCs bieten nur Basisinformatinen
aus der Formalkatalogisierung).
Vorteile gegenüber META-tags:
§ leichtere Handhabung für die Autoren, § Strukturierung der
Informationsinhalte in sich ist möglich, § nested tags sind
möglich, § Browser und die Indexierungsteile der SearchEngines
haben bessere Darstellungs uns Auswertungsmöglichkeiten, §
längere Texte (wie z.B. Abstracts) weden nicht unhandlich.
[Zurück zum Text]
[34] Das Vorgehen für einen
"Punkt-De-Index-Server" könnte z.B. so sein:
[35] Selbstverständlich steht zu
erwarten, daß es zu Mißbrauch - z.B. durch bewußt falsche
Verwendung von normiertem Vokabular durch Autoren, die mehr Treffer als bei
korrekter Indexierung möglich ereichen wollen - doch steht m.E. zu
hoffen, daß der Schaden für das Ansehen des jeweiligen Autors
durch solche Praktiken größer ist, als der Nutzen für sein
Ansehen, den er durch Auftauchen seiner Papers als "rosa
Rauschen" in ansonsten einschlägigen Hitlists erreichen kann, und
daß derartiger Mißbrauch daher selten bleiben wird.
[Zurück zum Text]
[36] Zu denken ist hier z.B. an
Autoren von Dokumenten in Postcript-Format, die auf FTP-Servern
zugänglich sind.
[Zurück zum Text]
Besonderer Dank gilt Dr. Peter Stelzel (Bibliothek des Max-Planck-Instituts fuer Biochemie [Martinsried]) fuer seinen Hinweis darauf, dass bei einer frueheren Version dieses Dokuments die Fussnoten (aufgrund schlampiger Behandlung durch meinen Konvertierer) beim Betrachten mit WinNetscape 2.0 nicht richtig bzw. nicht vollstaendig angezeigt wurden.