Text- und Datamining

Zugängliche Inhalte

Mit dem Begriff Text- und Datamining (TDM) werden algorithmenbasierte Verfahren zur automatischen Extraktion von Informationen aus unstrukturierten oder nur schwach strukturierten Textdaten (Text Mining) und/oder strukturierten Daten (Data Mining) zusammengefasst.

Auf dieser Seite finden Sie – nach inhaltlichen Kategorien geordnet – Ressourcen für das Text- und Datamining, die durch die Lizenzen der UB Bern und im frei zugänglichen Web verfügbar sind.

Helvetica und Bernensia

Schweizer Parlamentsdebatten

(Amtliches Bulletin) Als Korpus verfügbar bei Swiss-AL Corpus Family (ab 1999, POS-Tagging). Analysierbar in einer frei zugänglichen CQP-Workbench mit Dokumentation.

Die Schweizerischen Digitalisate-Plattformen

bieten u.a. Datenbestände zur Schweizer und Bernischen Geschichte, Geografie, Kultur und Sprache.

  • e-rara 85'000 alte und rare Druckschriften
  • e-manuscripta 104'000 handschriftliche Quellen
  • e-periodica 750 Zeitschriften aus der Schweiz mit bieten Bilddateien, Metadaten und z.T. Volltext-Dateien in verschiedenen Dateiformaten

Auf diesen Plattformen finden Sie ebenfalls die digitalisierten Bestände der UB-Sammlungen.

Eine Übersicht zu den Datenzugängen und Bedingungen der Plattformen finden Sie auf dieser Übersicht .

Bibliografische Daten und biografische Daten

  • Crossref: Metadaten (gemeinfrei) und z.T. Volltext-Links von 120 Mio. wissenschaftlichen Publikationen:
    • verschiedene gut dokumentierte APIs  
    • API-Request für alle für TDM frei zugänglichen Publikationen (ca. 142'000)
    • Dumps über den gesamten Metadaten-Bestand 
    • 43 Mio. Datensätze verfügen über einen Volltextlink mit zugehöriger Lizenz und können mit Beachtung dieser per Crossref bei den Anbietern heruntergeladen werden, Details
  • Datenbanken des Anbieters De Gruyter. Bei Interesse an einem Datenbezug wenden Sie sich an die UB Bern. Verfügbar sind:

Eine ganze Reihe von historischen Zeitungen und Magazinen stehen digitalisiert als Bild- und/oder Volltextdateien zur Verfügung.

Deutschsprachige Quellen

  • SwissDox@LiRI SwissDox-Zugang für Massendownload und Datenanalysen, durch UB Bern lizenziert, 250 Zeitungen und (Online-)Medienerzeugnisse aus der Schweiz, verschiedene Zeitspannen, Nutzungsbedingungen.
    allgemeine Infos zur Datenbank

Englischsprachige Quellen

Französischsprachige Quellen

Weitere Quellen

Viele nationale und internationale Plattformen bieten freien Zugang zu Metadaten und Volltexten.

Rechtliches

Die Ressourcen und ihre Zugänge unterliegen verschiedenen rechtlichen und technischen Nutzungsbedingungen.  Konsultieren Sie diese vor einem automatisierten Zugriff. Insbesondere für hier nicht aufgeführte lizenzierte Inhalte ist ein automatisierter Zugriff oft ausgeschlossen und kann zur Sperrung des Zugriffs auf die Datenbank durch den Anbieter führen. Kontaktieren Sie uns, wenn Sie unsicher sind, ob ein Zugriff rechtmässig ist.

Für wissenschaftliche Zwecke sind die mit TDM-Methoden verbundenen Vervielfältigungen und Speicherungen von rechtmässig zugänglichen Inhalten durch das Schweizerische Urheberrechtsgesetz erlaubt.

Ihre Vorschläge

Gerne können Sie uns weitere Datenbestände zur Aufnahme in das Verzeichnis sowie zur Lizenzierung vorschlagen.  Hierfür, wie bei weiteren Fragen zur TDM-Nutzung wenden Sie sich gerne an die Ansprechperson für Digital Scholarship.