Datenquellen für Text- und Datamining (TDM)

Mit dem Begriff Text- und Datamining (TDM) werden algorithmenbasierte Verfahren zur automatischen Extraktion von Informationen aus unstrukturierten oder nur schwach strukturierten Textdaten (Text Mining) und strukturierten Daten (Data Mining) zusammengefasst. 
Auf dieser Seite finden Sie – nach inhaltlichen Kategorien geordnet – Ressourcen für das Text- und Datamining, die durch die Lizenzen der UB Bern und im frei zugänglichen Web verfügbar sind.
Falls nicht anderweitig angegeben, wenden Sie sich bei Interesse an einem Datenbezug bitte an die UB Bern.

Ressource Inhalt Detailinformationen
Schweizer Periodika:
Swissdox@LiRI (allgemeine Information zur Datenbank Swissdox)
  • Massendownload von Volltexten aus Swissdox (Schweizer Mediendatenbank): TSV, XML
  • ca. 23 Millionen Artikel aus 250 Zeitungen und (Online-) Medienerzeugnissen aus der Schweiz
  • Ab 1910, tägliches Update
  • Zugang per SWITCH edu-ID
  • API folgt Mitte 2022

WBIS Online (DeGruyter) (allgemeine Information zur Datenbank)
  • Biografische Datensätze zu über 6 Mio. historischen und zeitgenössischen Personen
  • Fortlaufende Aktualisierung sowie 8.5 Millionen Digitalisate von biografischen Referenzwerken
  • Multilingual 
Germanistik Online (DeGruyter) (allgemeine Information zur Datenbank)
  • 400'000 bibliografische Datensätze, fortlaufende Aktualisierung 
Romanische Bibliografie (DeGruyter) (allgemeine Information zur Datenbank)
  • 400’000 bibliografische Datensätze, fortlaufende Aktualisierung 
Englischsprachige Periodika (Gale Cengage)
  • The Times Digital Archive 1785-2014 allgemeine Information zur Datenbank
  • International Herald Tribune 1887-2013, allgemeine Information zur Datenbank
  • The Economist Historical Archive 1843-2015, allgemeine Information zur Datenbank
Englischsprachige Periodika (ProQuest)
  • British Periodicals: 491 Zeitungen/Magazine aus UK, Irland, Indien, 1681-2007, 6.7 Millionen Artikel, JPEG, PDF, OCR/XML, allgemeine Information zur Datenbank
  • American Periodicals: 1’509 Zeitungen/Magazine und wissenschaftliche Zeitschriften, Nordamerika, 1741-1988, 11.5 Mio. Artikel, PDF, OCR/XML, allgemeine Information zur Datenbank
Englischsprachige Monografien (Gale Cengage)
  • Eighteenth Century Collections Online (ECCO), allgemeine Information zur Datenbank
  • Nineteenth Century Collections Online (NCCO): British Theatre, Music and Literature, allgemeine Information zur Datenbank
  • Nineteenth Century Collections Online (NCCO): Europe and Africa, allgemeine Information zur Datenbank

 

UK Parliamentary Papers (ProQuest)
  • Britische Parlamentsdokumente des 18.-20. Jahrhunderts 
  • XML, PDF
  • Allgemeine Informationen zur Datenbank
Cambridge Histories (CUP)
  • Über 400 Handbücher zur internationalen Geschichte (eng)
  • PDF (Download), XML (Anfrage)
  • IP-gesteuerter Zugang (Uni-Netz/VPN)
  • Allgemeine Informationen zur Datenbank
Plattform Inhalt  Detailinformationen
CLARIN Resource Families

Website

  • Übersicht und z.T. Zugang zu Sprachkorpora aus allen Sachgebieten in einer Vielzahl von Sprachen
Teilweise frei zugänglich, verschiedene Lizenzen
e-rara 
  • 90'000 alte und rare Druckschriften aus Schweizer Institutionen
  • Volltexte: PDF, z.T. TXT
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten
e-manuscripta 
  • 100'000 handschriftliche Quellen aus Schweizer Institutionen
  • Volltexte: PDF
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten
e-periodica
  • 840 Zeitschriften aus der Schweiz
  • Volltexte: PDF
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten incl. Text-Parsing
Chronicling America frei zugänglich, gemeinfrei
Internet Archive

Dokumentation

  • 34 Mio. Bücher und Texte verschiedener Genres und Sprachen in verschiedenen Datenformaten
  • Massen-Download per Command-Line Tool und Python-Wrapper
frei zugänglich, verschiedene Lizenzen, z.T. nicht angegeben
Project Gutenberg

Dokumentation

  • 60'000 Bücher verschiedener Genres und Sprachen in verschiedenen Datenformaten
frei zugänglich, gemeinfrei
OpenGLAM Survey

Übersicht

  • Übersicht über Open-Data-Angebote (Digitalisate, Texte, Metadaten) von 1400 Kulturerbe-Institutionen weltweit, mit Angaben zu Lizenzen und APIs
frei zugänglich, gemeinfrei oder offene Lizenzen

Die Ressourcen und ihre Zugänge unterliegen verschiedenen rechtlichen und technischen Nutzungsbedingungen. Konsultieren Sie diese vor einem automatisierten Zugriff. Insbesondere für hier nicht aufgeführte lizenzierte Inhalte ist ein automatisierter Zugriff oft ausgeschlossen und kann zur Sperrung des Zugriffs auf die Datenbank durch den Anbieter führen. Kontaktieren Sie uns, wenn Sie unsicher sind, ob ein Zugriff rechtmässig ist.

Für wissenschaftliche Zwecke sind die mit TDM-Methoden verbundenen Vervielfältigungen und Speicherungen von rechtmässig zugänglichen Inhalten durch das Schweizerische Urheberrechtsgesetz erlaubt.