Datenquellen für Text- und Datamining (TDM)

Mit dem Begriff Text- und Datamining (TDM) werden algorithmenbasierte Verfahren zur automatischen Extraktion von Informationen aus unstrukturierten oder nur schwach strukturierten Textdaten (Text Mining) und strukturierten Daten (Data Mining) zusammengefasst. 
Auf dieser Seite finden Sie – nach inhaltlichen Kategorien geordnet – Ressourcen für das Text- und Datamining, die durch die Lizenzen der UB Bern und im frei zugänglichen Web verfügbar sind.
Falls nicht anderweitig angegeben, wenden Sie sich bei Interesse an einem Datenbezug bitte an die UB Bern.

Lizenzierte Daten-, Text- und Bildersammlungen
Ressource Inhalt Detailinformationen
Schweizer Medieninhalte:
Swissdox@LiRI (allgemeine Information zur Datenbank Swissdox)
  • Massendownload von Volltexten aus Swissdox (Schweizer Mediendatenbank): TSV, XML
  • ca. 23 Millionen Artikel aus 250 Zeitungen und (Online-) Medienerzeugnissen aus der Schweiz
  • Ab 1910, tägliches Update
  • Zugang per SWITCH edu-ID
  • Nutzung auch per API möglich

Internationale Medieninhalte: Nexis Data Lab
  • Medieninhalte von 20'000 Quellen aus über 100 Ländern
  • komfortable Korpuserstellung
  • Analyse in JupyterHub-Umgebung (Python, R)
  • Jupyter Notebooks für den Einstieg in das TDM
  • eigener Code und Packages uploadbar, Ergebnisse und Code downloadbar
  • kein Download von Rohdaten
  • Website, FAQ, Help Guide
  • Einzelplatzlizenz: Bitte wenden Sie sich bei Interesse an stefan.ittner@unibe.ch.
Bücher international: HathiTrust Research Center
  • 17 Mio. digitalisierte Bände aus US-amerikanischen Bibliotheken (ab 1700)
  • eigene Korpuserstellung und Download in vorverarbeiteter Form (Derived Datasets)
  • einfache implementierte Textanalyse-Routinen und Visualisierungen
  • virtuelle Maschinen für Datenanalysen
  • vorprozessierte Datensets für englischsprachige Literatur
WBIS Online (DeGruyter) (allgemeine Information zur Datenbank)
  • Biografische Datensätze zu über 6 Mio. historischen und zeitgenössischen Personen
  • Fortlaufende Aktualisierung sowie 8.5 Millionen Digitalisate von biografischen Referenzwerken
  • Multilingual 
Germanistik Online (DeGruyter) (allgemeine Information zur Datenbank)
  • 400'000 bibliografische Datensätze, fortlaufende Aktualisierung 
Romanische Bibliografie (DeGruyter) (allgemeine Information zur Datenbank)
  • 400’000 bibliografische Datensätze, fortlaufende Aktualisierung 
Englischsprachige Periodika (Gale Cengage)
  • The Times Digital Archive 1785-2014 allgemeine Information zur Datenbank
  • International Herald Tribune 1887-2013, allgemeine Information zur Datenbank
  • The Economist Historical Archive 1843-2015, allgemeine Information zur Datenbank
Englischsprachige Periodika (ProQuest)
  • British Periodicals: 491 Zeitungen/Magazine aus UK, Irland, Indien, 1681-2007, 6.7 Millionen Artikel, JPEG, PDF, OCR/XML, allgemeine Information zur Datenbank
  • American Periodicals: 1’509 Zeitungen/Magazine und wissenschaftliche Zeitschriften, Nordamerika, 1741-1988, 11.5 Mio. Artikel, PDF, OCR/XML, allgemeine Information zur Datenbank
Englischsprachige Monografien (Gale Cengage)
  • Eighteenth Century Collections Online (ECCO), allgemeine Information zur Datenbank
  • Nineteenth Century Collections Online (NCCO): British Theatre, Music and Literature, allgemeine Information zur Datenbank
  • Nineteenth Century Collections Online (NCCO): Europe and Africa, allgemeine Information zur Datenbank

 

UK Parliamentary Papers (ProQuest)
  • Britische Parlamentsdokumente des 18.-20. Jahrhunderts 
  • XML, PDF
  • Allgemeine Informationen zur Datenbank
Cambridge Histories (CUP)
  • Über 400 Handbücher zur internationalen Geschichte (eng)
  • PDF (Download), XML (Anfrage)
  • IP-gesteuerter Zugang (Uni-Netz/VPN)
  • Allgemeine Informationen zur Datenbank
Frei zugängliche Textsammlungen
Plattform Inhalt  Detailinformationen
CLARIN Resource Families

Website

  • Übersicht und z.T. Zugang zu Sprachkorpora aus allen Sachgebieten in einer Vielzahl von Sprachen
Teilweise frei zugänglich, verschiedene Lizenzen
e-rara 
  • 100'000 alte und rare Druckschriften aus Schweizer Institutionen
  • Volltexte: PDF, z.T. TXT
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten
e-manuscripta 
  • 150'000 handschriftliche Quellen aus Schweizer Institutionen
  • Volltexte: PDF
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten
e-periodica
  • 900 Zeitschriften aus der Schweiz
  • Volltexte: PDF
  • Jupyter Notebook zum Massendownload von Metadaten und Volltexten incl. Text-Parsing
GLAM Workbench

Website

  • umfassende Datenbestände von australischen und neuseeländischen Kulturerbe-Institutionen, Webarchiven und Regierungsdokumenten
  • API-Dokumentationen, Bulk-Downloads und Jupyter Notebooks
Frei zugänglich, verschiedene Lizenzen
Chronicling America frei zugänglich, gemeinfrei
Internet Archive

Dokumentation

  • 37 Mio. Bücher und Texte verschiedener Genres und Sprachen in verschiedenen Datenformaten
  • Massen-Download per Command-Line Tool und Python-Wrapper
frei zugänglich, verschiedene Lizenzen, z.T. nicht angegeben
Project Gutenberg

Dokumentation

  • 70'000 Bücher verschiedener Genres und Sprachen in verschiedenen Datenformaten
frei zugänglich, gemeinfrei
OpenGLAM Survey

Übersicht

  • Übersicht über Open-Data-Angebote (Digitalisate, Texte, Metadaten) von 1600 Kulturerbe-Institutionen weltweit, mit Angaben zu Lizenzen und APIs
frei zugänglich, gemeinfrei oder offene Lizenzen
Text Creation Partnership
  • 73’000 gemeinfreie transkribierte Volltexte (SGML/XML/TEI) von Drucken des 15.-18. Jahrhunderts als Bulk Downloads (Einzeldateien auch im Oxford Text Archive: EBUP, HTML, XML, z.T. auch POS-annotiert als TSV)
  • Early English Books Online (EEBO, 60'000 transkribierte Volltexte, 1473-1700)
  • Eighteenth-Century Collections Online (ECCO, 3’000 transkribierte Volltexte, 1700-1800)
  • Evans Early American Imprints (Evans, 5’000 transkribierte Volltexte, 1640-1800)
Frei zugänglich, gemeinfrei

Die Ressourcen und ihre Zugänge unterliegen verschiedenen rechtlichen und technischen Nutzungsbedingungen. Konsultieren Sie diese vor einem automatisierten Zugriff. Insbesondere für hier nicht aufgeführte lizenzierte Inhalte ist ein automatisierter Zugriff oft ausgeschlossen und kann zur Sperrung des Zugriffs auf die Datenbank durch den Anbieter führen. Kontaktieren Sie uns, wenn Sie unsicher sind, ob ein Zugriff rechtmässig ist.

Für wissenschaftliche Zwecke sind die mit TDM-Methoden verbundenen Vervielfältigungen und Speicherungen von rechtmässig zugänglichen Inhalten durch das Schweizerische Urheberrechtsgesetz erlaubt.