Tools

Für die datenbasierte Forschung steht eine umfassende Toollandschaft zur Verfügung. Neben zahlreichen frei verfügbaren und Open-Source-Angeboten existieren proprietäre Plattformen. Die UB Bern entwickelt nach Bedarf eigene Werkzeuge, lizenziert und berät zu Text-und-Data-Mining-Plattformen.

Die DS Digital Toolbox der UB Bern bietet Jupyter Notebooks für den einfache Einstieg in typische Aufgaben der Arbeit mit Daten, u.a.:

  • Nutzung von APIs von Verlagen, Datenbanken und Datenaggregatoren
  • Datenbereinigung von tabellarischen Daten
  • Text aus PDFs auslesen und Texterkennung (OCR)
  • Segmentierung von Dokumenten als Vorarbeit zur OCR
  • Natural Language Processing (NLP)

Für die Abfrage von Metadaten und Volltexten von Schweizer Kulturerbe-Institutionen werden Notebooks für die nationalen Plattformen e-rara, e-manuscripta und e-periodica angeboten.

Das Nexis Data Lab ist eine Plattform, die die Medien-Inhalte des Anbieters LexisNexis für Text- und Data Mining (TDM) verfügbar macht. Der Textbestand umfasst aktuelle und zeitgeschichtliche Berichterstattung von 20'000 Quellen aus über 100 Ländern. Bis zu 100'000 Dokumente können als Korpus gleichzeitig analysiert werden. Die Plattform bietet hierfür online eine Jupyter-Notebook-Umgebung (Python-, R-Kernel) und Beipielskripte für den Einstieg in das TDM.

Für das Nexis Data Lab steht eine Einzelnutzungslizenz zur Verfügung. Wenden Sie sich bei Interesse an ds.ub@unibe.ch.

Constellate ist die Textanalyse-Plattform des Anbieters Ithaka. Der verfügbare Textbestand umfasst u.a. die Archive von JSTOR und Chronicling America. Umfangreiche Korpora können selbst zusammengestellt und als Metadaten, Volltexte und N-Gramme heruntergeladen werden. Constellate bietet eine Reihe von Tutorials zur Einführung in Python und Natural Language Processing (NLP) an, die auch als Jupyter Notebooks verfügbar sind.

Um Constellate nutzen zu können, muss aus dem Netz bzw. VPN der Universität Bern zugegriffen und zusätzlich ein persönlicher Account angelegt werden.

Das HTRC ermöglicht die Anwendung von TDM-Methoden auf die Inhalte der HathiTrust Digital Library, deren Bestand über 17 Mio. digitalisierte Bände ab 1700 umfasst. Korpora können nach eigenen Kriterien erstellt und mit implementierten Textanalyse-Routinen verarbeitet werden. Ebenso ist die Nutzung mit eigenen Algorithmen möglich. Hierfür stehen verschiedene Tools und eine umfassende Dokumentation zur Verfügung.

Um HathiTrust Research Center (HTRC) nutzen zu können, ist eine Authentifizierung per SWITCH edu-ID nötig, und es muss ein persönlicher Account bei HathiTrust/HTRC angelegt werden.

OpenRefine ist eine Open-Source-Software zur einfachen Manipulation von tabellarischen Daten mit einer intuitiven Benutzeroberfläche. OpenRefine stellt umfangreiche Funktionen für Datenbereinigungen und -transformationen zur Verfügung, die durch die Bearbeitungshistorie einfach zu dokumentieren und reproduzieren sind. Eine Besonderheit ist die «Reconciliation»-Funktion mit der eigene Daten gegen externe Datenanbieter (z.B. Wikidata, Gemeinsame Normdatei, CrossRef) geprüft und angereichert werden können.

OpenRefine ist für mehrere Betriebsysteme verfügbar und kann hier online ausprobiert werden ohne installiert werden zu müssen.

Jupyter ist eine open-source integrierte Entwicklungsumgebung (IDE) für verschiedene Programmiersprachen aus der Data Science. Jupyter folgt dem Literate-Programming-Ansatz, in dem Code und Dokumentation in einem Dokument (Jupyter Notebook) zusammengefasst sind. Analyseschritte können so ausführlich erläutert werden, Visualisierungen direkt eingebunden und die Inhalte in verschiedenen Formaten exportiert werden.

Jupyter kann hier mit verschiedenen Kernels online ausprobiert werden. Für Angehörige Schweizer Hochschulen und Forschungseinrichtungen stellt die EPFL online eine JupyterHub-Umgebung zur Verfügung.

Toolsammlungen
Textanalyse, Natural Language Processing (NLP), Literaturanalyse
Digital Humanities