Header

Suche

Text & Data Mining

Was ist Text und Data Mining?

Bei dieser Methode werden grosse Kollektionen von Texten systematisch durchsucht und analysiert, um unbekannte, übergreifende "Patterns" und Relationen (Abhängigkeitsketten) zu erkennen (bspw. in der Computerlinguistik,  Biomedizin oder Bioinformatik).

Was ist daran problematisch?

Diese Text- und/oder Datenextraktion basiert auf der systematischen Vervielfältigung und Speicherung von Inhalten, die urheberrechtlich geschützt sein können. Daher wird das Verfahren von den Anbietern meist als unzulässig eingestuft. Verlage kontrollieren Zugriffshäufigkeiten und sperren den Zugang in solchen Fällen für einzelne Adressen oder den gesamten UZH-IP-Range. Dies gilt auch, wenn der Anbieter kein explizites Limit zu den Downloads auf seiner Website oder im Vertrag publiziert.

Was können/dürfen Sie tun?

Für Text and Data Mining (TDM) wird oft ein zusätzlicher, lizenzbedingter Zugang über eine Programmierschnittstelle (API) benötigt. APIs bieten TDM-fähige Infrastrukturen und maschinenlesbare Datenformate. Neben offenen Daten‑Services sind einige im Rahmen der UZH‑ZB‑Lizenzen nutzbar, teilweise mit individuellem API‑Key. 

Bitte prüfen Sie vor jedem Projekt die untenstehende API‑Liste sowie ihre rechtlichen und technischen Nutzungsbedingungen. Ist eine Plattform nicht aufgeführt oder sind Sie unsicher, ob ein Zugriff rechtmässig ist, dann kontaktieren Sie uns frühzeitig unter emedia@ub.uzh.ch.

Cambridge University Press

Lizenz
 

✅ In der UZH-ZB Lizenz inbegriffen

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke

✅ Volltexte innerhalb bestehender Abonnements

Inhalte & Formate
  • Volltexte und Metadaten aus Cambridge Core: Journals, E-books und die meisten Reference Works (Abdeckung abhängig von den konkret lizenzierten Titeln, insbesondere über die Zentralbibliothek)
  •  Keine REST‑API verfügbar: Zugriff erfolgt über das Webinterface
  • Formate: HTML, PDF (XML auf Anfrage möglich)
Einschränkungen

❌ Bulk‑Downloads sind nicht erlaubt und werden überwacht

⚠️ Exzessive Downloads können zur Sperrung des Zugangs für alle Nutzenden führen

⚠️ Für grössere TDM‑Projekte gelten spezielle Regelungen (siehe Antrag)

Dokumentation Text and Data Mining Policy und F&Q 
Antrag auf Zugang

Kein API‑Key erforderlich. Bitte wenden Sie sich an: e‑medien@zb.uzh.ch 

TDM‑Projekte mit Bulk Downloads und/oder XML‑Feed benötigen eine vorherige Genehmigung. Folgende Angaben sind einzureichen: 

  • Umfang der benötigten Inhalte (Journals, E-books, Collections)
  • Ungefähres Datenvolumen und Zeitrahmen
  • Gewünschtes Dateiformat (z. B. XML und/oder PDF)
  • Angabe, ob ein eigener FTP‑Server zur Verfügung steht

EBSCOhost API

Lizenz

❌ Als Aggregator integriert eBSCO Inhalte von verschiedenen Verlagen. Aus urheberrechtlichen Gründen ist TDM nicht erlaubt. 

✅ Die API dient der Integration von Recherche‑, Discovery‑ und Metadatenfunktionen aus lizenzierten EBSCOhost‑Datenbanken in eigener Forschungs‑ und Lehranwendungen.

Inhalte & Formate
  • Bibliographische Metadaten (Titel, Autoren, Abstracts, Schlagwörter), Trefferlisten
  • je nach Lizenz auch Volltexte
  • Ausgabeformate: XML
  • Zugriff über REST oder SOAP 
Einschränkungen

Diese API ist nicht identisch mit der EDS API für Discovery Services. 

API-Nutzung erfordert eine lokale Infrastruktur zur Installation des EBSCO Integration Toolkit (EIT), über die die API genutzt wird.  

Nicht alle EBSCO-Datenbanken sind API-fähig (sieheListe

Weitergabe und Speicherung von Volltexten sind eingeschränkt: (siehe Copyright-Hinweis dazu). Bulk-Downloads, das Analysieren grosser Volltextmengen und das Training von KI-Modellen sind nicht zulässig.
Dokumentation

EBSCOhost API (EBSCO Connect) 
Making Requests with REST 
Making Requests with SOAP

Antrag auf Zugang Erfordert ein EBSCOhost‑/ EIT‑Profil. Bitte wenden Sie sich an Ihre Bibliothek: emedia@ub.uzh.ch / e‑medien@zb.uzh.ch

EMBASE (Elsevier)

Lizenz

❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen.

Factiva (DowJones)

Lizenz ❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. Text and Data Mining ist auf dieser Plattform strikt verboten.
Einschränkungen

⚠️Zu viele Downloads können ausserdem zur Sperrung der gesamten Datenbank für alle Nutzenden führen. DowJones veröffentlicht hierzu keine festen numerischen Limits. Bitte laden Sie nur so viele Artikel herunter, wie Sie selbst ohne maschinelle Unterstützung lesen können. 

IEEE Xplore

Lizenz

✅ in der UZH-ZB-Lizenz inbegriffen. Je nach TDM-Umfang können Kosten entstehen.

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke.

⚠️ KI-Nutzung beachten  (Journals) 

Inhalte & Formate
  • Metadata Search (REST-)API inkl. Abstracts (XML, JSON)  
  • Open Access API: Volltexte von OA‑Artikeln  
  • Full‑Text Access API: Volltexte von lizenzierten Inhalten (PDF, XML) 
  • DOI Lookup API: Metadatenabfragen 
  • Dynamische Query Tool für einfache Abfragen; Software Development Kits für PHP, Python 3, Python 2 und Java 
Einschränkungen

DOI Lookup API: max. 25 DOIs/Request; keine offizielle Rate Limits, aber typische API‑Kontrollmechanismen gelten; exzessive Nutzung wird blockiert. 

Dokumentation

Übersicht APIs inkl. Use Cases/Query 
Interactive Documentation 

Antrag auf Zugang

API-Key nötig auf Anmeldung. Jede Nutzung setzt Zustimmung zu den Nutzungsbedingungen voraus. Bitte schicken Sie uns eine Projektbeschreibung und den Umfang der zu minenden Daten zur Genehmigung beim Anbieter (emedia@ub.uzh.ch). 

How To Get Started 

IOP

Lizenz

✅ in der UZH-ZB-Lizenz inbegriffen

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke.

⚠️ KI-Nutzung beachten (Journals) 

Inhalte & Formate
  • Direktanfrage mit DOI-Liste: Metadaten (XML) kostenlos, Volltexte (XML: neuere Artikel, Conference Series ausgeschlossen; PDF: fast überall verfügbar) kostenpflichtig. 
  • Datenbereitstellung per sFTP 
Einschränkungen

Systematisches Download (Scraping) wird blockiert. 

Dokumentation

TDM Policy

Antrag auf Zugang

Forschende müssen IOP im Voraus mit Projektangaben kontaktieren: Name und E-Mail-Adresse, lizenzierende Institution (UZH), Artikelmenge (DOI-Liste, Datumbereiche je Journal), gewünschte Formate (PDF/XML) (contentsupport@ioppublishing.org mit Cc an emedia@ub.uzh.ch)  

LexisNexis API Web Services

Lizenz

✅ Für die UZH-ZB lizenziert

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke 

Inhalte & Formate

REST-API für Volltexte von LexisNexis, Alerts (nach gespeicherter Suche, einem Thema, einer Publikation oder einer regulatorischen Kategorie).

Formate: JSON (Datenaustausch), XML 

Einschränkungen

12'000 Search Queries; 600'000 Dokumente/24 St. 

Kein Bulk-Download möglich 

Dokumentation

Gute Python-Kenntnisse vorausgesetzt. Der Anbieter stellt keine Dokumentation zu Verfügung. Ein von der UB Betriebs- und Volkswirtschaft entwickeltes Jupyter Notebook kann auf Anfrage benutzt werden.

Antrag auf Zugang ⚠️Um den API-Zugriff zu bekommen, wird eine Nutzungsvereinbarung mit der UB und der Zentralbibliothek Zürich unterschrieben. Schicken Sie bitte Ihre Projektbeschreibung an betriebswirtschaft@ub.uzh.ch

Oxford University Press

Lizenz Inhalt folgt
Inhalte & Formate Inhalt folgt
Einschränkungen

Inhalt folgt

Dokumentation

Inhalt folgt

Antrag auf Zugang Inhalt folgt

Reaxys (Elsevier)

Lizenz

❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. 

Science Direct API (Elsevier)

Lizenz

✅ in der UZH-ZB-Lizenz inbegriffen

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. Volltexte innerhalb bestehender Abonnements.

⚠️ KI-Nutzung beachten 

Inhalte & Formate

REST-APIs: 

  • ScienceDirect Search v2 für Metadatensuche (JSON/XML). 

  • Article Retrieval für Detailmetadaten/Volltexte zu Artikeln/Buchkapiteln (strukturiertes XML, Plain Text), sofern berechtigt.  

Fetch-API: ScienceDirect Journals Data für DOI-Suche

❌ Die API-Nutzung von EMBASE-, Reaxys und SciVal benötigen eine kostenpflichtige Lizenz. Scopus-API S. unten. 

Einschränkungen

Quotenlimits werden alle 7 Tage zurückgesetzt (je nach API ist die Quote unterschiedlich. Siehe dazu Response-Header.  

TDM nur über API zugelassen (kein Web Scraping)  

Dokumentation

ScienceDirect Search v2 API 

Article Retrieval 

ScienceDirect Journals Data 

Übersicht APIs 

Software development kit for Elsevier Developers (GitHub) 

Antrag auf Zugang

Account im Elsevier Developer Portal und API‑Key erforderlich sowie ein X‑ELS‑Insttoken für Off-Campus-Zugriffe (VPN und EZproxy werden nicht unterstützt) (How to Get Started
Bitte wenden Sie sich an Ihre Bibliothek: emedia@ub.uzh.ch / e‑medien@zb.uzh.ch 

SciVal (Elsevier)

Lizenz ❌ Weder API-Nutzung noch Nutzeroberfläche stehen für die UZH-ZB zu Verfügung.

Scopus (Elsevier)

Lizenz

✅ in der UZH-ZB-Lizenz inbegriffen

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke.

Inhalte & Formate

REST-API für Scopus-Metadaten & Abstracts (mit Volltext-URL sofern berechtigt) 

Einschränkungen

Quotenlimits werden alle 7 Tage zurückgesetzt (je nach API ist die Quote unterschiedlich. Siehe dazu Response-Header.  

TDM nur über API zugelassen (kein Web Scraping)

Dokumentation

Scopus Search API 

Übersicht APIs 

Software development kit for Elsevier Developers (GitHub) 

Antrag auf Zugang

Account im Elsevier Developer Portal und API‑Key erforderlich sowie ein X‑ELS‑Insttoken für Off-Campus-Zugriffe (VPN und EZproxy werden nicht unterstützt) (How to Get Started
Bitte wenden Sie sich an Ihre Bibliothek: emedia@ub.uzh.ch / e‑medien@zb.uzh.ch 

Springer Nature

Lizenz

✅ TDM zulässig bei lizenzierten Inhalten

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. Volltexte innerhalb bestehender Abonnements.

⚠️ KI-Nutzung beachten  (E-books) 

Inhalte & Formate
  • Meta API: Metadaten & Abstracts (Zeitschriftenartikel, E-books, Protocols) (kostenlos) 
  • Open Access API: Open Access Fulltexte (kostenlos) 
  • Full Text API: lizenzierter Volltext-Korpus für TDM-Projekte (JATS‑XML) (kostenpflichtig) 
Einschränkungen

Rate Limit beachten: 1 Request/Sek. (ohne API) / 150 Requests/Min. (API) 

Account‑Limits bei TDM API: Basic = 100 Datensätze, Premiumkonto = 500 Datensätze pro Pagination‑Zyklus

Dokumentation

TDM Policy von Springer Nature 

Getting API Access 

API-Client für TDM zum Installieren (vollwertige Python Client-Library) 

Python Wrapper für alle APIs (Demo/Beispielcode) 

API subscription plans

Antrag auf Zugang

API‑Key nötig

Swissdox

Lizenz

❌ Die API-Nutzung ist in der UZH-ZB-Lizenz nicht inbegriffen (sieheSpezialdatenbanken). Zu Verfügung stehen 2 Versionen: Swissdox Essentials (rechtbedingte Einschränkungen) & Swissdox-Professional (umfangreichere Recherche) 

✅ Für Bulk Downloads/TDM-Projekte ist die von der LiRI entwickelten API Swissdox@LiRI zu benutzen. Nicht-kommerzielle Forschung. Keine Weitergabe an Dritte. Lokales Hosting der Daten. 

Inhalte & Formate Die API deckt: Query-spezifische Volltexte mit urheberrechtlichen Einschränkungen. Meisten Artikel auf Deutsch und Französisch, weniger auf Italienisch, Rätoromanisch und Englisch vor allem aus den letzten 25 Jahren (Medienabdeckung). Queries werden in YAML‑Format eingereicht; Resultate per Downloadlink abrufbar.
Einschränkungen

Für grössere Forschungsprojekte muss genügend Rechenkapazität vorhanden sein; Query‑Runtime skaliert mit Datenumfang. 

Dokumentation

LiRI Infoseite  

API Swissdox@LiRI 

API-Wiki 

Fragen zu Queries an Swissdox@LiRI‑Plattform 

Antrag auf Zugang

Projektregistrierung erforderlich: How to Get Started. Nutzungsbedingungen beachten. 

Swissdox@LiRI: Login nur für Mitglieder unterstützender Institutionen oder via Projektvoucher.  

Swissdox Professional (UB/ZB-Lizenz): temporär (5 Tage) und auf Anfrage (e-medien@zb.uzh.ch

Web of Science Expanded (Clarivate)

Lizenz

❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. 

Inhalte & Formate

Vollständige bibliographische Datensätze aus der Web of Science Core Collection inkl. Anzahl Zitationen. Geeignet für TDM-Projekte.

Ausgabeformat: JSON 

Einschränkungen

5 Abfragen/Sek., 5’000 Abfragen/24 St. 

Dokumentation

API Expanded

Weitere APIs

Antrag auf Zugang

Anmeldung im Developer Portal (How to get started) mit UZH‑E‑Mail‑Adresse bzw. bestehendem Konto (Loginseite). Applikation registrieren, dann API Key beantragen. Den gewünschten API‑Plan auswählen und abonnieren.

⚠️Sie müssen die Terms of Use and Product / Service Terms akzeptieren. Zugangsdaten können eine administrative Genehmigung benötigen.  

Web of Science Starter API (Clarivate)

Lizenz

✅ Für die UZH-ZB lizenziert

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke 

Inhalte & Formate

Keine vollständigen bibliographischen Datensätze. Geeignet für Metadatenchecks, einfache Suche & Validation.

Abfragbare Metadaten: DOI, Autorennamen, Source Title / Journal Title, Grundlegende Publikationsinformationen (Jahr, Volume, Issue, Pages), Abstract (in vielen, aber nicht allen Fällen), ISSN, ISBN.

Ausgabeformat: JSON 

Einschränkungen

5 Abfragen/Sek., 5’000 Abfragen/24 St.

Dokumentation

Starter API 

Weitere APIs

Antrag auf Zugang

Anmeldung im Developer Portal (How to get started) mit UZH‑E‑Mail‑Adresse bzw. bestehendem Konto (Loginseite). Applikation registrieren, dann API Key beantragen. Den gewünschten API‑Plan auswählen und abonnieren.

⚠️Sie müssen die Terms of Use and Product / Service Terms akzeptieren. Zugangsdaten können eine administrative Genehmigung benötigen.  

Wiley Cochrane Library

Lizenz

❌ Die API-Nutzung ist in der Nationallizenz nicht inbegriffen.

Wiley Online Library

Lizenz

✅ TDM zulässig bei lizenzierten Inhalten. Non-Journals (E-books & Reference Works) ausgeschlossen

✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. Volltexte innerhalb bestehender Abonnements.

⚠️ KI-Nutzung beachten 

Inhalte & Formate

Zeitschriftenvolltexte sind als PDF erhältlich 

  • DOI‑basierte Requests 
  • PDF‑Downloads für einzelne/mehrere Artikel (Bulk) 
  • TDM‑API‑Endpoint mit optionalem Python‑Client 
Einschränkungen

3 Requests/Sek.  

Non-Journals-TDM-Projekte benötigen ein kostenpflichtiges TDM-Agreement (XML-Feed) (siehe unten) 

Dokumentation

Wiley TDM Policy 

API GitHub Dokumentation

Python Client 

Antrag auf Zugang

Für Journals TDM wird ein Crossref‑TDM‑Token benötigt. Die TDM-Nutzung wird vom UZH-ZB konsortialen Rahmenvertrag geregelt und übernimmt die Wiley Text and Data Mining Agreement. Jedoch ist das Akzeptieren der Wiley-Click-Through-Lizenz nötig, um eine API-Token zu bekommen (How To Get Started).

Non-Journals-TDM via XML-Feed auf Anfrage (tdm@wiley.com) und kostenpflichtig. Kontaktieren Sie uns: emedia@ub.uzh.ch / e-medien@zb.uzh.ch 

Weiterführende Informationen

Fragen zum Text & Data Mining?

Wikipedia Artikel