Text & Data Mining
Was ist Text und Data Mining?
Bei dieser Methode werden grosse Kollektionen von Texten systematisch durchsucht und analysiert, um unbekannte, übergreifende "Patterns" und Relationen (Abhängigkeitsketten) zu erkennen (bspw. in der Computerlinguistik, Biomedizin oder Bioinformatik).
Was ist daran problematisch?
Diese Text- und/oder Datenextraktion basiert auf der systematischen Vervielfältigung und Speicherung von Inhalten, die urheberrechtlich geschützt sein können. Daher wird das Verfahren von den Anbietern meist als unzulässig eingestuft. Verlage kontrollieren Zugriffshäufigkeiten und sperren den Zugang in solchen Fällen für einzelne Adressen oder den gesamten UZH-IP-Range. Dies gilt auch, wenn der Anbieter kein explizites Limit zu den Downloads auf seiner Website oder im Vertrag publiziert.
Was können/dürfen Sie tun?
Für Text and Data Mining (TDM) wird oft ein zusätzlicher, lizenzbedingter Zugang über eine Programmierschnittstelle (API) benötigt. APIs bieten TDM-fähige Infrastrukturen und maschinenlesbare Datenformate. Neben offenen Daten‑Services sind einige im Rahmen der UZH‑ZB‑Lizenzen nutzbar, teilweise mit individuellem API‑Key.
Bitte prüfen Sie vor jedem Projekt die untenstehende API‑Liste sowie ihre rechtlichen und technischen Nutzungsbedingungen. Ist eine Plattform nicht aufgeführt oder sind Sie unsicher, ob ein Zugriff rechtmässig ist, dann kontaktieren Sie uns frühzeitig unter emedia@ub.uzh.ch.
Cambridge University Press
| Lizenz |
✅ In der UZH-ZB Lizenz inbegriffen ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke ✅ Volltexte innerhalb bestehender Abonnements |
| Inhalte & Formate |
|
| Einschränkungen |
❌ Bulk‑Downloads sind nicht erlaubt und werden überwacht ⚠️ Exzessive Downloads können zur Sperrung des Zugangs für alle Nutzenden führen ⚠️ Für grössere TDM‑Projekte gelten spezielle Regelungen (siehe Antrag) |
| Dokumentation | Text and Data Mining Policy und F&Q |
| Antrag auf Zugang |
Kein API‑Key erforderlich. Bitte wenden Sie sich an: e‑medien@zb.uzh.ch TDM‑Projekte mit Bulk Downloads und/oder XML‑Feed benötigen eine vorherige Genehmigung. Folgende Angaben sind einzureichen:
|
EBSCOhost API
| Lizenz |
❌ Als Aggregator integriert eBSCO Inhalte von verschiedenen Verlagen. Aus urheberrechtlichen Gründen ist TDM nicht erlaubt. ✅ Die API dient der Integration von Recherche‑, Discovery‑ und Metadatenfunktionen aus lizenzierten EBSCOhost‑Datenbanken in eigener Forschungs‑ und Lehranwendungen. |
| Inhalte & Formate |
|
| Einschränkungen |
Diese API ist nicht identisch mit der EDS API für Discovery Services. API-Nutzung erfordert eine lokale Infrastruktur zur Installation des EBSCO Integration Toolkit (EIT), über die die API genutzt wird. Nicht alle EBSCO-Datenbanken sind API-fähig (sieheListe) Weitergabe und Speicherung von Volltexten sind eingeschränkt: (siehe Copyright-Hinweis dazu). Bulk-Downloads, das Analysieren grosser Volltextmengen und das Training von KI-Modellen sind nicht zulässig. |
| Dokumentation |
EBSCOhost API (EBSCO Connect) |
| Antrag auf Zugang | Erfordert ein EBSCOhost‑/ EIT‑Profil. Bitte wenden Sie sich an Ihre Bibliothek: emedia@ub.uzh.ch / e‑medien@zb.uzh.ch |
EMBASE (Elsevier)
| Lizenz |
❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. |
Factiva (DowJones)
| Lizenz | ❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. Text and Data Mining ist auf dieser Plattform strikt verboten. |
| Einschränkungen |
⚠️Zu viele Downloads können ausserdem zur Sperrung der gesamten Datenbank für alle Nutzenden führen. DowJones veröffentlicht hierzu keine festen numerischen Limits. Bitte laden Sie nur so viele Artikel herunter, wie Sie selbst ohne maschinelle Unterstützung lesen können. |
IEEE Xplore
| Lizenz |
✅ in der UZH-ZB-Lizenz inbegriffen. Je nach TDM-Umfang können Kosten entstehen. ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. ⚠️ KI-Nutzung beachten (Journals) |
| Inhalte & Formate |
|
| Einschränkungen |
DOI Lookup API: max. 25 DOIs/Request; keine offizielle Rate Limits, aber typische API‑Kontrollmechanismen gelten; exzessive Nutzung wird blockiert. |
| Dokumentation |
Übersicht APIs inkl. Use Cases/Query |
| Antrag auf Zugang |
API-Key nötig auf Anmeldung. Jede Nutzung setzt Zustimmung zu den Nutzungsbedingungen voraus. Bitte schicken Sie uns eine Projektbeschreibung und den Umfang der zu minenden Daten zur Genehmigung beim Anbieter (emedia@ub.uzh.ch). |
IOP
| Lizenz |
✅ in der UZH-ZB-Lizenz inbegriffen ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. ⚠️ KI-Nutzung beachten (Journals) |
| Inhalte & Formate |
|
| Einschränkungen |
Systematisches Download (Scraping) wird blockiert. |
| Dokumentation | |
| Antrag auf Zugang |
Forschende müssen IOP im Voraus mit Projektangaben kontaktieren: Name und E-Mail-Adresse, lizenzierende Institution (UZH), Artikelmenge (DOI-Liste, Datumbereiche je Journal), gewünschte Formate (PDF/XML) (contentsupport@ioppublishing.org mit Cc an emedia@ub.uzh.ch) |
LexisNexis API Web Services
| Lizenz |
✅ Für die UZH-ZB lizenziert ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke |
| Inhalte & Formate |
REST-API für Volltexte von LexisNexis, Alerts (nach gespeicherter Suche, einem Thema, einer Publikation oder einer regulatorischen Kategorie). Formate: JSON (Datenaustausch), XML |
| Einschränkungen |
12'000 Search Queries; 600'000 Dokumente/24 St. Kein Bulk-Download möglich |
| Dokumentation |
Gute Python-Kenntnisse vorausgesetzt. Der Anbieter stellt keine Dokumentation zu Verfügung. Ein von der UB Betriebs- und Volkswirtschaft entwickeltes Jupyter Notebook kann auf Anfrage benutzt werden. |
| Antrag auf Zugang | ⚠️Um den API-Zugriff zu bekommen, wird eine Nutzungsvereinbarung mit der UB und der Zentralbibliothek Zürich unterschrieben. Schicken Sie bitte Ihre Projektbeschreibung an betriebswirtschaft@ub.uzh.ch. |
Oxford University Press
| Lizenz | Inhalt folgt |
| Inhalte & Formate | Inhalt folgt |
| Einschränkungen |
Inhalt folgt |
| Dokumentation |
Inhalt folgt |
| Antrag auf Zugang | Inhalt folgt |
Reaxys (Elsevier)
| Lizenz |
❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. |
Science Direct API (Elsevier)
| Lizenz |
✅ in der UZH-ZB-Lizenz inbegriffen ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. Volltexte innerhalb bestehender Abonnements. |
| Inhalte & Formate |
REST-APIs:
Fetch-API: ScienceDirect Journals Data für DOI-Suche ❌ Die API-Nutzung von EMBASE-, Reaxys und SciVal benötigen eine kostenpflichtige Lizenz. Scopus-API S. unten. |
| Einschränkungen |
Quotenlimits werden alle 7 Tage zurückgesetzt (je nach API ist die Quote unterschiedlich. Siehe dazu Response-Header. TDM nur über API zugelassen (kein Web Scraping) |
| Dokumentation | |
| Antrag auf Zugang |
Account im Elsevier Developer Portal und API‑Key erforderlich sowie ein X‑ELS‑Insttoken für Off-Campus-Zugriffe (VPN und EZproxy werden nicht unterstützt) (How to Get Started) |
SciVal (Elsevier)
| Lizenz | ❌ Weder API-Nutzung noch Nutzeroberfläche stehen für die UZH-ZB zu Verfügung. |
Scopus (Elsevier)
| Lizenz |
✅ in der UZH-ZB-Lizenz inbegriffen ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. |
| Inhalte & Formate |
REST-API für Scopus-Metadaten & Abstracts (mit Volltext-URL sofern berechtigt) |
| Einschränkungen |
Quotenlimits werden alle 7 Tage zurückgesetzt (je nach API ist die Quote unterschiedlich. Siehe dazu Response-Header. TDM nur über API zugelassen (kein Web Scraping) |
| Dokumentation | |
| Antrag auf Zugang |
Account im Elsevier Developer Portal und API‑Key erforderlich sowie ein X‑ELS‑Insttoken für Off-Campus-Zugriffe (VPN und EZproxy werden nicht unterstützt) (How to Get Started) |
Springer Nature
| Lizenz |
✅ TDM zulässig bei lizenzierten Inhalten ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. Volltexte innerhalb bestehender Abonnements. ⚠️ KI-Nutzung beachten (E-books) |
| Inhalte & Formate |
|
| Einschränkungen |
Rate Limit beachten: 1 Request/Sek. (ohne API) / 150 Requests/Min. (API) Account‑Limits bei TDM API: Basic = 100 Datensätze, Premiumkonto = 500 Datensätze pro Pagination‑Zyklus |
| Dokumentation |
TDM Policy von Springer Nature API-Client für TDM zum Installieren (vollwertige Python Client-Library) Python Wrapper für alle APIs (Demo/Beispielcode) |
|
Antrag auf Zugang |
API‑Key nötig |
Swissdox
| Lizenz |
❌ Die API-Nutzung ist in der UZH-ZB-Lizenz nicht inbegriffen (sieheSpezialdatenbanken). Zu Verfügung stehen 2 Versionen: Swissdox Essentials (rechtbedingte Einschränkungen) & Swissdox-Professional (umfangreichere Recherche) ✅ Für Bulk Downloads/TDM-Projekte ist die von der LiRI entwickelten API Swissdox@LiRI zu benutzen. Nicht-kommerzielle Forschung. Keine Weitergabe an Dritte. Lokales Hosting der Daten. |
| Inhalte & Formate | Die API deckt: Query-spezifische Volltexte mit urheberrechtlichen Einschränkungen. Meisten Artikel auf Deutsch und Französisch, weniger auf Italienisch, Rätoromanisch und Englisch vor allem aus den letzten 25 Jahren (Medienabdeckung). Queries werden in YAML‑Format eingereicht; Resultate per Downloadlink abrufbar. |
| Einschränkungen |
Für grössere Forschungsprojekte muss genügend Rechenkapazität vorhanden sein; Query‑Runtime skaliert mit Datenumfang. |
| Dokumentation |
Fragen zu Queries an Swissdox@LiRI‑Plattform |
| Antrag auf Zugang |
Projektregistrierung erforderlich: How to Get Started. Nutzungsbedingungen beachten. Swissdox@LiRI: Login nur für Mitglieder unterstützender Institutionen oder via Projektvoucher. Swissdox Professional (UB/ZB-Lizenz): temporär (5 Tage) und auf Anfrage (e-medien@zb.uzh.ch) |
Web of Science Expanded (Clarivate)
| Lizenz |
❌ Die API-Nutzung ist in der UB/ZB-Lizenz nicht inbegriffen. |
| Inhalte & Formate |
Vollständige bibliographische Datensätze aus der Web of Science Core Collection inkl. Anzahl Zitationen. Geeignet für TDM-Projekte. Ausgabeformat: JSON |
| Einschränkungen |
5 Abfragen/Sek., 5’000 Abfragen/24 St. |
| Dokumentation | |
| Antrag auf Zugang |
Anmeldung im Developer Portal (How to get started) mit UZH‑E‑Mail‑Adresse bzw. bestehendem Konto (Loginseite). Applikation registrieren, dann API Key beantragen. Den gewünschten API‑Plan auswählen und abonnieren. ⚠️Sie müssen die Terms of Use and Product / Service Terms akzeptieren. Zugangsdaten können eine administrative Genehmigung benötigen. |
Web of Science Starter API (Clarivate)
| Lizenz |
✅ Für die UZH-ZB lizenziert ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke |
| Inhalte & Formate |
Keine vollständigen bibliographischen Datensätze. Geeignet für Metadatenchecks, einfache Suche & Validation. Abfragbare Metadaten: DOI, Autorennamen, Source Title / Journal Title, Grundlegende Publikationsinformationen (Jahr, Volume, Issue, Pages), Abstract (in vielen, aber nicht allen Fällen), ISSN, ISBN. Ausgabeformat: JSON |
| Einschränkungen |
5 Abfragen/Sek., 5’000 Abfragen/24 St. |
| Dokumentation | |
| Antrag auf Zugang |
Anmeldung im Developer Portal (How to get started) mit UZH‑E‑Mail‑Adresse bzw. bestehendem Konto (Loginseite). Applikation registrieren, dann API Key beantragen. Den gewünschten API‑Plan auswählen und abonnieren. ⚠️Sie müssen die Terms of Use and Product / Service Terms akzeptieren. Zugangsdaten können eine administrative Genehmigung benötigen. |
Wiley Cochrane Library
| Lizenz |
❌ Die API-Nutzung ist in der Nationallizenz nicht inbegriffen. |
Wiley Online Library
| Lizenz |
✅ TDM zulässig bei lizenzierten Inhalten. Non-Journals (E-books & Reference Works) ausgeschlossen ✅ Nicht-kommerzielle Forschung, Lehre und Lernzwecke. Volltexte innerhalb bestehender Abonnements. |
| Inhalte & Formate |
Zeitschriftenvolltexte sind als PDF erhältlich
|
| Einschränkungen |
3 Requests/Sek. Non-Journals-TDM-Projekte benötigen ein kostenpflichtiges TDM-Agreement (XML-Feed) (siehe unten) |
| Dokumentation | |
| Antrag auf Zugang |
Für Journals TDM wird ein Crossref‑TDM‑Token benötigt. Die TDM-Nutzung wird vom UZH-ZB konsortialen Rahmenvertrag geregelt und übernimmt die Wiley Text and Data Mining Agreement. Jedoch ist das Akzeptieren der Wiley-Click-Through-Lizenz nötig, um eine API-Token zu bekommen (How To Get Started). Non-Journals-TDM via XML-Feed auf Anfrage (tdm@wiley.com) und kostenpflichtig. Kontaktieren Sie uns: emedia@ub.uzh.ch / e-medien@zb.uzh.ch |