OpenAPC im KOA-Projekt

Christoph Broschinski

OpenAPC im Schnelldurchlauf

OpenAPC...

...basiert auf dem Open Data-Prinzip
...sammelt, kuratiert und veröffentlicht APC-Daten von teilnehmenden Institutionen auf Artikelbasis
...trägt dazu bei, Transparenz, Vergleichbarkeit und Verfolgung von Kostenentwicklungen im APC-Bereich zu schaffen

Datensammlungen:

Kerndatensatz: OA-Artikel mit APC-Kosten
Offsetting-Datensatz: OA-Artikel ohne APC-Kosten, basierend auf anderen Abrechnungsmodellen

Bereitstellung der Daten

Rohdaten auf GitHub
OLAP-Server
Treemaps

OpenAPC und KOA

Von 10/2015 bis 9/2018: INTACT-Initative (gefördert durch die DFG), bestehend aus:

OpenAPC
ESAC (MPDL München)
OA Analytics (I2SoS)

Seit 10/2018 bis 9/2020: KOA (gefördert durch das BMBF), bestehend aus:

OpenAPC
AG Bibliometrie (vormals I2SoS bzw. OA Analytics)

KOA: "Kostentransparenz als Beitrag zur Open-Access-Transformation"

Im Wesentlichen 3 Ziele:

Fortsetzung der OpenAPC-Datenaggregation
Beiträge zu einem OA-Kostenmonitor (FZ Jülich)
Qualifizierte Schätzung von Kosten des Open-Access-Publizierens

Kosten des OA-Publizierens

Einige gelegentlich anzutreffende Missverständnisse über OpenAPC:

"OpenAPC ist ein Monitoringprojekt."
"In OpenAPC lässt sich ablesen, was und wo an einer teilnehmende Institution OA publiziert wurde."
"In OpenAPC lässt sich ablesen, welche Gesamtkosten einer Institution für das OA-Publizieren entstanden sind."

Alle diese Aussagen sind unzutreffend.

Grund: Die im OpenAPC-Kerndatensatz enthaltenen Daten sind für keine Institution vollständig!

Selektives Reporting (Beispiel deutsche Universitäten: Nur Publikationsfonds-Daten)
Keine Zentralerfassung
"Graue Kosten": APCs, die ohne Inanspruchnahme irgendeiner Förderung (Publikationsfond, Grant etc.) direkt an den Verlag gezahlt werden, tauchen in aller Regel in keinem Datensatz auf.

Richtig hingegen ist:

Die in OpenAPC verzeichneten Zahlen bilden eine Untergrenze für die tatsächlich entstandenen Kosten/Publikationen
Mithilfe des OpenAPC-Datensatzes lassen sich Durchschnittskosten für verschiedene Selektionen berechnen.

Folgerung: Um Aussagen über die OA-Publikationskosten einer Institution/einer Gruppe/eines Landes zu treffen, müssen die OpenAPC-Daten mit bibliometrischen Daten kombiniert werden!

Die KOA-Formel: Bibliometrie-Daten + OpenAPC-Durchschnittskosten = Gesamtkostenabschätzung

Die folgenden Beispiele (OpenAPC-Nebenprojekte aus 2018) zeigen, wie Erkenntnisse aus der Verknüpfung von OpenAPC mit anderen Daten gewonnen werden können.

Beispiel 1: Offsetting Coverage

Der Offsetting-Datensatz ist eine Sammlung von OA-Artikeln, die über die Springer Compact Agreements publiziert wurden.
Springer Compact: Nationale Konsortialverträge, über die Autoren aus den betreffenden Ländern ohne direkte Kosten in hybriden Springer-Zeitschriften OA publizieren können.
Im Gegensatz zum OpenAPC-Kerndatensatz ist der Offsetting-Datensatz (fast) vollständig.

Frage: Wie effektiv sind eigentlich diese Agreements?

Wie hoch ist der OA-Anteil im entsprechenden Zeitschriften-Portfolio? Wie entwickelt er sich seit Bestehen der Veträge (2015)?
Welcher Prozentsatz am OA-Anteil wird durch die Springer Compact Agreements verursacht?

Diese Frage lässt sich nur beantworten, wenn die Daten in OpenAPC mit bibliometrischen Daten verknüpft werden!

Beispiel 1: Offsetting Coverage (2)

Benötigte Daten sind prinzipiell öffentlich direkt bei Springer verfügbar (Springerlink-Portal), müssen aber umständlich aggregiert und aufbereitet werden:

Download einer Liste aller Journals, die unter das Springer Compact Agreement fallen (~2000).
Für jedes Journal und jeden Jahrgang:
- Bestimme die Gesamtzahl der Artikel und die Anzahl der OA-Artikel über die Springerlink-Journalseite (Webscraping)
- Lade die Artikelliste herunter und gleiche ab, welche davon im Offsetting-Datensatz vorhanden sind.
Baue eine spezielle Treemap-Ansicht zur Darstellung der Ergebnisse.

Beispiel 2: Simuliertes Offsetting Coverage

Offsetting Coverage mit hypothetischer Fragestellung: Wie würden sich die Zahlen verändern, wenn ein weiterer Konsortialpartner (in diesem Fall: Deutschland) beitreten würde?

Diese Frage ist ohne bibliometrische Analysen nicht zu beantworten.
Kooperation mit der AG Bibliometrie: Bereitstellung eines entsprechend Datensatzes (Vorgriff auf KOA)

Vorgehensweise:

AG Bibliometrie erstellt Datensatz auf WoS-Grundlage (Filterung: Publikationen in Springer-Journalen (nicht Gold OA) von CAs an deutschen Einrichtungen in 2016 und 2017)
OpenAPC kuratiert Datensatz:
- Dublettenbereinigung
- Entfernen aller Artikel, dich bereits im Offsetting-Datensatz vorhanden sind (Max-Planck-Gesellschaft)
- Entfernen aller Artikel, dich nicht im Springer Compact-Portfolio veröffentlicht wurden
- Entfernen aller Artikel, die schon jetzt OA sind
Zusammenfügen mit Offsetting-Daten zu einem neuen, simulierten Datensatz
Erstellen einer speziellen Treemap-Ansicht (Entwicklungssserver).

Beispiel 3: Direkte Analyse von Verlagsdaten

Im Zuge der Evaluierung eines möglichen Konsortiums wurden OpenAPC vom Frontiers-Verlag offizielle Rechungsdaten zur Verfügung gestellt.

Zeitraum: 2014-2018
Artikel mit CA an einer deutschen Einrichtung

Durch Kombination mit OpenAPC-Daten konnten mehrere interessante Fragestellungen analysiert werden:

Welche Institutionen publizieren viel bei Frontiers, sind aber nicht Teilnehmer bei OpenAPC?
Welcher Anteil von Frontiers-Artikeln bei OpenAPC-Teilnehmern wird an uns gemeldet? (Publikationsfonds!)
Wie hoch sind die geschätzen Publikationskosten für Nicht-Teilnehmer?