Zweiter Daten-Dump: Beschriftete Referenzlisten für die Bildsegmentierung

Für unsere Linked Open Citation Database entwickeln wir neue Ansätze zur Extraktion von Referenzdaten aus Referenzlisten. Ein Schritt in diesem Prozess ist die Segmentierung solcher Listen in einzelne Referenzen, d.h. für jede Referenz wird eine Box bestimmt.

Für Trainings- und Evaluierungszwecke haben wir 2.402 zusätzliche Seiten mit Referenzen aus Büchern und Kapiteln gekennzeichnet.c

Die Koordinaten für das erste Feld sind:

<xmin>194</xmin>
<ymin>700</ymin>
<xmax>1758</xmax>
<ymax>800</ymax>

Sehen Sie hier das komplette XML dieser Seitendatei mit allen Boxen.

Der vollständige Datensatz kann zusammen mit den bibliographischen Angaben von MADATA heruntergeladen werden, damit Sie Datenzitate erstellen können: https://doi.org/10.7801/283

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.