Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 5 Nächste Version anzeigen »


Überblick

In diesem Workshop werden theoretische und praktische Aspekte der Evaluation automatischer Verfahren zur Inhaltserschließung behandelt. Da Künstliche Intelligenz und Maschinelles Lernen in der Informationssuche und Inhaltserschließung immer wichtiger werden, ist es entscheidend, zu verstehen, wie diese Verfahren wirksam bewertet werden können. Damit lassen sich Systeme fundiert planen, Qualität nachhaltig sichern und gezielte Verbesserungen ableiten.

Zentrale Fragen sind dabei: Wie kann ich Schlagwortvorschläge verschiedener Verfahren genau untersuchen? Woran erkenne ich Stärken und Schwächen dieser Verfahren? Welche Vorteile bieten LLM-basierte Ansätze gegenüber klassischen Methoden?

Ziel des Workshops ist es, ein klares Verständnis der wichtigsten Evaluationsmetriken, ihrer Aggregation und der relevanten Evaluationsdimensionen zu vermitteln. Darüber hinaus gibt es praktische Übungen mit dem neu an der Deutschen Nationalbibliothek entwickelten R-Evaluationstoolkit CASIMiR.

Wir betrachten die Stärken und Grenzen verschiedener Ansätze zur automatischen Inhaltserschließung, z. B.:

  • Lexical Matching ([1], [8])

  • Partitioned Label Trees ([2], [3], [4])

  • X-Transformer ([5], [6])

  • durch LLMs generierte Schlagwörter ([7])

Als Beispiel wenden wir diese Verfahren auf einem Testset mit deutschsprachigen Titeln an. Dabei sollen Schlagwörter aus der Gemeinsamen Normdatei (GND) [9] vorhergesagt werden. Aufgrund ihrer Größe stellt die GND ein besonders herausforderndes Zielvokabular dar. Das bietet vielfältige Möglichkeiten, Vor- und Nachteile der einzelnen Verfahren eingehend zu untersuchen.

Zum Abschluss gibt es eine offene Diskussion. Hier können Teilnehmende weitere Aspekte einbringen, die über die reine Qualität der Schlagwortvorschläge hinausgehen, z. B. Ressourcenbedarf, Machbarkeit oder Open-Source-Verfügbarkeit etc.

Voraussetzungen und Vorbereitung

  • Grundkenntnisse in Information Retrieval und Inhaltserschließung, insbesondere zu den grundlegenden Metriken Precision, Recall und F-Score
  • Vertrautheit mit R und grundlegenden Programmierkonzepten ist hilfreich, aber nicht erforderlich
  • Es wird empfohlen, eigene Laptops mit installierter R-Umgebung (idealerweise RStudio oder VS Code) mitzubringen, um die bereitgestellten Beispiel-Notebooks durchzuarbeiten


Die Teilnehmenden erhalten:

  • Beispieldatensätze mit Schlagwortvorschlägen aus verschiedenen Verfahren
  • Zugriff auf das CASIMiR-Paket (GitHub-Link wird später bereitgestellt)
  • Beispiel-Notebooks (quarto) mit den ersten Schritten einer Analyse mit CASIMiR


Erwartete Ergebnisse

Am Ende des Workshops werden die Teilnehmenden:

  • die theoretischen Grundlagen für Evaluationsprojekte verstanden haben,
  • einige Vor- und Nachteile aktueller Verfahren zur automatischen Inhaltserschließung kennen,
  • praktische Erfahrungen mit einer Drill-Down-Analyse in R unter Einsatz von CASIMiR gesammelt haben,
  • in der Lage sein, das erworbene Wissen in eigenen Evaluationsprojekten anzuwenden.




References

[1]      O. Suominen, “Maui Like Lexical Matching,” https://github.com/NatLibFi/Annif/wiki/Backend%3A-MLLM.

[2]      O. Suominen, “Omikuji Backend,” https://github.com/NatLibFi/Annif/wiki/Backend%3A-Omikuji.

[3]      Y. Prabhu, A. Kag, S. Harsola, R. Agrawal, and M. Varma, “Parabel: Partitioned label trees for extreme classification with application to dynamic search advertising,” The Web Conference 2018 - Proceedings of the World Wide Web Conference, WWW 2018, pp. 993–1002, Apr. 2018, doi: 10.1145/3178876.3185998.

[4]      S. Khandagale, H. Xiao, and R. Babbar, “Bonsai: diverse and shallow trees for extreme multi-label classification,” Mach Learn, vol. 109, no. 11, pp. 2099–2119, Nov. 2020, doi: 10.1007/s10994-020-05888-2.

[5]      W.-C. Chang, H.-F. Yu, K. Zhong, Y. Yang, and I. S. Dhillon, “Taming Pretrained Transformers for Extreme Multi-label Text Classification,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, New York, NY, USA: ACM, Aug. 2020, pp. 3163–3171. doi: 10.1145/3394486.3403368.

[6]      J. Zhang, W. Chang, H. Yu, and I. S. Dhillon, “Fast Multi-Resolution Transformer Fine-tuning for Extreme Multi-label Text Classification,” Oct. 2021, Accessed: Nov. 08, 2021. [Online]. Available: https://arxiv.org/abs/2110.00685v2

[7]      L. Kluge and M. Kähler, “DNB-AI-Project at SemEval-2025 Task 5: An LLM-Ensemble Approach for Automated Subject Indexing,” Apr. 2025, Accessed: May 07, 2025. [Online]. Available: https://arxiv.org/abs/2504.21589v1

[8]      O. Medelyan, E. Frank, and I. H. Witten, “Human-competitive tagging using automatic keyphrase extraction,” ACL and AFNLP, pp. 6–7, 2009, doi: 10.5555/3454287.3454810.

[9]      Geschäftsstelle der GND-Zentrale an der Deutschen Nationalbibliothek, “Gemeinsame Normdatei,” https://gnd.network/. Accessed: Oct. 11, 2024. [Online]. Available: https://gnd.network/



  • Keine Stichwörter