Fachtagung 2023 des Netzwerks maschinelle Verfahren in der Erschließung am 07. und 08. Dezember 2023

Schwerpunkt der Fachveranstaltung der Deutschen Nationalbibliothek waren die aktuellen Entwicklungen im Bereich generativer KI und großer Sprachmodelle und deren Bedeutung für die Bibliotheken.

Was können die neuesten Technologien leisten und welche Herausforderungen, Chancen und Risiken sind damit verbunden (technische, rechtliche und ethische Aspekte)? Sind die aktuellen Sprachmodelle für Anwendungen in Bibliotheken, Wissenschaft und Forschung geeignet? Und wäre es sinnvoll und rechtlich möglich, dass sich Bibliotheken mit ihren umfangreichen Beständen auch am weiteren Aufbau beteiligen? Das sind die Fragen, die beleuchtet werden.

Panel

title	Weitere Informationen

Organisation: Elisabeth Mödden, Christa Schöning-Walter

Veranstaltungskalender DNB: https://www.dnb.de/kibibliotheken2023

Kontakt: ki-ee@dnb.de

Programm und Präsentationen (CC BY-SA 4.0)

Donnerstag • 07. Dezember 2023

Beginn um 13:00 Uhr

Frank Scholze • Generaldirektor der Deutschen Nationalbibliothek

Begrüßung und Einführung

Session 1

Datenräume

PDF

name	01_DNB-Keynote Nejdl.pdf

Prof. Dr. Wolfgang Nejdl • Leibniz Universität Hannover, Institut für Data Science & Forschungszentrum L3S

Toggle Cloak
id @T1
Warum auch ein großes Sprachmodell Dinge nachschlagen sollte – Über die Vernetzung von LLMs mit Suchmaschinen und Wissensgraphen

Cloak

id	@T1

PDF

name	02_DNB-2023-Georg-Rehm-final.pdf

Prof. Dr. Georg Rehm • DFKI Berlin, Speech and Language Technology Lab • HU Berlin, Institut für deutsche Sprache und Linguistik

Toggle Cloak
id @T2
Europäische Sprachmodelle: Herausforderungen, Initiativen, Lösungsansätze

Cloak

id	@T2

Session 2

Infrastrukturen und Werkzeuge

PDF

name	03_potthast_2023c.pdf

Prof. Dr. Martin Potthast • Universität Leipzig, Intelligent Language Technologies

Toggle Cloak
id @T3
Generative Suche und Biases

Cloak

visible	true
id	@T3

Die Suche nach Informationen steht wieder einmal an einem Wendepunkt in ihrer langen Geschichte: Texte und Bilder, die früher ausschließlich aus Sammlungen bestehender Dokumente abgerufen wurden, können jetzt auf Anfrage synthetisiert werden. Aufgrund der jüngsten Fortschritte in der generativen KI im Allgemeinen und bei großen Sprachmodellen (LLMs) im Besonderen erwarten die Suchenden zunehmend, dass sie von der manuellen Aufgabe entlastet werden, die relevanten Teile der abgerufenen Dokumente zu identifizieren, und erwarten stattdessen Antworten in Form von Text- oder Multimediadokumenten. Dieser Umbruch verläuft parallel zu der wahrgenommenen Verschlechterung der Qualität der Ergebnisse traditioneller Web-Suchmaschinen. Seit Jahren beschweren sich die Nutzer/innen sozialer Medien über die geringe Relevanz der Suchergebnisse der großen Suchmaschinen. In dieser Hinsicht könnte generative KI eine Schlüsselrolle bei einer Renaissance der Informationsbeschaffung spielen. Dennoch lauern hier auch Risiken und es bedarf offener Daten und neuen Infrastrukturen, um diesen Herausforderung begegnen.

trueVideohttps://www.youtube.com/watch?v=SMPCGwOIV8I

PDF

name	0404a_20231207_DNB_Schimmler_Slides-2.pdf

Prof. Dr. Sonja Schimmler • Fraunhofer FOKUS Berlin, Geschäftsbereich DPS • TU Berlin, Fachgebiet Open Distributed Systems • Weizenbaum-Institut

Toggle Cloak
id @T8
Forschungsdateninfrastrukturen und deren Bedeutung für moderne Forschung

Cloak

visible	true
id	@T8

Moderne Forschung auf international kompetitivem Niveau ist ohne digitale Unterstützung nicht mehr möglich. So werden immer mehr Daten erzeugt und auch immer mehr technische Systeme eingesetzt. Dies betrifft nicht nur die Lebens-, Natur- und Ingenieurwissenschaften, sondern ebenso die Geistes- und Sozialwissenschaften. Dies führt zu einem Paradigmenwechsel, der derzeit von zahlreichen Aktivitäten begleitet wird. Prominente Beispiele sind die Nationale Forschungsdateninfrastruktur (NFDI) sowie die European Open Science Cloud (EOSC).

Meine zentrale Hypothese ist, dass der wissenschaftliche Fortschritt nur gewährleistet werden kann, wenn (1) Daten in großem Maßstab verfügbar sind, (2) diese Daten sinnvoll repräsentiert und verknüpft sind und (3) die Besonderheiten der einzelnen Disziplinen sehr sorgfältig berücksichtigt werden.

Im Vortrag konzentriere ich mich auf Forschungsdateninfrastrukturen und deren Bedeutung für moderne Forschung. Es wird ein Überblick über aktuelle technische Entwicklungen gegeben, wobei der Schwerpunkt auf der Repräsentation und Verknüpfung von digitalen Artefakten wie Publikationen, Forschungsdaten und Forschungssoftware liegt.

Session 3

Recht und Ressourcen

PDF

name	05_DNB_KI_Stieper_komprimiert.pdf

Prof. Dr. Malte Stieper• Martin-Luther-Universität Halle-Wittenberg, Gundling-Professur für Bürgerliches Recht, Recht des geistigen Eigentums und Wettbewerbsrecht

Toggle Cloak
id @T6
Künstliche Intelligenz und Urheberrecht: Die Verwendung urheberrechtlich geschützter Werke als Trainingsdaten für „generative“ KI-Modelle

Cloak

visible	true
id	@T6

Die rasant steigende Leistungsfähigkeit sog. „generativer“ KI-Modelle, wie sie von Diensten wie ChatGPT oder DALL-E genutzt werden, lässt die jeweiligen Systeme Ergebnisse produzieren, die von menschlichen Kreationen kaum mehr zu unterscheiden sind. Das Urheberrecht, das den Werkbegriff an eine „persönliche geistige Schöpfung“ knüpft, wird dadurch vor erhebliche Herausforderungen gestellt. Auf der anderen Seite müssen die zugrunde liegenden „large language models“ (LLM) mit großen Mengen von Daten trainiert werden, deren Inhalte ihrerseits häufig urheberrechtlich geschützt sind. Viele Autor:innen befürchten, dass ihre Werke durch die Verwendung als KI-Trainingsdaten zu „Motoren ihrer eigenen Zerstörung" werden, weil diese Sprachmodelle die automatische Erstellung von Texten ermöglichen, für die sonst Autor:innen bezahlt werden müssten. Im Bibliothekskontext stellt sich daher u. a. die Frage, inwieweit die im Bestand einer Bibliothek oder eines Archivs vorhandenen Werke genutzt werden dürfen, um solche KI-Modelle zu trainieren.

Prof. Dr. Malte Stieper, Inhaber der Gundling-Professur für Bürgerliches Recht, Recht des geistigen Eigentums und Wettbewerbsrecht an der Martin-Luther-Universität Halle-Wittenberg, stellt den geltenden Rechtsrahmen im Urheberrecht vor und wirft einen Blick auf die zukünftige Entwicklung insbesondere im Recht der Europäischen Union. Einen Schwerpunkt bilden dabei die in diesem Zusammenhang relevanten Schrankenregelungen, vor allem für das Text und Data Mining.

PDF

name	06-VersionNeu_ai-energy_Fricke_Thomas.pdf

Dr. Thomas Fricke • Consultant

Toggle Cloak
id @T7
The Hidden Costs of AI - Resource Consumption and Conflicts

Cloak

visible	true
id	@T7

Even before the AI hype the energy and water consumption of data centers has grown exponentially. With the arrival of Large Language Models LLMs the problem has grown dramatically.

The talk will raise questions about how to handle the unprecedented hype and try to give responses. Is the public discussion about ethical AI really necessary or just a distraction from the real problems? Can we improve the models and the usage of AI in a way to answer useful questions?

Freitag • 08. Dezember 2023

Session 4

Technologien und Initiativen

PDF

name	07_20231208-felix-sasaki-dnb-deutsche-version-mit-notizen.pdf

Prof. Dr. Felix Sasaki • SAP SE

Toggle Cloak
id @T11
Zusammenspiel von Wissensgraphen und LLMs: Ansätze praxisorientierter Rahmenbedingungen

Cloak

visible	true
id	@T11

Generative KI und insbesondere große Sprachmodelle (LLMs) zeigen neue Wege der Generierung und Erschließung von Inhalten auf. Dabei können sich LLMs und Wissensgraphen (KGs) wunderbar ergänzen: LLMs als sprachliche Schnittstelle und Speicher für generelles Wissen; KGs als Kodierung für strukturiertes, semantisch verknüpftes und domänenspezifisches Wissen. Die Herausforderung liegt darin, gewinnbringende Kombinationen der beiden Ansätze zu finden, die auch nichttechnischen Rahmenbedingungen genügt.

Info

icon	false

Englische Version der Präsentation

PDF

name	08_machine learning in cls.pdf

Hans Ole Hatzel • Universität Hamburg, Department of Informatics, Language Technology Group

Toggle Cloak
id @T4
Maschinelles Lernen in den digitalen Literaturwissenschaften

Cloak

visible	true
id	@T4

Traditionell wird in den digitalen Literaturwissenschaften oft explorativ mit unterschiedlichen Eigenschaften von Texten, wie etwa Worthäufigkeiten, gearbeitet. Zusätzlich wird auch Forschung auf Grundlage von Annotationen komplizierterer Konzepte betrieben.

Spätestens seit dem Aufkommen von Sprachmodellen wie BERT lassen sich viele Annotationsschemata automatisiert umsetzen, sodass Analysen der entsprechenden Konzepte auf großen Korpora ermöglicht werden. In diesem Vortrag wird der Stand der Techniken im Feld der digitalen Literaturwissenschaften dargelegt. Daraufhin werden die Herausforderungen diskutiert vor denen das Feld auch unter der Zuhilfenahme von LLMs weiterhin steht, insbesondere in Bezug auf die semantische Erschließung von Texten.

PDF

name	09-LAION - Democratizing AI - Alexandria.pdf

Christoph Schuhmann, Jenia Jitsev • Laion gemeinnütziger Verein e.V.

Toggle Cloak
id @T5
Laion - Das Wissen der Menschen verfügbar machen

Cloak

id	@T5

Session 5

Fairness und Erklärbarkeit

PDF

name	10_GerNatBib_komprimiert.pdf

Felix Friedrich • Technische Universität Darmstadt, Computer Science Department, Hessian.AI and AI/ML Group

Toggle Cloak
id @T9
Generative KI - erklärbar und fair?

Cloak

visible	true
id	@T9

Wie können wir die gesellschaftliche Akzeptanz von KI-Systeme verbessern?“ Ein große Hilfe dabei ist es den Menschen zu integrieren (human-in-the-loop). ChatGPT ist hier nur ein Beispiel, bei dem menschliche Interaktion die Nutzbarkeit und Leistung deutlich steigerte und Menschen daran zweifeln ließ, dass Kreativität tot und KI gelöst sei. Obwohl beides nicht zutrifft, zeigt es dennoch das massive Potential von menschlicher Interaktion. Eine Modalität, der dabei besondere Aufmerksamkeit gilt, ist die Erklärbarkeit von KI-Modellen (XAI). Die Kommunikation zwischen Mensch und Maschine benötigt eine tiefere Ebene — die gegenseitige Erklärung für Entscheidungen. Andererseits sehen wir, dass aktuelle Modelle stark verzerrt (biased) sind. Dies ist nicht sonderlich überraschend, da sie self-supervised auf riesigen Mengen ungefilterter Daten aus dem Internet trainiert werden. Sie laufen daher Gefahr diese (Internet-)Vorurteile widerzuspiegeln. Entsprechend ist eine weitere Herausforderung, die erlernten Darstellungen in diesen Modellen besser zu verstehen und sie in beliebige Richtungen verändern zu können, um den Weg für fairere KI-Modelle zu ebnen.

PDF

name	11_DNB_Kongress_20231208.pdf

Hans-Jörg Schäuble • Aleph Alpha GmbH

Toggle Cloak
id @T10
Chancen und Risiken generativer KI aus der Perspektive eines Startup-Unternehmens

Cloak

id	@T10

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 14

Neue Version 15

Schlüssel

Fachtagung 2023 des Netzwerks maschinelle Verfahren in der Erschließung am 07. und 08. Dezember 2023

Programm und Präsentationen (CC BY-SA 4.0)

Donnerstag • 07. Dezember 2023

Begrüßung und Einführung

Datenräume

Toggle Cloak
id @T1
Warum auch ein großes Sprachmodell Dinge nachschlagen sollte – Über die Vernetzung von LLMs mit Suchmaschinen und Wissensgraphen

Toggle Cloak
id @T2
Europäische Sprachmodelle: Herausforderungen, Initiativen, Lösungsansätze

Session 2

Infrastrukturen und Werkzeuge

Toggle Cloak
id @T3
Generative Suche und Biases

Toggle Cloak
id @T8
Forschungsdateninfrastrukturen und deren Bedeutung für moderne Forschung

Session 3

Recht und Ressourcen

Toggle Cloak
id @T6
Künstliche Intelligenz und Urheberrecht: Die Verwendung urheberrechtlich geschützter Werke als Trainingsdaten für „generative“ KI-Modelle

Toggle Cloak
id @T7
The Hidden Costs of AI - Resource Consumption and Conflicts

Freitag • 08. Dezember 2023

Session 4

Technologien und Initiativen

Toggle Cloak
id @T11
Zusammenspiel von Wissensgraphen und LLMs: Ansätze praxisorientierter Rahmenbedingungen

Toggle Cloak
id @T4
Maschinelles Lernen in den digitalen Literaturwissenschaften

Toggle Cloak
id @T5
Laion - Das Wissen der Menschen verfügbar machen

Session 5

Fairness und Erklärbarkeit

Toggle Cloak
id @T9
Generative KI - erklärbar und fair?

Toggle Cloak
id @T10
Chancen und Risiken generativer KI aus der Perspektive eines Startup-Unternehmens

Bereichsverknüpfungen

Seitenhierarchie

Seitenhistorie

Versionen im Vergleich

Alte Version 14

Neue Version 15

Schlüssel

Fachtagung 2023 des Netzwerks maschinelle Verfahren in der Erschließung am 07. und 08. Dezember 2023

Programm und Präsentationen (CC BY-SA 4.0)

Donnerstag • 07. Dezember 2023

Begrüßung und Einführung

Datenräume

Toggle Cloakid@T1Warum auch ein großes Sprachmodell Dinge nachschlagen sollte – Über die Vernetzung von LLMs mit Suchmaschinen und Wissensgraphen

Toggle Cloakid@T2 Europäische Sprachmodelle: Herausforderungen, Initiativen, Lösungsansätze

Session 2

Infrastrukturen und Werkzeuge

Toggle Cloakid@T3 Generative Suche und Biases

Toggle Cloakid@T8 Forschungsdateninfrastrukturen und deren Bedeutung für moderne Forschung

Session 3

Recht und Ressourcen

Toggle Cloakid@T6 Künstliche Intelligenz und Urheberrecht: Die Verwendung urheberrechtlich geschützter Werke als Trainingsdaten für „generative“ KI-Modelle

Toggle Cloakid@T7 The Hidden Costs of AI - Resource Consumption and Conflicts

Freitag • 08. Dezember 2023

Session 4

Technologien und Initiativen

Toggle Cloakid@T11 Zusammenspiel von Wissensgraphen und LLMs: Ansätze praxisorientierter Rahmenbedingungen

Toggle Cloakid@T4 Maschinelles Lernen in den digitalen Literaturwissenschaften

Toggle Cloakid@T5 Laion - Das Wissen der Menschen verfügbar machen

Session 5

Fairness und Erklärbarkeit

Toggle Cloakid@T9 Generative KI - erklärbar und fair?

Toggle Cloakid@T10 Chancen und Risiken generativer KI aus der Perspektive eines Startup-Unternehmens

Toggle Cloak
id @T1
Warum auch ein großes Sprachmodell Dinge nachschlagen sollte – Über die Vernetzung von LLMs mit Suchmaschinen und Wissensgraphen

Toggle Cloak
id @T2
Europäische Sprachmodelle: Herausforderungen, Initiativen, Lösungsansätze

Toggle Cloak
id @T3
Generative Suche und Biases

Toggle Cloak
id @T8
Forschungsdateninfrastrukturen und deren Bedeutung für moderne Forschung

Toggle Cloak
id @T6
Künstliche Intelligenz und Urheberrecht: Die Verwendung urheberrechtlich geschützter Werke als Trainingsdaten für „generative“ KI-Modelle

Toggle Cloak
id @T7
The Hidden Costs of AI - Resource Consumption and Conflicts

Toggle Cloak
id @T11
Zusammenspiel von Wissensgraphen und LLMs: Ansätze praxisorientierter Rahmenbedingungen

Toggle Cloak
id @T4
Maschinelles Lernen in den digitalen Literaturwissenschaften

Toggle Cloak
id @T5
Laion - Das Wissen der Menschen verfügbar machen

Toggle Cloak
id @T9
Generative KI - erklärbar und fair?

Toggle Cloak
id @T10
Chancen und Risiken generativer KI aus der Perspektive eines Startup-Unternehmens