KI und die Frage der „Schürfrechte“
May I? Please? Oder: Wie funktioniert das Trainieren von KI mit urheberrechtlich geschützten Inhalten?
Beim Trainieren von KI-Modellen bedienen sich Anbieter aus verschiedenen Quellen. Dabei spielen urheberrechtliche Fragen inzwischen die zentrale Rolle. In der Praxis sieht sich eine wachsende Zahl von Autor:innen und Rechteinhaber:innen mit der Verletzung ihres Urheberrechts konfrontiert.
Der Schutz des geistigen Eigentums stand deshalb während der MEDIENTAGE MÜNCHEN im Mittelpunkt einer Podiumsdiskussion des Europatages. Partner der Veranstaltung waren die Bayerische Landeszentrale für neue Medien (BLM) und das Institut für Europäisches Medienrecht (EMR).
Zunächst erläuterte Dr. Amit Datta, Associate General Counsel des Heidelberger KI-Unternehmens Aleph Alpha, auf welchen Wegen sein Unternehmen Daten für KI-Modelle generiert. Dafür stünden einerseits lizensierte Daten zur Verfügung, bei denen durch individuelle Vereinbarungen auch die urheberrechtliche Dimension berücksichtigt werde. Neben diesen kuratierten Datensätzen sei es zudem gängige Praxis, dass im Internet frei verfügbare Daten durch sogenannte Webcrawler zusammengetragen werden. „Diese Form des Text- und Datamining ist durch Artikel 4 der KI-Verordnung gedeckt, so lange die Rechteinhaber:innen diesem Verfahren nicht ausdrücklich widersprechen“, ergänzte Datta. In der Branche habe man sich dabei auf das Tool robots.txt als valides Instrument des Webcrawling verständigt, weil es die nötige Rechtssicherheit biete. Dieser Webcrawler könne zudem skaliert werden und berücksichtige die Opt-out-Hinweise der Autor:innen.
Von negativen Erfahrungen mit dem System berichtete Dr. Kai Welp, General Counsel/Director der Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte (GEMA). Aktuell sei eine Klage der GEMA bei Gericht anhängig. Anlass der Klage war die Tatsache, dass ein KI-Modell in der Lage war, den Song „Mambo Nr. 5“ vollständig auszuspielen. Welp sah darin die Bestätigung, dass die Opt-out-Modelle nur unzureichende Ergebnisse hinsichtlich des Urheberrechts liefern. „Piraterie ist damit Tür und Tor geöffnet!“ Interessant sei vor diesem Hintergrund, wie KI-Modelle tatsächlich rechtskonform trainiert werden können. Darauf antwortete Dr. Roland L. Klaes, Mitglied der Geschäftsführung des Verlags C.H. Beck, dass sein Unternehmen bei den eigenen KI-Modellen immer die Anliegen der Autoren:innen in den Fokus rücke. „Sobald wir Umsätze mit KI-Anwendungen aus unseren Verlagsprodukten generieren, profitieren die Autor:innen ab dem ersten Euro. Zudem bieten wir mit unseren Anwendungen mehr Sichtbarkeit, Präsenz und Reichweite unserer Partner.“ Um rechtlich abgesichert zu sein, seien alle Autor:innen angeschrieben und um Zustimmung zu dieser Regelung gebeten worden. Die Mehrzahl von ihnen habe bereits zugestimmt.
Unternehmen wie Aleph Alpha würden auf hohe Datenqualität bei gleichzeitig umfassendem Urheberrechtsschutz setzen, versicherte Amit Datta: „Wir setzen vor allem auf bereits kuratierte Daten, prüfen dann aber noch einmal zusätzlich, ob wir die Rechtelage berücksichtigt haben. Dieser Aufwand ist bei unseren Auftraggebern, die oft aus dem öffentlichen Sektor stammen, essentiell.“ Datta bestätigte auch, dass es durchaus unseriöse Anbieter gebe, die einem Auftraggeber oft nur ungeprüfte KI-Modelle zur Verfügung stellen würden.
Einfacher stellt sich dieser Prozess bei der GEMA dar: „Wir sind der alleinige Rechteinhaber von Musikproduktionen. Insofern sind wir auch der zentrale Ansprechpartner, was ein Vorteil für die anfragenden Unternehmen ist“, berichtet Welp. Die GEMA habe sich bei der Lizensierung ihrer Produkte bewusst dafür entschieden, auch das KI-Training zu lizensieren – zu vergleichbaren Konditionen wie echte Musikproduktionen.
Handlungsbedarf sahen alle Diskussionsteilnehmer:innen in der Frage der Territorialität des Urheberrechts. Um die Produkte später auch in Deutschland zu vertreiben, dürfe das Training von KI-Modellen nicht in Länder ausgelagert werden, in denen das Urheberrecht nicht greift. Der Schutz der Autor:innen müsse vollumfänglich gesichert sein und Lizenzmodelle sollten an wirksamen Opt-out-Möglichkeiten ansetzen, die maschinenlesbar und damit rechtssicher sind. Text- and Data Mining sollte weiter möglich sein – gleichzeitig jedoch von allen Beteiligten größtmögliche Sorgfalt im Umgang mit den Rechten Dritter gewährleisten, lautete das Resümee der Gesprächsrunde.