Les décisions se multiplient dans le conflit entre les IA et les droits des auteurs. À l’opposé de la décision britannique du 4 novembre qui avait écarté l’atteinte au droit d’auteur, pour des considérations techniques, la présentation est là, d’autres considérations techniques permettent aux juges de Munich le 11 novembre 2025 de retenir l’atteinte aux droits d’auteurs.
Cette décision est d’autant plus intéressante que ne sont en cause que 9 chansons donc des textes relativement courts, et que le passage le plus court violé est composé de 15 mots avec néanmoins la reprise d’éléments créatifs tels que : rythme, structure grammaticale.
1°) Les Parties
À l’initiative de cette décision : la société de gestion collective allemande GEMA (Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte) qui représente les auteurs de 9 chansons.
En défense : deux sociétés du groupe OpenAI, exploitantes des modèles de langage GPT-4 et GPT-4o et fournisseurs du chatbot ChatGPT
Encore que cela soit essentiel pour comprendre cette décision, de nombreuses dispositions de droit allemand et de références aux textes européens sont citées, insistons comme avec la décision du 4 novembre du Juge britannique, sur les importants développements techniques des modèles de langage qui ici retiennent l’attention.
2°) Les modèles de langage en cause confrontés à la mémorisation (Memorisierung)
2-1°) La description par le Tribunal de l’architecture et du fonctionnement des LLM en cause
Le tribunal développe une analyse technique remarquablement détaillée du fonctionnement des modèles GPT :
2-1-1. Structure des Transformers
-
- Architecture de réseaux neuronaux multicouches
- Mécanisme d’attention permettant le deep learning
- Transformation des données en tokens numériques
2-1-2. Processus d’entraînement (Training)
Phase 1 – Préparation du corpus :
-
- Collecte et numérisation des données
- Tokenisation et vectorisation
- Création d’index numériques
Phase 2 – Entraînement proprement dit :
-
- Calcul de vecteurs Query, Key, Value
- Ajustement des paramètres (poids) du modèle
- Mémorisation potentielle de contenus
2-1-3. Génération d’outputs (Inférence)
-
- Conversion du prompt en tokens
- Production token par token
- Distribution de probabilités (Softmax)
- Paramètre “temperature” modulant la créativité
- Stratégies de sampling (greedy, top-k, etc.)
2-2 La “Mémorisation” (Memorisierung) des données d’entraînement
Une mémorisation existe lorsque les paramètres, pendant l’entraînement, ne se contentent pas d’extraire des informations du jeu de données, mais permettent une reprise complète des données d’entraînement dans les paramètres spécifiés après l’entraînement.
-
- La mémorisation peut être prouvée en comparant les données d’entraînement avec les sorties générées par le modèle via des prompts simples ;
- Les paroles des chansons en question ont été mémorisées dans les modèles, ce qui a permis leur reproduction dans les sorties ;
- La mémorisation est décrite comme une reproduction dans le modèle, où les données sont fixées de manière reproductible et peuvent être rendues perceptibles par des outils techniques ;
- Les défendeurs reconnaissent que la mémorisation est un phénomène connu, mais la qualifient de “bug rare” ;
- Des études scientifiques ont démontré la mémorisation dans les modèles d’IA, notamment dans les modèles des défendeurs.
3°) L’atteinte au droit d’auteur : la mémorisation comme reproduction.
3-1°) En particulier, les dispositions de la directive 2001/29 et son article 2 ouvrent cette interprétation extensive du droit de reproduction :
« Les États membres prévoient le droit exclusif d’autoriser ou d’interdire la reproduction directe ou indirecte, provisoire ou permanente, par quelque moyen et sous quelque forme que ce soit… ».
Cette décision poserait le principe que la mémorisation dans les paramètres d’un modèle neuronal équivaut à la reproduction au sens du droit d’auteur.
Conséquences :
-
- Aucune distinction selon le format de stockage
- Perceptibilité indirecte suffisante (avec moyens techniques)
- Inapplicabilité de l’argument “pas de copie littérale”
3-2°) Rejet catégorique de l’exception Text and Data Mining
3-2-1. Distinction des deux phases
Le tribunal opère une distinction fondamentale :
Phase 1 – Couverte par l’exception TDM :
-
- Collecte et préparation du corpus
- Reproductions temporaires nécessaires
- Conversions de format
- Stockage en mémoire de travail
Phase 2 – NON couverte par l’exception :
-
- Mémorisation dans les paramètres du modèle
- Reproduction durable et récupérable
- Atteinte aux intérêts d’exploitation des auteurs
3-2-2. Arguments du rejet
3-2-2-1) Interprétation littérale stricte :
Les reproductions dans le modèle ne constituent pas du Text and Data Mining.
La mémorisation des textes de chansons litigieux excède une telle évaluation et n’est donc pas un simple Text and Data Mining. Les textes comme données d’entraînement n’ont pas seulement été évalués, mais ont été intégralement repris dans les paramètres du modèle, ce qui porte atteinte aux intérêts d’exploitation des auteurs.
3-2-2-2) Prémisse de l’exception TDM non respectée :
La prémisse du Text and Data Mining et des exceptions correspondantes, selon laquelle l’évaluation automatisée de simples informations ne touche pas aux intérêts d’exploitation, ne s’applique pas à cette configuration technique .
Au contraire, les reproductions dans le modèle portent atteinte au droit d’exploitation des titulaires de droits.
3-2-2-3) Refus de l’application analogique :
Le tribunal examine expressément une éventuelle analogie et la rejette pour trois raisons cumulatives :
-
- Wortlaut (texte clair) : “Eine mutmaßlich technik- und innovationsfreundliche Auslegung, die ebenfalls Vervielfältigungen im Modell von der Schranke als gedeckt ansehen wollte, verbietet sich angesichts des klaren Wortlauts.” (Une interprétation prétendument favorable à la technologie et à l’innovation, qui considérerait également les reproductions dans le modèle comme couvertes par la limitation, est hors de question compte tenu de la formulation claire).
- Pas de lacune involontaire (planwidrige Regelungslücke) : Si le législateur n’a pas prévu les LLM, cela ne crée pas automatiquement une lacune.
- Absence d’intérêts comparables :
La disposition d’exception régule la licéité d’actes préparatoires de reproduction lors du Text and Data Mining, situation où les intérêts d’exploitation des auteurs ne sont pas menacés car seules des informations sont extraites et l’œuvre comme telle n’est justement pas reproduite.
En cas de reproductions dans le modèle, l’exploitation de l’œuvre est durablement atteinte et les intérêts légitimes des titulaires de droits sont ainsi violés.
Conséquence décisive :
Si la mémorisation des données d’entraînement ne peut être évitée selon l’état de la technique, l’entraînement de modèles avec des données protégées par le droit d’auteur n’est pas couvert par l’exception Text and Data Mining.
CONSEQUENCE DE CE RAISONNEMENT
Ce rejet du Text and Data Mining constitue un événement majeur :
- Interprétation restrictive des exceptions TDM
- Impossibilité technique ≠ justification juridique
- Responsabilité du développeur pour la mémorisation
- Nécessité d’obtenir des licences préalables
3-3°) Nouvelle mise à disposition du public
Même en supposant la licéité de la mise à disposition sur un site web, il existe un nouveau public lorsque les contenus sont placés sans l’accord du titulaire de droits sur un autre site web. Cela vaut d’autant plus pour l’utilisation non seulement sur un autre site web, mais par un modèle.
Position claire du tribunal :
- L’accès via chatbot = accès public, non individualisé
- Absence de restrictions techniques réelles
- Service “à la demande” (on-demand)
- Disponibilité en tout lieu et à tout moment
- Le fait qu’un prompt individuel soit nécessaire ne transforme pas l’accès public en accès privé.
Ces solutions techniques sont riches d’enseignements pour les professionnels de la PI (Prochain article)