données protégées

24 Oct 2025

Peut-on nourrir une IA avec des œuvres protégées ? Le cas Thomson Reuters contre Ross

Depuis quelques années, les juridictions américaines se retrouvent confrontées à une problématique émergente : comment concilier la montée en puissance de l’intelligence artificielle, particulièrement gourmande en données, avec les exigences du droit d’auteur qui protège une partie importante de ces ressources ?

NOUVEAU : Utilisez nos services pour faire retirer un contenu dénigrant ou de contrefaçon en passant par le formulaire !

La question est d’autant plus sensible que les acteurs de l’IA s’appuient fréquemment sur des corpus textuels de grande ampleur pour entraîner leurs systèmes, au risque de se heurter aux droits des éditeurs et producteurs de contenu.

C’est dans ce contexte qu’intervient le litige Thomson Reuters c. Ross Intelligence, jugé le 11 février 2025 par le tribunal fédéral du district du Delaware. L’affaire oppose l’éditeur juridique Thomson Reuters, propriétaire de la base de données Westlaw, à la jeune entreprise Ross Intelligence, qui développait un moteur de recherche juridique fondé sur l’apprentissage automatique. Refusant d’accorder une licence à Ross, Thomson Reuters a accusé la startup d’avoir contourné l’obstacle en recourant à des intermédiaires pour accéder indirectement à ses contenus protégés, notamment les headnotes et le système de classification juridique qui structurent Westlaw.

La décision rendue par le juge Stephanos Bibas retient particulièrement l’attention : elle reconnaît le caractère protégeable des headnotes au regard du copyright américain et, surtout, écarte la défense de fair use avancée par Ross. Le tribunal estime que l’utilisation litigieuse ne présentait pas de caractère transformateur suffisant, qu’elle poursuivait un but commercial et qu’elle risquait de porter gravement atteinte au marché de Thomson Reuters.

Besoin de l’aide d’un avocat pour un problème de contrefaçon ?

Téléphonez – nous au : 01 43 37 75 63

ou contactez – nous en cliquant sur le lien

Ce jugement, bien qu’intermédiaire et limité à certains aspects du dossier, constitue un signal fort. Il s’agit de l’une des premières décisions américaines qui applique directement l’analyse du fair use à l’entraînement d’une IA, et ce en dehors du champ de l’IA générative.

Les enseignements tirés dépassent ainsi le secteur juridique : ils concernent potentiellement toutes les entreprises développant des systèmes d’IA nourris de données protégées. La question de l’accès aux corpus, des conditions de licence et des risques de concurrence déloyale devient centrale, dans un paysage où le droit d’auteur sert de garde-fou mais peut aussi freiner l’innovation.

I. Fondements juridiques de la décision Thomson Reuters v. Ross Intelligence

A. Les critères retenus pour établir l’infraction au droit d’auteur

Originalité (Copyrightability)

Le tribunal se réfère à la jurisprudence classique, en particulier Feist Publications, Inc. v. Rural Telephone Service Co., qui pose que le seuil d’originalité est très bas : un travail doit simplement être « indépendamment créé » et contenir « une certaine étincelle minimale de créativité ».

Dans le cas présent, les headnotes éditoriales de Westlaw et le Key Number System sont reconnus comme remplissant ce critère. Le juge estime que les choix d’édition, de sélection, d’arrangement etc., impliquent assez de créativité pour protéger ces éléments.

Copie effective / Substantial similarity

Il faut prouver que Ross a copié effectivement les headnotes, ou que ses Bulk Memos sont matériellement similaires aux headnotes (et non simplement proches des opinions judiciaires, qui ne sont pas protégeables). Le juge a examiné les textes comparativement : les Bulk Memos reprennent le langage des headnotes de manière très proche, plutôt que celui des opinions, ce qui montre une similitude substantielle.

Le tribunal avait identifié un lot spécifique de headnotes — environ 2 243 — pour lesquels la similitude et la validité du droit étaient manifestes, de sorte qu’aucune question factuelle raisonnable n’existe à ce sujet.

Refus de licence / contexte concurrentiel

Le fait que Ross avait sollicité une licence à Thomson Reuters, et s’est vu refuser parce qu’il était concurrent, joue un rôle important dans la motivation du tribunal. Cela montre que Ross ne se contente pas d’une utilisation secondaire isolée mais cherche à concurrencer directement le titulaire du droit.

Défenses rejetées

Ross a invoqué plusieurs défenses : innocent infringement, merger doctrine, scènes à faire, copyright misuse. Le juge a rejeté chacune, notamment parce que :

Innocent infringement ne limite pas la responsabilité dès lors qu’il y a copie.
Merger (idée-expression) ne s’applique pas ici, car il existe plusieurs manières d’exprimer les idées de droit, donc l’expression (headnotes) ne fusionne pas avec l’idée.
scènes à faire (éléments dictés par la nature de l’œuvre) non applicable ici.

B. L’analyse du fair use : application des quatre facteurs et prise de position

La partie centrale du jugement porte sur la défense de fair use, qui constitue une exception essentielle au droit d’auteur aux États-Unis. Le tribunal procède à l’examen des quatre facteurs posés par l’article 107 du Copyright Act.

Le premier facteur, relatif au but et au caractère de l’usage, est déterminant. Le juge relève que l’utilisation opérée par Ross était pleinement commerciale, destinée à alimenter un produit concurrent de Westlaw. En outre, l’usage n’est pas transformateur : il ne se limite pas à un enrichissement ou à une analyse critique des données de Thomson Reuters, mais consiste à exploiter directement les headnotes pour bâtir un service similaire. Ainsi, la fonction finale du produit demeure très proche de celle du contenu protégé, ce qui pèse lourdement contre Ross.

Le deuxième facteur, qui porte sur la nature de l’œuvre protégée, est plus nuancé. Certes, les headnotes s’appuient sur des décisions de justice qui, elles, sont dans le domaine public. Toutefois, la mise en forme, la sélection des passages, et l’angle éditorial introduisent une dimension créative. Le juge reconnaît que ces contenus ne sont pas des œuvres d’imagination pure, mais qu’ils dépassent néanmoins le simple recueil d’informations factuelles. Ce facteur n’est donc pas entièrement favorable à Ross, même s’il n’a pas l’importance décisive des autres.

Concernant le troisième facteur, relatif à la quantité et à la substantialité de l’extrait utilisé, Ross soutenait que les utilisateurs finaux de son outil n’avaient pas directement accès aux headnotes copiés. Néanmoins, l’examen montre que les Bulk Memos reprennent une partie significative de ces résumés, en substance et parfois en formulation. Le tribunal estime donc que la quantité prélevée est loin d’être négligeable, et que cette reproduction porte sur l’essence même de l’expression protégée.

Enfin, le quatrième facteur — l’effet de l’usage sur le marché de l’œuvre protégée — s’avère crucial. L’exploitation des contenus de Westlaw par Ross menace directement le marché principal de Thomson Reuters, à savoir la fourniture de services de recherche juridique aux professionnels. En outre, le tribunal souligne que ce type d’usage non autorisé pourrait priver l’éditeur d’un marché secondaire potentiel : celui des licences pour l’entraînement de modèles d’IA. Même si ce marché n’était pas encore entièrement développé, il est légitime de prendre en compte sa possible émergence. L’effet de substitution et la concurrence frontale apparaissent donc manifestes.

Dans la mise en balance finale, le juge considère que les deux premiers facteurs (caractère de l’usage et effet sur le marché) l’emportent nettement sur les autres. Le fair use est donc rejeté, et la violation du copyright est confirmée.

II. Conséquences et limites pratiques de la décision

A. Conséquences pour les acteurs de l’IA / implications

Renforcement du besoin de licences

Les entreprises qui veulent entraîner des modèles d’IA ou utiliser des données éditoriales protégées devront sérieusement envisager d’obtenir des licences, même si les œuvres semblent « informatives ». Ce jugement montre que même des résumés ou des annotations, si suffisamment originaux, sont protégés, et que l’argument du fair use est risqué si l’usage commercial ou concurrent est apparent.

Effet dissuasif pour usages commerciaux concurrents

Ce cas met en garde les startups ou entreprises qui cherchent à concurrencer directement des titulaires de droits en utilisant leurs contenus protégés comme source d’entraînement, sous prétexte de fair use. Les tribunaux pourraient comparer le service final, la clientèle, le type d’usage, pour voir s’il y a substitution de marché.

Impact sur l’écosystème des données d’entraînement

Le marché potentiel de données d’entrainement pour l’IA (datasets, licences, marchés secondaires) est mis en lumière. Les titulaires de droit pourraient exiger paiement ou contrôle plus strict, et les acheteurs / utilisateurs de données devront diligenter leurs acquisitions : vérifier la provenance, s’assurer que ce qui est utilisé est non protégé ou bien sous licence, etc.

Répercussions pour la recherche, les universités, l’IA open source

Bien que ce cas concerne une entreprise commerciale, il va aussi influencer les pratiques dans la recherche, dans les universités, dans les projets open source / académiques. Ceux-ci devront veiller à distinguer les usages non commerciaux, éducatifs, transformateurs ou critiques, pour ne pas être pris au piège du précédent.

Influence sur décisions futures, y compris dans les cas de IA générative

Ce jugement sera cité dans les litiges actuels et à venir concernant l’IA générative (modèles de langage, etc.), car beaucoup de ces affaires invoquent fair use pour la formation des modèles sur des textes protégés. Même si les faits diffèrent (génératif vs non génératif, quantité de copie, nature des œuvres, etc.), la logique de l’importance des facteurs 1 et 4, et l’examen minutieux de la similitude substantielle, sont des guides.

B. Limites et points d’incertitude

Spécificité des faits

Le cas porte sur une IA de recherche juridique, non générative, avec bulk memos, headnotes, etc. D’autres technologies d’IA peuvent varier fortement : modèles de langage génératifs, apprentissage non supervisé, plus grande part de génération et moins de restitution verbatim, etc. Les décisions dans d’autres contextes pourraient pencher différemment.

Non décision sur tous les éléments

La décision ne règle pas tous les headnotes, ni tous les aspects revendiqués par Thomson Reuters, ni le Key Number System de façon complète, ni certaines œuvres dont le droit d’auteur pourrait avoir expiré ou ne pas avoir été valablement enregistré. Certaines questions factuelles restent à trancher en procès.

Caractère non génératif de l’IA comme facteur

Ici, Ross n’est pas une IA générative dans le sens de génération de texte neuf à partir de prompts, mais un moteur de recherche qui restitue des opinions connues. Ce type d’usage est plus proche du cas traditionnel de recherche / compilation que certains usages innovants de l’IA générative. Les tribunaux pourraient, dans des cas de IA générative, trouver l’usage plus transformateur (selon la façon dont le modèle utilise les données) ou peser différemment le facteur de caractère transformateur.

Évolution du droit, appels potentiels, jurisprudence variable selon les circuits

Ce jugement est d’un tribunal de district (District of Delaware). Il peut être sujet à appel devant le Third Circuit, et potentiellement devant la Cour suprême. D’autres tribunaux dans d’autres circuits pourraient interpréter les facteurs de fair use différemment. Il n’y a pas encore de règle uniforme fédérale sur tous les aspects de l’utilisation d’IA.

Équilibre entre innovation et protection des droits

La tension demeure : protéger les titulaires de droits est légitime, mais ne pas étouffer l’innovation. Ce cas montre qu’il y a des limites claires à ce que l’on peut faire sans autorisation, mais il ne dit pas qu’aucun usage de données protégées dans l’IA n’est possible sous fair use — juste que dans ce cas précis, les défenses échouent. Les innovations futures devront soigner la nature de l’usage, le degré de transformation, la quantité de données utilisées, etc., pour avoir une chance de succès sous fair use.

Pour lire une version plus complète de cet article sur la contrefaçon et les IA, cliquez

Sources :

Par Murielle Cahen • internet-et-droit, Newsletter • • Tags: base de données, contrefaçon, données protégées, droit d'auteur, IA

Murielle Cahen Cabinet d’avocats Paris

données protégées

# Coordonnées du cabinet

Contactez-nous

Murielle Cahen Cabinet d’avocats Paris

données protégées

Peut-on nourrir une IA avec des œuvres protégées ? Le cas Thomson Reuters contre Ross

I. Fondements juridiques de la décision Thomson Reuters v. Ross Intelligence

A. Les critères retenus pour établir l’infraction au droit d’auteur

Originalité (Copyrightability)

Copie effective / Substantial similarity

Refus de licence / contexte concurrentiel

Défenses rejetées

B. L’analyse du fair use : application des quatre facteurs et prise de position

II. Conséquences et limites pratiques de la décision

A. Conséquences pour les acteurs de l’IA / implications

Renforcement du besoin de licences

Effet dissuasif pour usages commerciaux concurrents

Impact sur l’écosystème des données d’entraînement

Répercussions pour la recherche, les universités, l’IA open source

Influence sur décisions futures, y compris dans les cas de IA générative

B. Limites et points d’incertitude

Spécificité des faits

Non décision sur tous les éléments

Caractère non génératif de l’IA comme facteur

Évolution du droit, appels potentiels, jurisprudence variable selon les circuits

Équilibre entre innovation et protection des droits

# Coordonnées du cabinet

Contactez-nous