protection

La collecte automatisée de données : Crawling & Scraping

Aujourd’hui, il est indéniable que les nouvelles technologies prennent une place de plus en plus importante dans notre quotidien. Au regard de la production massive de données qui en découle, la question se pose de savoir comment encadrer leur collecte, notamment lorsqu’elle est automatisée.

NOUVEAU : Utilisez nos services pour faire retirer un contenu dénigrant ou de contrefaçon en passant par le formulaire !

Il est important de comprendre qu’internet est un outil qui fonctionne sur les données fournies par ses utilisateurs. L’émergence du « Big data » devait, nécessairement, s’accompagner d’outils de collecte automatisée de ces données. C’est notamment le cas des pratiques de « crawling » et de « scraping ».

Ces logiciels permettent en effet, dans un laps de temps très court, d’obtenir une quantité importante d’informations utiles pour une entreprise ou un particulier, à partir d’une liste de sites constituant le « champ d’action » du robot.

Néanmoins, ces pratiques demeurent encadrées. Elles doivent répondre à certains principes, et notamment à ceux liés à la protection des données collectées automatiquement.


 

Besoin de l’aide d’un avocat pour un problème de contrefaçon ?

Téléphonez nous au : 01 43 37 75 63

ou contactez nous en cliquant sur le lien


Dès lors la propriété, la nécessité d’une autorisation préalable pour la collecte, ou encore les questions liées à la réutilisation de ces données sont des enjeux de taille qui dictent les limites de la légalité de ces outils de collecte automatisée.

Pour en saisir toute l’importance il convient donc de comprendre, dans un premier temps, les différents usages qui peuvent être faits de ces outils (I), pour ensuite envisager le cadre protecteur des données collectées automatiquement (II).

I. Les différents usages des crawlers et scrapers

La récolte des données à des fins d’information (A), tout comme l’indexation et la réutilisation de celles-ci (B), sont les objectifs visés par l’usage de ces outils numériques.

A) La récolte des données

En effet, le crawling est une pratique qui consiste à « collecter [automatiquement] le contenu d’une page pour ensuite la traiter, la classer et fournir des informations» ) au propriétaire du logiciel .

Le logiciel de scraping, lui, va « extraire du contenu d’un site Web dans le but de le transformer pour permettre son utilisation dans un autre contexte ».

Néanmoins, la récolte de ces données ne va pas fonctionner sur le même principe, que l’on soit dans le cas des crawlers ou dans celui des scrapers.

En effet, les crawlers vont fonctionner sur un principe de redirection : à partir d’une liste (« seed ») de sites prédéfinis par l’utilisateur du robot, le crawler va dans un premier temps se rendre sur ces pages et en récupérer l’intégralité du contenu. Par la suite, le logiciel va extraire l’ensemble des liens URLs présents sur les pages analysées, et suivre ces liens pour également analyser le contenu des pages référencées sous ces liens.

Le scraper, lui, va plutôt se baser sur un « patron » configuré au préalable, qui prend en compte la structure HTML de la base de donnée  analysée, afin de pouvoir extraire de manière pertinente les données et leur mise à disposition sur les pages consultées.

Les agences « 1 min 30 s » et « Centraledesmarchés.com » constituent des exemples illustrant : quand la première fait usage de crawlers pour analyser les « forces et faiblesses » de sites de marketing en ligne à travers l’analyse de leurs outils et pratiques, la seconde référence quotidiennement, depuis 2013, les appels d’offres publics d’une centaine de sites par le biais de scrapers.

B) L’indexation et la réutilisation des données

La traduction française du terme « crawler » s’intitule «Robot d’indexation ». Comme on l’a dit, tout l’intérêt de ce genre d’outil consiste en la récolte et l’analyse de données contenues sur des pages Web.

Ceci étant, des questions peuvent se poser au regard de l’exploitation des données récoltées par ce biais.

L’objectif principal de ces outils demeure celui de tirer des informations pratiques et concrètes de ces données : une fois récoltées, puis triées et structurées en fonction de leur pertinence et de ce que recherche l’auteur, elles permettront d’avoir une vision précise du contenu et des pratiques, pour l’usager, des pages analysées.

Mais, comme on l’a vu, ces données peuvent également être réexploitées dans un but bien précis : c’est l’exemple de la plateforme américaine Common Crawl, ayant pour objectif d’archiver le plus de pages Web possible, et de rendre disponible leur accès via le site de la fondation. On estime qu’aujourd’hui, la plateforme centralise environ 15 % du web mondial, grâce à l’usage de crawlers .

De plus, certains pourraient être tentés de réutiliser les données collectées, afin par exemple d’augmenter le trafic de leur propre site internet.

Ces pratiques posent plusieurs questions, au regard du droit rattaché à ces différentes utilisations du jeu de données récolté : des questions de droit de la concurrence, mais aussi et plus largement des questions liées au droit de la propriété intellectuelle et à la protection accordée à ces données et bases de données.

 

II. Les atteintes à la protection de ces données

La propriété intellectuelle et le droit d’auteur offrent un cadre légal protection aux données récoltées automatiquement (A). Ceci étant, le propriétaire de ces données pourra également chercher à se prémunir lui-même d’une telle collecte (B).

A) Le cadre imposé par le droit de la propriété intellectuelle et le droit d’auteur

Il faut savoir que ces pratiques sont encadrées par le droit, et notamment par la propriété intellectuelle, pour éviter tout type d’abus et notamment la contrefaçon.

Dans le cadre d’une indexation des données, en réalité, la contrefaçon ne sera généralement pas admise. En effet, même si l’indexation de données récoltées par l’usage de crawlers va permettre au réexploitant d’augmenter le nombre de visites de son site, l’indexation fait normalement référence aux sources citées et, de ce fait, n’entre pas en contradiction ni avec le droit d’auteur , ni avec le droit des bases de données.

C’est notamment ce qu’a pu retenir le Tribunal de grande instance de Paris, dans son arrêt « Adenclassified » du 1er février 2011 ayant débouté de sa demande une société dont les données ont été indexées, les faits ne constituant pas une violation du « droit sui generis du producteur de bases de données» .

À la lecture de cette décision, on comprend également que l’extraction de données par le biais de ces outils numériques dans la poursuite d’un objectif de réutilisation « de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données » est constitutive d’un acte de contrefaçon, comme le prévoient expressément les articles 342-1 et 342-2 du Code de la propriété intellectuelle.
La Cour d’appel vient condamner une société d’édition dans un arrêt du 31 juillet 2019 pour avoir mis en place un système informatique permettant l’exploration et le crawling sur des sites d’éditeurs concurrent. Ainsi, le service offert par la société consistant en la fourniture de recherches jurisprudentielles et d’indexation de commentaires juridiques était basé sur un système de crawling permettant à la société de proposer, à leurs abonnés, des contenus normalement destinés uniquement aux abonnés des sites concurrents.

La jurisprudence de 2011 fut également confirmée dans un arrêt récent rendu par la Cour d’appel de Paris,, le 2 février 2021. L’arrêt dispose que l’extraction et la réutilisation des données en l’espèce les annonces proposées par la société leboncoin.fr, constituait une violation du « droit sui generis du producteur de base de données », violant ainsi les articles 342-1 et 342-2 du Code de la Propriété intellectuelle.

Au demeurant, il n’existe pas de règles précises concernant l’établissement du caractère substantiel du contenu. Ainsi, la reconnaissance d’un tel critère se fera au cas par cas par le juge du litige en question, et il convient donc aux utilisateurs des extracteurs de mesurer l’exploitation qu’ils feront de ces données.

B) Les moyens de lutte contre ces outils

Il est souvent recommandé aux utilisateurs d’outils comme les crawlers et scrapers d’agir avec mesure et parcimonie : par exemple, ceux-ci ne devront pas surcharger les serveurs des sites visités par un nombre de requêtes trop important, au risque de causer un déni de service qui pourra facilement s’apparenter à un acte de concurrence déloyale.

En outre, certains propriétaires de sites peuvent vouloir se prémunir face à ces outils, refusant de voir leurs données récoltées « pillées » .

Quoi qu’il en soi, si la pratique n’est pas formellement bannie, les propriétaires de sites peuvent réagir. La Cour d’appel de Paris, dans son arrêt « SAIF c/Google » du 26 janvier 2011, soutenait effectivement que « chaque webmaster peut, via son fichier robot.txt, contrôler la manière dont les données de son site sont visitées par les crawlers, notamment en interdisant l’accès à certaines d’entre elles » .

L’action en contrefaçon, ouverte à la suite de la violation d’un droit privatif conféré par la protection du droit d’auteur, ainsi que l’action en concurrence déloyale, fondée sur la responsabilité délictuelle, sont deux procédures judiciaires de règlement des conflits liés à de telles pratiques. Mais, comme on l’a vu, le propriétaire de bases de données peut également se prémunir de ces pratiques que d’aucuns considèrent comme attentatoires. La légalité, tout comme la légitimité, du crawling et du scraping restent donc encore aujourd’hui discutables.
>Aux États-Unis, la problématique du crawling et du scraping existe également et des entreprises veulent lutter contre ces pratiques. La société Linkedin a notamment voulu lutter contre le scraping, elle s’opposait à la collecte massive et automatisée de données. Cependant, la juridiction américaine a refusé l’action de la société, dans sa décision du 9 septembre 2019. En effet, la juridiction considère que la société n’avait pas de droit à agir, vu qu’elle n’est pas propriétaire des données publiées par ses membres, de plus, les membres avaient déjà connaissance que leurs données allaient être accessibles à des tiers, vu qu’il s’agissait de l’objectif principal du site.

Pour lire une version plus complète de cet article, cliquer sur le mot crawling

SOURCES :

(1) http://firstmonday.org/article/view/1394/1312_2
(2) https://fr.oncrawl.com/seo-technique/introduction-crawler-web/
(3) https://www.c-radar.com/blog/2017/04/24/developper-votre-intelligence-commerciale-avec-le-crawling-et-le-scraping/
(4) https://fr.wikipedia.org/wiki/Robot_d%27indexation
(5) https://www.c-radar.com/blog/2017/04/24/developper-votre-intelligence-commerciale-avec-le-crawling-et-le-scraping/
(6) https://www.legalis.net/jurisprudences/tribunal-de-grande-instance-de-paris-3eme-chambre-1ere-section-jugement-du-01-fevrier-2011/
(7) https://fr.wikipedia.org/wiki/Web_scraping
(8) http://curia.europa.eu/juris/document/document.jsf?docid=145914&doclang=FR
(9) https://www.islean-consulting.fr/fr/transformation-digitale/scraping-pages-web-legal/
(10) https://www.legavox.fr/blog/maitre-matthieu-pacaud/extraction-indexation-donnees-crawlers-internet-22421.ht
Cour d’appel de Paris, 31 juillet 2019, n° 19/02352
Cour d’appel de Paris, 2 février 2021, n° 17/17688.
https://cdn.ca9.uscourts.gov/datastore/opinions/2019/09/09/17-16783.pdf

Le critère d’originalité pour définir le droit d’auteur d’une œuvre

 » Chercher l’originalité dans la nouveauté est une preuve d’absence d’originalité  » telle sont les propos de Jacques de Bourbon Busset dans son œuvre  » Tu ne mourras point « . C’est pourquoi en droit, chacune de ces notions,  » nouveauté  » et  » originalité « , est protégée par un droit bien spécifique. La nouveauté par le droit des brevets et l’originalité par le droit d’auteur. Et si l’ère du numérique nous menait à la confusion entre ces deux concepts ?

À défaut d’un régime propre à appliquer pour les nouvelles œuvres issues du numérique, c’est vers la propriété littéraire et artistique composée du droit d’auteur et des droits voisins que le droit s’est tourné afin d’encadrer et protéger ces œuvres immatérielles. Plus précisément, le droit d’auteur, ce qui lui a insufflé une nouvelle vie.

NOUVEAU : Utilisez nos services pour faire retirer un contenu dénigrant ou de contrefaçon en passant par le formulaire !

Les conditions permettant de profiter de la protection de ce droit d’auteur sont répertoriées à l’article L112-1 du CPI qui dispose  » Les dispositions du présent code protègent les droits des auteurs sur toutes les œuvres de l’esprit, quels qu’en soient le genre, la forme d’expression, le mérite ou la destination  » (1).

Une adaptation de ce droit était nécessaire allant même jusqu’à sa réécriture au travers de l’évolution du critère d’originalité qui caractérise la seule condition de protection. Ce nouveau défi porte autant sur l’informatique en tant que substance par les logiciels et bases de données (I) que son utilisation au travers des œuvres multimédias (II)

 

I- L’évolution du critère d’originalité grâce aux œuvres informatiques :

 A- Un  » programme informatique  » : le logiciel.

Il est à l’initiative de la nécessité d’intervention du droit d’auteur pour sa protection.


Besoin de l’aide d’un avocat pour un problème de contrefaçon ?

Téléphonez nous au : 01 43 37 75 63

ou contactez nous en cliquant sur le lien


Loin des œuvres traditionnelles, il est plutôt technique. Il n’existe pas de définition légale du logiciel, mais on peut retenir une conception large de ce dernier, en tant qu’ensemble d’instructions données permettant de traiter l’information par un système informatique. D’où sa particularité qui réside d’abord, dans le fait que c’est un programme composé de suite binaire.

Le logiciel a imposé au droit d’auteur de s’accommoder en rompant avec sa conception traditionnelle particulièrement en matière d’originalité. Classiquement, l’originalité d’une œuvre réside dans le fait  » qu’elle est le fruit d’un travail créatif dans l’univers des formes littéraires ou artistiques et constitue une création marquée de la personnalité de l’auteur « .
Désormais, depuis l’arrêt de l’Assemblée plénière du 7 mars 1986 (arrêt pachot) pour caractériser l’originalité, on ne parle plus de « d’empreinte de personnalité « , mais  » d’effort de création  » ou encore  » l’effort personnalisé « . On ne recherche plus la personnalité de l’auteur au travers de sa création, mais un cheminement intellectuel qu’aurait suivi ce dernier pour créer son œuvre.

Cette modification de l’essence même du critère de l’originalité n’est que les prémices d’une saga qui s’est poursuivie avec la base de données.

Ces éléments de l’arrêt Pachot sont encore retenus par la jurisprudence actuelle comme dans un arrêt de la Cour d’appel de Douai du 5 avril 2018 qui retient le nécessaire effort personnalisé ainsi que l’apport intellectuel, afin de déterminer le caractère original du logiciel, permettant sa protection par le droit d’auteur. Le but étant de caractériser les choix opérés par le concepteur du logiciel afin de qualifier le logiciel d’œuvre de l’esprit. La Cour d’appel dispose également que l’étendue de l’effort personnalisé ne peut se contenter « d’une simple mise en œuvre d’une logique automatique et contraignante, la réalisation de cet effort résidant dans une structure individualisée ».

 

B- Une œuvre d’information : la base de données

 » On entend par base de données un recueil d’œuvres, de données ou d’autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessible par des moyens électroniques ou par tout autre moyen.  » (2) Telle est la définition de la base de données par l’article L112-3 alinéa 2 du CPI et elle est protégée durant quinze ans (art. L. 342-5).

La base de données est donc une œuvre de l’esprit. Elle peut être protégée par le droit d’auteur si elle est originale par le choix ou la disposition des matières. C’est cette condition unique d’originalité qui constitue l’essence même de la protection de la base de données. C’est ici aussi une conception objective du critère d’originalité qui est imposé par le législateur.

Ce qui va déterminer l’originalité de cette œuvre est donc la structure et l’organisation. Une simple organisation par ordre alphabétique ou chronologique ne suffit pas à caractériser l’originalité. En effet, la simple compilation d’informations n’est pas protégée, pour y parvenir il faut caractériser un  » apport intellectuel  » de la part de l’auteur (arrêt Coprosa, Civ. 1ère, 2 mai 1989).

Cet  » apport intellectuel  » se compose d’un choix personnel et arbitraire de la part de l’auteur dans la construction et l’organisation des données. On recherche une valorisation dans l’agencement de l’information et non une automaticité.

Cette recherche de  » plus-value  » peut nous entraîner encore plus profondément dans l’idée d’influence du lobbying industriel et plus particulièrement la lecture de l’article L. 341-1 qui dispose que  » le producteur d’une base de données, entendu comme la personne qui prend l’initiative et le risque des investissements correspondants, bénéficie d’une protection du contenu de la base lorsque la constitution, la vérification ou la présentation de celui-ci attestent d’un investissement financier, matériel ou humain substantiel « .(3)

Dans un arrêt du 2 février 2021, il va y avoir, en effet une appréciation de la qualité de producteur de base de données sur le fondement de cet article L.341-1 du Code la Propriété Intellectuelle. Cependant la Cour va considérer que cet article est insuffisant pour qualifier le producteur de base de données et précise qu’il est nécessaire de rechercher également si la société qui a acquis « la propriété des éléments d’actifs constituant la branche d’activité d’exploitation de (la base de données), démontre avoir elle-même réalisé, postérieurement à cet apport, un nouvel investissement substantiel lui permettant de bénéficier de la protection » étendue de quinze ans.

 

II- Sa continuité grâce aux œuvres multimédias

 

A- L’œuvre multimédia

C’est une œuvre plurielle. Sa définition est doctrinale. C’est la  » réunion sur un même support numérique ou lors de la consultation d’éléments de genres différents et notamment de sons, de textes, d’images fixes ou animées, de programmes informatiques dont la structure, l’accès sont régis par un logiciel permettant l’interactivité et qui a été conçu pour avoir une identité propre, différente de celle résultant de la simple réunion des éléments qui la composent  » (4)

On a donc une diversité de contenue (texte, image, son…) ce qui fait sa particularité, car on y retrouve des œuvres protégées par le droit d’auteur au travers du critère d’originalité dans sa conception subjective. La réunion de ces œuvres  » classiques  » constitue la genèse de cette œuvre multimédia.

L’œuvre multimédia est caractérisée par une dualité de nature à la fois artistique et informatique. C’est donc une appréciation globale de l’œuvre qui est opérée au travers soit de sa composition soit de son expression soit des deux, à la fois.

Ainsi par un arrêt du 8 novembre 2016 le TGI de bordeaux rappelle « qu’un site internet peut constituer une œuvre de l’esprit protégeable, seul le choix des couleurs, des formes, du graphisme, de l’agencement, de la programmation et des fonctionnalités peut lui conférer un tel caractère « . Certes ces éléments permettent de caractériser l’originalité objective de l’œuvre et permettent ainsi sa protection, mais le concept d’un site à lui seul ne suffit pas. En effet, comme nous le rappelle l’adage de Dubois  » les idées sont de simple parcours  » ce qui limite toute autre évolution qu’on voudrait imputer au droit d’auteur.

Le Jeu vidéo fut également qualifié d’œuvre multimédia, et un arrêt du 25 juin 2009 CRYO est venu reconnaître une approche distributive du droit d’auteur pour le jeu vidéo. En effet la Cour dispose qu’un « jeu vidéo est une œuvre complexe qui ne saurait être réduite à sa seule dimension logicielle, quelle que soit l’importance de celle-ci, de sorte que chacune de ses composantes est soumise au régime qui lui est applicable en fonction de sa nature. ». Depuis l’arrêt de 2009, l’approche distributive est retenue de manière constante comme dans la décision Alone In The Dark rendu par le TGI de Lyon le 8 septembre 2016.

B- Conséquences de la rupture avec les belles lettres

Œuvre originale et personnalisée, Œuvre de l’esprit, Effort intellectuel, Apport intellectuel…autant de termes qui caractérisent l’évolution du critère d’originalité qui demeure subjectif pour les œuvres  » classiques  » et prône son objectivation pour protéger les  » nouvelles  » œuvres.
Dénaturation, affaiblissement… telles sont les atteintes portées au critère d’originalité et de ce fait au droit d’auteur. Car bien que s’offre à elle une nouvelle vie au travers de la protection de ces œuvres, il n’en demeure pas moins que c’est par influence de l’économie et des pressions industrielles que l’Art se retrouve encore relégué au second plan.
Ce qui est nouveau est généralement original et inversement, alors malgré les reproches qu’on peut faire à l’égard de cette évolution, il y a bien longtemps que la convention de Berne de 1886 a instauré ce critère universel pour la protection des œuvres littéraires et artistiques ce qui a constitué un  » gouffre  » désormais exploitable par une nouvelle version des  » Arts « .

Pour lire cet article sur le droit d’auteur en version plus longue,

Sources :

(1) https://www.legifrance.gouv.fr/affichCodeArticle.do?idArticle=LEGIARTI000006278873&cidTexte=LEGITEXT000006069414
(2) https://www.legifrance.gouv.fr/affichCodeArticle.do?idArticle=LEGIARTI000006278879&cidTexte=LEGITEXT000006069414
(3) https://www.legifrance.gouv.fr/affichCodeArticle.do?cidTexte=LEGITEXT000006069414&idArticle=LEGIARTI000006279245
(4) http://eduscol.education.fr/archives/legamedia/fiches/oe-multimedia.htm
Cour d’appel de de Douai, 5 avril 2018, n° 16/04545
Cour d’appel de Paris, 2 février 2021, n° 17/17688
Cour de cassation, 25 juin 2009, n° 07-20.38
https://www.courdecassation.fr/jurisprudence_2/premiere_chambre_civile_568/732_25_13124.html
TGI Lyon, 8 septembre 2016, n° 05/08070

Commerce électronique en Europe

L’arrivée d’internet a permis le développement du commerce électronique, cependant la place de l’Europe ne cesse de croitre aujourd’hui, alors quelles sont les perceptives juridiques pour le commerce électroniques en Europe à l’heure actuelle ?

Pour lire la site, cliquez sur ce lien

Consommation : déménagement

J’ai engagé une entreprise pour déménager. Or je constate que plusieurs de mes meubles ont été abîmés. Que puis–je faire ?
Vous devez tout d’abord établir la liste des dégâts et refuser de signer la « lettre de décharge ».
Envoyez ensuite une réclamation au déménageur, dans les trois jours, par lettre recommandée avec accusé de réception.

Pour lire la suite, cliquez sur ce lien