La collecte automatisée de données : Crawling & Scraping

Print Friendly, PDF & Email

Aujourd’hui, il est indéniable que les nouvelles technologies prennent une place de plus en plus importante dans notre quotidien. Au regard de la production massive de données qui en découle, la question se pose de savoir comment encadrer leur collecte, notamment lorsqu’elle est automatisée.

NOUVEAU : Utilisez nos services pour faire retirer un contenu dénigrant ou de contrefaçon en passant par le formulaire !

Il est important de comprendre qu’internet est un outil qui fonctionne sur les données fournies par ses utilisateurs. L’émergence du « Big data » devait, nécessairement, s’accompagner d’outils de collecte automatisée de ces données. C’est notamment le cas des pratiques de « crawling » et de « scraping ».

Ces logiciels permettent en effet, dans un laps de temps très court, d’obtenir une quantité importante d’informations utiles pour une entreprise ou un particulier, à partir d’une liste de sites constituant le « champ d’action » du robot.

Néanmoins, ces pratiques demeurent encadrées. Elles doivent répondre à certains principes, et notamment à ceux liés à la protection des données collectées automatiquement.


 

Besoin de l’aide d’un avocat pour un problème de contrefaçon ?

Téléphonez nous au : 01 43 37 75 63

ou contactez nous en cliquant sur le lien


Dès lors la propriété, la nécessité d’une autorisation préalable pour la collecte, ou encore les questions liées à la réutilisation de ces données sont des enjeux de taille qui dictent les limites de la légalité de ces outils de collecte automatisée.

Pour en saisir toute l’importance il convient donc de comprendre, dans un premier temps, les différents usages qui peuvent être faits de ces outils (I), pour ensuite envisager le cadre protecteur des données collectées automatiquement (II).

I. Les différents usages des crawlers et scrapers

La récolte des données à des fins d’information (A), tout comme l’indexation et la réutilisation de celles-ci (B), sont les objectifs visés par l’usage de ces outils numériques.

A) La récolte des données

En effet, le crawling est une pratique qui consiste à « collecter [automatiquement] le contenu d’une page pour ensuite la traiter, la classer et fournir des informations» ) au propriétaire du logiciel .

Le logiciel de scraping, lui, va « extraire du contenu d’un site Web dans le but de le transformer pour permettre son utilisation dans un autre contexte ».

Néanmoins, la récolte de ces données ne va pas fonctionner sur le même principe, que l’on soit dans le cas des crawlers ou dans celui des scrapers.

En effet, les crawlers vont fonctionner sur un principe de redirection : à partir d’une liste (« seed ») de sites prédéfinis par l’utilisateur du robot, le crawler va dans un premier temps se rendre sur ces pages et en récupérer l’intégralité du contenu. Par la suite, le logiciel va extraire l’ensemble des liens URLs présents sur les pages analysées, et suivre ces liens pour également analyser le contenu des pages référencées sous ces liens.

Le scraper, lui, va plutôt se baser sur un « patron » configuré au préalable, qui prend en compte la structure HTML de la base de donnée  analysée, afin de pouvoir extraire de manière pertinente les données et leur mise à disposition sur les pages consultées.

Les agences « 1 min 30 s » et « Centraledesmarchés.com » constituent des exemples illustrant : quand la première fait usage de crawlers pour analyser les « forces et faiblesses » de sites de marketing en ligne à travers l’analyse de leurs outils et pratiques, la seconde référence quotidiennement, depuis 2013, les appels d’offres publics d’une centaine de sites par le biais de scrapers.

B) L’indexation et la réutilisation des données

La traduction française du terme « crawler » s’intitule «Robot d’indexation ». Comme on l’a dit, tout l’intérêt de ce genre d’outil consiste en la récolte et l’analyse de données contenues sur des pages Web.

Ceci étant, des questions peuvent se poser au regard de l’exploitation des données récoltées par ce biais.

L’objectif principal de ces outils demeure celui de tirer des informations pratiques et concrètes de ces données : une fois récoltées, puis triées et structurées en fonction de leur pertinence et de ce que recherche l’auteur, elles permettront d’avoir une vision précise du contenu et des pratiques, pour l’usager, des pages analysées.

Mais, comme on l’a vu, ces données peuvent également être réexploitées dans un but bien précis : c’est l’exemple de la plateforme américaine Common Crawl, ayant pour objectif d’archiver le plus de pages Web possible, et de rendre disponible leur accès via le site de la fondation. On estime qu’aujourd’hui, la plateforme centralise environ 15 % du web mondial, grâce à l’usage de crawlers .

De plus, certains pourraient être tentés de réutiliser les données collectées, afin par exemple d’augmenter le trafic de leur propre site internet.

Ces pratiques posent plusieurs questions, au regard du droit rattaché à ces différentes utilisations du jeu de données récolté : des questions de droit de la concurrence, mais aussi et plus largement des questions liées au droit de la propriété intellectuelle et à la protection accordée à ces données et bases de données.

 

II. Les atteintes à la protection de ces données

La propriété intellectuelle et le droit d’auteur offrent un cadre légal protection aux données récoltées automatiquement (A). Ceci étant, le propriétaire de ces données pourra également chercher à se prémunir lui-même d’une telle collecte (B).

A) Le cadre imposé par le droit de la propriété intellectuelle et le droit d’auteur

Il faut savoir que ces pratiques sont encadrées par le droit, et notamment par la propriété intellectuelle, pour éviter tout type d’abus et notamment la contrefaçon.

Dans le cadre d’une indexation des données, en réalité, la contrefaçon ne sera généralement pas admise. En effet, même si l’indexation de données récoltées par l’usage de crawlers va permettre au réexploitant d’augmenter le nombre de visites de son site, l’indexation fait normalement référence aux sources citées et, de ce fait, n’entre pas en contradiction ni avec le droit d’auteur , ni avec le droit des bases de données.

C’est notamment ce qu’a pu retenir le Tribunal de grande instance de Paris, dans son arrêt « Adenclassified » du 1er février 2011 ayant débouté de sa demande une société dont les données ont été indexées, les faits ne constituant pas une violation du « droit sui generis du producteur de bases de données» .

À la lecture de cette décision, on comprend également que l’extraction de données par le biais de ces outils numériques dans la poursuite d’un objectif de réutilisation « de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu d’une base de données » est constitutive d’un acte de contrefaçon, comme le prévoient expressément les articles 342-1 et 342-2 du Code de la propriété intellectuelle.
La Cour d’appel vient condamner une société d’édition dans un arrêt du 31 juillet 2019 pour avoir mis en place un système informatique permettant l’exploration et le crawling sur des sites d’éditeurs concurrent. Ainsi, le service offert par la société consistant en la fourniture de recherches jurisprudentielles et d’indexation de commentaires juridiques était basé sur un système de crawling permettant à la société de proposer, à leurs abonnés, des contenus normalement destinés uniquement aux abonnés des sites concurrents.

La jurisprudence de 2011 fut également confirmée dans un arrêt récent rendu par la Cour d’appel de Paris,, le 2 février 2021. L’arrêt dispose que l’extraction et la réutilisation des données en l’espèce les annonces proposées par la société leboncoin.fr, constituait une violation du « droit sui generis du producteur de base de données », violant ainsi les articles 342-1 et 342-2 du Code de la Propriété intellectuelle.

Au demeurant, il n’existe pas de règles précises concernant l’établissement du caractère substantiel du contenu. Ainsi, la reconnaissance d’un tel critère se fera au cas par cas par le juge du litige en question, et il convient donc aux utilisateurs des extracteurs de mesurer l’exploitation qu’ils feront de ces données.

B) Les moyens de lutte contre ces outils

Il est souvent recommandé aux utilisateurs d’outils comme les crawlers et scrapers d’agir avec mesure et parcimonie : par exemple, ceux-ci ne devront pas surcharger les serveurs des sites visités par un nombre de requêtes trop important, au risque de causer un déni de service qui pourra facilement s’apparenter à un acte de concurrence déloyale.

En outre, certains propriétaires de sites peuvent vouloir se prémunir face à ces outils, refusant de voir leurs données récoltées « pillées » .

Quoi qu’il en soi, si la pratique n’est pas formellement bannie, les propriétaires de sites peuvent réagir. La Cour d’appel de Paris, dans son arrêt « SAIF c/Google » du 26 janvier 2011, soutenait effectivement que « chaque webmaster peut, via son fichier robot.txt, contrôler la manière dont les données de son site sont visitées par les crawlers, notamment en interdisant l’accès à certaines d’entre elles » .

L’action en contrefaçon, ouverte à la suite de la violation d’un droit privatif conféré par la protection du droit d’auteur, ainsi que l’action en concurrence déloyale, fondée sur la responsabilité délictuelle, sont deux procédures judiciaires de règlement des conflits liés à de telles pratiques. Mais, comme on l’a vu, le propriétaire de bases de données peut également se prémunir de ces pratiques que d’aucuns considèrent comme attentatoires. La légalité, tout comme la légitimité, du crawling et du scraping restent donc encore aujourd’hui discutables.
>Aux États-Unis, la problématique du crawling et du scraping existe également et des entreprises veulent lutter contre ces pratiques. La société Linkedin a notamment voulu lutter contre le scraping, elle s’opposait à la collecte massive et automatisée de données. Cependant, la juridiction américaine a refusé l’action de la société, dans sa décision du 9 septembre 2019. En effet, la juridiction considère que la société n’avait pas de droit à agir, vu qu’elle n’est pas propriétaire des données publiées par ses membres, de plus, les membres avaient déjà connaissance que leurs données allaient être accessibles à des tiers, vu qu’il s’agissait de l’objectif principal du site.

Pour lire une version plus complète de cet article, cliquer sur le mot crawling

SOURCES :

(1) http://firstmonday.org/article/view/1394/1312_2
(2) https://fr.oncrawl.com/seo-technique/introduction-crawler-web/
(3) https://www.c-radar.com/blog/2017/04/24/developper-votre-intelligence-commerciale-avec-le-crawling-et-le-scraping/
(4) https://fr.wikipedia.org/wiki/Robot_d%27indexation
(5) https://www.c-radar.com/blog/2017/04/24/developper-votre-intelligence-commerciale-avec-le-crawling-et-le-scraping/
(6) https://www.legalis.net/jurisprudences/tribunal-de-grande-instance-de-paris-3eme-chambre-1ere-section-jugement-du-01-fevrier-2011/
(7) https://fr.wikipedia.org/wiki/Web_scraping
(8) http://curia.europa.eu/juris/document/document.jsf?docid=145914&doclang=FR
(9) https://www.islean-consulting.fr/fr/transformation-digitale/scraping-pages-web-legal/
(10) https://www.legavox.fr/blog/maitre-matthieu-pacaud/extraction-indexation-donnees-crawlers-internet-22421.ht
Cour d’appel de Paris, 31 juillet 2019, n° 19/02352
Cour d’appel de Paris, 2 février 2021, n° 17/17688.
https://cdn.ca9.uscourts.gov/datastore/opinions/2019/09/09/17-16783.pdf

Cet article a été rédigé pour offrir des informations utiles, des conseils juridiques pour une utilisation personnelle, ou professionnelle. Il est mis à jour régulièrement, dans la mesure du possible, les lois évoluant régulièrement. Le cabinet ne peut donc être responsable de toute péremption ou de toute erreur juridique dans les articles du site. Mais chaque cas est unique. Si vous avez une question précise à poser au cabinet d’avocats, dont vous ne trouvez pas la réponse sur le site, vous pouvez nous téléphoner au 01 43 37 75 63.