soba photos | Fusée Lite | Getty Images
Géant des médias sociaux Reddit La société d’IA Perplexity a été poursuivie en justice, alléguant qu’elle a illégalement supprimé les publications des utilisateurs pour entraîner son modèle d’IA, marquant la dernière lutte sur les droits sur les données entre les propriétaires de contenu et l’industrie de l’IA.
La plainte déposée mercredi devant le tribunal fédéral de New York nomme également trois accusés qui, selon Reddit, ont aidé Perplexity à collecter ses données : le grattoir de données lituanien Oxylabs, l’ancien botnet russe AWMProxy et la startup texane SerpApi.
Reddit a affirmé que les trois petites entités étaient capables d’extraire leur contenu protégé par le droit d’auteur “en déguisant leur identité, en déguisant leur emplacement et en déguisant leurs grattoirs Web en personnes ordinaires”.
Perplexity, qui gère un moteur de recherche alimenté par l’IA, a nié les allégations et accusé Reddit de « chantage » et d’opposition à un Internet ouvert, tandis que SerpApi a déclaré à CNBC qu’il « était fortement en désaccord » avec les affirmations de Reddit et avait l’intention de se défendre devant les tribunaux.
Cette affaire représente l’une des nombreuses plaintes déposées par des propriétaires de contenu qui accusent les sociétés d’IA d’utiliser du matériel protégé par le droit d’auteur sans autorisation pour entraîner leurs grands modèles de langage. Reddit, en particulier, a été en première ligne dans cette bataille, lançant en juin un procès similaire contre la start-up d’IA Anthropic. CNBC n’a pas pu atteindre Oxylabs et AWMProxy.
Dans une déclaration partagée avec CNBC, Ben Lee, directeur juridique de Reddit, a déclaré que les entreprises d’IA sont « dans une course aux armements pour un contenu humain de haute qualité » et que cette pression a alimenté une « économie de blanchiment de données » au niveau industriel.

Les outils Scraper contournent les protections technologiques pour voler des données, puis les vendent à des clients avides de matériel de formation. Reddit est une cible de choix car il s’agit de l’un des groupes de conversation humaine les plus importants et les plus dynamiques jamais créés.
Reddit – qui héberge plus de 100 000 communautés « subreddit » basées sur des intérêts – a déclaré dans son procès que les publications de ses utilisateurs étaient devenues la source la plus populaire de réponses générées par l’IA sur Perplexity.
Il a ajouté qu’il avait envoyé à Perplexity une lettre de cessation et d’abstention, et avait ensuite multiplié par «quarante» le nombre de citations sur Reddit.
Les chercheurs en IA ont déjà noté que le volume élevé de conversations modérées sur Reddit pourrait aider les chatbots IA à produire des réponses plus naturelles.
À l’ère de l’IA, Reddit a exploité son énorme pool de données, autorisant l’accès uniquement via des accords de licence liés à l’IA. La société de médias sociaux a signé de tels accords avec OpenAI et alphabetGoogle.
En réponse au procès, Perplexity a fait valoir, dans un article sur Reddit, qu’il ne forme pas de modèles d’IA sur le contenu, mais résume et cite simplement les discussions publiques sur Reddit. Par conséquent, elle a déclaré qu’il était « impossible » de signer l’accord de licence.
“Il y a un an, après avoir précisé cela clairement, Reddit a insisté pour que nous payions quand même, même si nous avions légalement accès aux données de Reddit. Se soumettre à des tactiques musclées n’est pas notre façon de faire des affaires”, indique le communiqué, décrivant ensuite le procès comme “une démonstration de force dans les négociations de Reddit sur les données de formation avec Google et OpenAI”.
“Perplexity pense qu’il s’agit d’un triste exemple de ce qui se produit lorsque les données publiques deviennent une partie importante du modèle commercial d’une entreprise publique”, a ajouté Perplexity, soulignant que les licences de données sont devenues une source de revenus de plus en plus importante pour Reddit.
En février, Gene Wong, directeur de l’exploitation de Reddit, a déclaré à la publication spécialisée Adweek que les accords de licences d’IA avec Google et OpenAI représentaient environ 10 % des revenus de Reddit.
