Reddit poursuit anthropic sur le grattage des données de l'IA - Actualité sur le financement de l'innovation

Reddit accuse anthropique de construire ses modèles Claude AI à l’arrière des utilisateurs de Reddit, sans autorisation et sans payer.

Quiconque utilise Reddit, même un bot déchirant, accepte l’accord d’utilisateur du site. Cet accord est clair: vous ne pouvez pas simplement prendre du contenu du site et l’utiliser pour vos propres produits commerciaux sans accord écrit. Reddit affirme que les robots d’Anthropic font exactement cela depuis des années, grattant les quantités massives de conversations et de postes pour former et améliorer Claude.

Ce qui rend ce procès particulièrement épicé, c’est la façon dont il se passe après la réputation d’Anthropic. Anthropic a travaillé dur pour se faire une marque en tant que société d’IA éthique et digne de confiance, le «chevalier blanc» de l’industrie. Le procès, cependant, appelle ces revendications rien de plus que des «gadgets marketing vides».

Par exemple, Reddit indique une déclaration de juillet 2024 où Anthropic a affirmé avoir empêché ses robots de ramper Reddit. Le procès dit que c’était «faux», alléguant que ses journaux ont attrapé des bots d’Anthropic essayant d’accéder au site plus de cent mille fois au cours des mois suivants.

Mais il ne s’agit pas seulement des querelles d’entreprise; il implique directement la confidentialité des utilisateurs. Lorsque vous supprimez un message ou un commentaire sur Reddit, vous vous attendez à ce qu’il soit parti. Reddit a des accords de licence officiels avec d’autres grands joueurs d’IA comme Google et OpenAI, et ces offres incluent des mesures techniques pour s’assurer que lorsqu’un utilisateur supprime le contenu, la société d’IA le fait également.

Selon le procès de Reddit, Anthropic n’a pas une telle affaire et a refusé d’en accéder un. Cela signifie que si leur IA était formée sur un post que vous avez supprimé plus tard, ce contenu pourrait toujours être cuit dans la base de connaissances de Claude, ignorant efficacement votre choix de le retirer. Le procès comprend même une capture d’écran où Claude lui-même admet qu’il n’a pas de véritable façon de savoir si les données Reddit sur lesquelles elle ont été formées ont été supprimées plus tard par un utilisateur:

Alors, que veut Reddit? Il ne s’agit pas seulement de l’argent, bien qu’ils demandent des dommages-intérêts pour des choses telles que l’augmentation des coûts des serveurs et la perte de frais de licence. Ils demandent une injonction au tribunal pour forcer anthropic à arrêter immédiatement d’utiliser des données Reddit.

En outre, Reddit veut interdire à Anthropic de vendre ou de licencier tout produit construit à l’aide de ces données. Cela signifie qu’ils demandent à un juge de retirer efficacement Claude du marché.

Cette affaire force une question difficile: le fait d’être «accessible au public» sur Internet signifie-t-il gratuitement pour toute entreprise à prendre et à monétiser? Reddit fait valoir une entreprise «non» et le résultat pourrait modifier les règles sur la façon dont l’IA est développée à partir de maintenant.

(Photo de Brett Jordan)