Comment savoir si un contenu a été utilisé par une intelligence artificielle ?

Les modèles de langues comme celui utilisé par ChatGPT sont accusés d’avoir été entraînés sur des textes protégés par le droit d’auteur.

Alors que dix-sept écrivains américains représentés par la Guilde des auteurs, dont Jonathan Franzen et John Grisham, ont porté plainte, en septembre, contre OpenAI et son agent conversationnel, ChatGPT, pour infraction aux droits d’auteur, une équipe anglaise de l’Imperial College de Londres a trouvé un moyen de détecter si un texte littéraire ou scientifique a été vu par un modèle de langue lors de sa mise au point.

Pour rappel, un modèle de langue est un logiciel permettant à un chatbot de répondre ou d’interagir avec un humain en langage naturel : le robot conversationnel fait des phrases grammaticalement correctes, adapte son style, crée des énoncés originaux… Ces capacités sont obtenues par une méthode d’apprentissage assez « brutale » qui consiste à lui faire deviner le mot suivant dans une phrase prise dans un énorme corpus de textes, atteignant des milliers de milliards de « tokens » (ou sous-unités sémantiques, comme les syllabes, les préfixes, les suffixes…). Ces textes proviennent de pages Web, de forums, d’articles scientifiques, de livres et d’articles de journaux, très probablement protégés par le droit d’auteur.

Rares sont les acteurs qui détaillent ce corpus, y compris ceux dont les modèles de langue sont dits en open source. OpenAI ne communique pas ces informations, Meta l’a fait pour Llama, mais pas pour Llama 2. Google, pour Bard, n’a pas été plus loquace…

Peut-on, malgré le manque de transparence, lire dans le « cerveau » de ces algorithmes constitué de milliards de paramètres ? Peut-on savoir ce qu’ils ont lu ou non ? L’équipe anglaise répond par l’affirmative. « Nous étions motivés par l’idée de rendre moins opaque cet aspect des modèles de langue, car ce qu’ils savent vient justement de ces données », explique Yves-Alexandre de Montjoye, professeur associé à l’Imperial College.

Un corpus d’apprentissage opaque

Les chercheurs se sont livrés à une attaque dite « par inférence d’appartenance », sur un modèle de langue de grande taille, Llama, de la société Meta, ou plus précisément d’une version identique, OpenLlama, dont le corpus d’apprentissage a été rendu public – ce qui a permis de valider les prédictions des chercheurs, exposées dans un preprint (un article non encore accepté par une revue scientifique) soumis le 23 octobre à une conférence.

Les chercheurs ont d’abord sélectionné leur propre corpus de livres (au nombre de 38 300) et d’articles scientifiques (1,6 million), puisés dans la base Redpajama de l’entreprise Hugging Face. Chacune de ces familles a été divisée en deux, en « membre possible du corpus d’entraînement » ou « non membre » (car pris à une date ultérieure aux entraînements d’OpenLlama). Pour chaque token de ces textes, ils ont testé le modèle de langue en étudiant quel mot il suggère après une phrase d’environ 128 tokens et quelle probabilité il assigne au vrai mot. Ces écarts entre le modèle et la réalité sur des milliers de phrases permettent de construire une sorte de signature de chaque livre ou article. « En fait, nous cherchons à voir si le modèle est “surpris” par un texte », résume Yves-Alexandre de Montjoye. Dans une seconde étape, ils ont construit un programme capable de classer un texte comme « membre du corpus d’entraînement » ou « non membre », en entraînant ce programme avec leurs résultats obtenus sur les deux types de texte. Ces calculs prennent environ une minute par livre de 100 000 tokens environ.

Il vous reste 30% de cet article à lire. La suite est réservée aux abonnés.

source