L’IA générative : la fin du plagiat ?

Qu’est-ce que le plagiat ?

Le plagiat désigne toute forme de copie d’un contenu produit par un autre auteur afin de se l’attribuer illégitimement. Cela implique les citations sans guillemets, la paraphrase, la traduction, l’utilisation de données, d’illustrations ou de démonstrations sans source, etc., c’est-à-dire toute pratique qui vise à faire passer tout ou partie du travail d’un autre pour le sien. Que ce soit intentionnel ou non, le plagiat est considéré comme une faute grave par les Universités et est lourdement sanctionné. 

Comment fonctionnent les détecteurs anti-plagiat ?

La plupart des Universités utilisent aujourd’hui des détecteurs de plagiat afin de s’assurer de l’authenticité des travaux soumis par les étudiants. Ces détecteurs s’appuient sur des algorithmes de détection de similarités qui sont évaluées en suivant plusieurs méthodes mathématiques, telles que la distance de Levenshtein, la similarité Cosinus ou encore la similarité Jaccard (Winston, 2023). Le document soumis au détecteur est alors comparé à une vaste base de données regroupant les textes disponibles en ligne, des revues universitaires, les travaux des anciens élèves, etc. 

Pourquoi l’IA n’est-elle pas détectée comme plagiat ?

L'IA générative, pour proposer une réponse, utilise plus de sources que ne pourrait le faire un humain et reformule de telle façon que les algorithmes des détecteurs ne peuvent pas identifier le plagiat. Ainsi, un texte généré par IA n'est généralement pas détecté comme plagiat. Dès lors, peut-on considérer l’IA comme une solution pour éviter le plagiat ? Ou bien l’ère de l’IA va-t-elle aboutir à une redéfinition des limites du plagiat ?

L’IA générative : une nouvelle forme de plagiat ?

La production de contenus avec des similarités

Pour écrire du contenu, une IA générative s’alimente abondamment en données, sur la base desquelles elle développe un modèle de langage. Elle s’en sert ensuite pour proposer une combinaison de mots qui semblent respecter les instructions reçues, sans en saisir le sens profond (Abiteboul, 2023). Cela revient à emprunter les idées d’autres auteurs sans en citer la source, ce qui correspond bien à la définition du plagiat que nous avions vue plus tôt.

Par ailleurs, l’IA générative, en réutilisant des données afin de proposer un contenu en apparence unique, risque d’inclure des similitudes ou des répétitions involontaires de contenus déjà en ligne. Ainsi, un cégep (Québec) a constaté une corrélation entre la popularisation des outils d’intelligence artificielle et la hausse des cas de plagiat détectés dans les devoirs rendus par les collégiens. 

La mauvaise attribution de la propriété intellectuelle

Au-delà du problème posé par les similarités, les textes générés par IA empêchent souvent une réelle reconnaissance des auteurs. Il est en effet difficile d’identifier le titulaire des droits (OMPI, 2024), et donc de citer les sources dans les règles de l’art. Sans compter que l’IA est entrainée à partir de textes qui sont parfois protégés par la propriété intellectuelle…

Plusieurs litiges sont ainsi nés à travers le globe, afin de savoir si l’usage des réponses générées par IA constituait une atteinte à la propriété intellectuelle. En témoignent les poursuites judiciaires subies par OpenAI pour « violation du droit d’auteur » se basant sur les lois du copyright, notamment dans l’affaire New York Times c/ OpenAI et Microsoft Corporation. Or, la plupart des législations relatives à la propriété intellectuelle n’ont pas été élaborées en tenant compte de l’essor de l’IA (OMPI, 2024). Cela crée aujourd’hui une insécurité juridique, aussi bien pour les créateurs que pour les utilisateurs. 

Quelles conséquences pour l’utilisateur ?

Si les litiges touchent à l’heure actuelle principalement les sociétés à l’origine des outils d’intelligence artificielle, la responsabilité de l’utilisateur devient un sujet de préoccupation croissant.

Le ministère de l’Enseignement supérieur et de la Recherche (2023) s’est prononcé à ce sujet en affirmant que « les œuvres créées par des IA ne sont pas protégées en elles-mêmes, sauf si elles reproduisent des œuvres de l'esprit au sens du code de la propriété intellectuelle » (voir articles L. 335-2 et L. 335-3 du code de la propriété intellectuelle). Il rappelle ainsi qu’indiquer les sources d’un texte est une « obligation juridique, académique et éthique » qui, si elle n’est pas respectée, peut être considérée comme une fraude au titre des articles R. 811-1 et suivants du code de l'éducation. À noter par ailleurs qu’il n’y a pas de délai de prescription : la détection d’une fraude peut entrainer le retrait du diplôme même plusieurs années après son obtention.  

Où en est l'intelligence artificielle vs plagiat aujourd'hui ?

Peut-on parler de plagiat pour le contenu généré par IA ?

L’IA générative excelle dans l’art du plagiat : ses textes présentent un plagiat subtil, mais bel et bien existant. Le terme de « plagiat » fait cependant débat. Certains l’utilisent sans hésitation, soutenant que, même si la manière d’écrire de l'IA évite que ses textes soient détectés comme étant du plagiat par les détecteurs classiques, ils n'en restent pas moins un vol de la propriété intellectuelle, alias plagiat. D’autres affirment que le contenu généré par IA n’est pas suffisamment proche et ne peut pas être attribué à un auteur précis, ce qui empêche l’usage du terme « plagiat » (Coirault, 2023). Ainsi, le Réseau Européen pour l’Intégrité Académique privilégie par exemple l’expression « génération non autorisée de contenu ».

Quel avenir pour l’intégrité académique ?

Établir une limite entre ce qui relève du plagiat ou non semble de plus en plus laborieux (Coirault, 2023). Une enquête menée en 2023 par Nature a montré que 68% des 1600 chercheurs interrogés pensent que l’IA facilitera le plagiat tout en compliquant sa détection. Cela soulève des interrogations en termes d’intégrité académique. Le besoin de transparence dans son utilisation est encouragé par certains enseignants qui ont recours à de nouvelles approches pédagogiques visant à ne pas interdire, mais à utiliser l’IA de manière éthique et responsable. 

Comment bénéficier des avantages de l’IA tout en évitant le plagiat ?

Le ministère de l’Enseignement supérieur et de la recherche, confronté à cette question, a mis en avant le principe de liberté académique et a affirmé que l’utilisation de l’IA n’est pas officiellement interdite et devra faire l’objet de décisions internes à chaque établissement, qui pourra privilégier son bannissement (accompagné de sanctions) ou son usage raisonné. Pour prévenir le plagiat, il serait judicieux d’utiliser les IA au même titre qu’un moteur de recherches, afin de trouver et consulter des sources, qui doivent ensuite être citées ! 

 

Sources

Abiteboul S. (2023). Intelligence artificielle : « L’IA générative n’hésite pas à plagier massivement ». LeMonde. https://www.lemonde.fr/article-offert/3cd1a8cc9890-6189546/intelligence-artificielle-l-ia-generative-n-hesite-pas-a-plagier-massivement?onboarding_success

Coirault C. (2024). Plagiat et Intelligence Artificielle : comment les chercheurs doivent-ils réagir ?. Pressecitron. https://www.presse-citron.net/plagiat-et-intelligence-artificielle-comment-les-chercheurs-doivent-ils-reagir/

Ministère de l'enseignement supérieur et de la recherche. (2023). Intelligence artificielle et plagiat - Question écrite n°06445 - 16e législature. Sénat. https://www.senat.fr/questions/base/2023/qSEQ230406445.html

OMPI. (2024). L’IA générative - Saisir les enjeux en matière de propriété intellectuelle. 

Winston AI. (2023). Comprendre le fonctionnement des vérificateurs de plagiat. https://gowinston.ai/fr/comprendre-le-fonctionnement-des-verificateurs-de-plagiat/