Un nouvel ensemble de lois de l’Union européenne régissant l’utilisation de l’intelligence artificielle (IA) obligera les entreprises à être plus transparentes sur les données utilisées pour former leurs systèmes. Ces lois révèlent l’un des secrets les mieux gardés de l’industrie de l’IA.
Depuis que Microsoft a soutenu le lancement public de ChatGPT par OpenAI il y a 18 mois, l’intérêt et les investissements dans l’IA générative ont explosé. Cette technologie permet en effet de produire rapidement du texte, des images et du contenu audio, mais elle soulève des questions sur la provenance des données utilisées pour former ces modèles.
Or, utiliser des livres à succès et des films hollywoodiens sans autorisation pourrait constituer une violation des droits d’auteur.
La transparence des données, un défi pour les entreprises
La nouvelle loi sur l’IA de l’UE sera mise en œuvre progressivement au cours des deux prochaines années, ce qui permettra aux régulateurs et aux entreprises de s’adapter à ces nouvelles obligations. Cependant, l’application pratique de certaines règles reste incertaine.
L’une des dispositions les plus controversées stipule que les entreprises utilisant des modèles d’IA à usage général, comme ChatGPT, devront fournir des « résumés détaillés » des contenus utilisés pour leur formation. Un bureau de l’IA nouvellement créé prévoit de publier un modèle de ces résumés début 2025 après consultation des parties prenantes.
Les entreprises d’IA sont généralement réticentes à dévoiler leurs données de formation, les considérant comme des secrets commerciaux. Matthieu Riouf, PDG de Photoroom, compare cette situation à la cuisine, où les chefs gardent secrètes certaines parties de leurs recettes. La transparence exigée par ces nouvelles règles aura des implications majeures pour les startups et les grandes entreprises technologiques comme Google et Meta.
Le partage de secrets commerciaux en question
Au cours de l’année écoulée, des entreprises comme Google, OpenAI et Stability AI ont été confrontées à des poursuites de la part de créateurs affirmant que leur contenu avait été utilisé sans autorisation pour former des modèles d’IA. Aux États-Unis, le président Joe Biden a signé plusieurs décrets sur les risques liés à l’IA, mais les questions de droit d’auteur restent largement inexplorées.
Des appels pour que les entreprises technologiques paient les détenteurs de droits pour leurs données ont reçu un soutien bipartisan au Congrès.
En réponse à la pression croissante, certaines entreprises ont signé des accords de licence avec des médias et des sites web. Par exemple, OpenAI a conclu des accords avec le Financial Times et The Atlantic, tandis que Google a fait de même avec NewsCorp et Reddit.
Malgré ces mesures, des incidents comme le refus d’OpenAI de clarifier l’utilisation de vidéos YouTube pour son outil de génération de vidéos Sora continuent de susciter des critiques.
Le mois dernier, OpenAI a encore fait polémique en présentant une voix générée par IA ressemblant étrangement à celle de Scarlett Johansson. Thomas Wolf, cofondateur de Hugging Face, soutient une plus grande transparence mais reconnaît que l’industrie est divisée sur cette question.
Forcément un débat législatif s’impose
Les législateurs européens restent partagés. Dragos Tudorache, l’un des rédacteurs de la loi sur l’IA au Parlement européen, insiste pour que les ensembles de données soient rendus publics afin que les créateurs sachent si leur travail a été utilisé. Un responsable de la Commission européenne souligne que la loi vise à équilibrer la protection des secrets commerciaux avec la capacité des détenteurs de droits à exercer leurs droits légitimes.
En France, le gouvernement, sous la présidence d’Emmanuel Macron, s’est opposé à des règles qui pourraient nuire à la compétitivité des startups d’IA.
Lors de la conférence Viva Technology à Paris, le ministre des Finances Bruno Le Maire a affirmé de son côté que l’Europe doit innover avant de réglementer pour ne pas risquer de freiner les technologies qu’elle ne maîtrise pas encore.