Fin du game : l'IA VALL-E imite votre voix en seulement 3 secondes

Candace Owens vs Macron : Un enregistrement qui pourrait changer la face du monde

Alors que la guerre en Ukraine fait rage, Candace Owens détient un enregistrement où Trump supplie de taire une enquête sur Brigitte Macron, sous peine de voir la paix compromise. Des centaines de milliers de vies sont en jeu...

Le couple Hollande-Gayet bientôt entendu par la police anticorruption ?

Un méga-contrat d’armement, un film financé par des fonds indiens et des soupçons de corruption : l’enquête sur la vente de 36 avions Rafale à l’Inde en 2016 s’intensifie, plaçant l’ancien président François Hollande et sa compagne, Julie Gayet, sous une pression croissante.

Après les « deep fake » en image ou en vidéo, va-t-on voir débarquer des « deep fake » sonores ? C’est possible puisque Microsoft a dévoilé un nouveau modèle d’intelligence artificielle (IA) de synthèse vocale appelé VALL-E. Sa particularité ? Elle peut imiter et donc simuler la voix d’une personne avec un simple échantillon audio de trois secondes. Une fois qu’elle a appris une voix spécifique, cette IA peut synthétiser le son de cette personne, tout en préservant son timbre et les émotions.

Chez Microsoft, on pense que VALL-E pourrait être utilisé pour des applications de synthèse vocale, mais aussi, et c’est évidemment plus inquiétant, pour l’édition de la parole dans un enregistrement. Il serait possible d’éditer et modifier le son à partir d’une transcription textuelle d’un discours. Imaginez une allocution d’un homme ou d’une femme politique modifiée par cette intelligence artificielle…

UN TEXTE EXEMPLE, UN ENREGISTREMENT DE TROIS SECONDES, ET L’INTELLIGENCE ARTIFICIELLE FAIT LE RESTE. © MICROSOFT

Le « machine learning » en action

Pour la firme, VALL-E est ce qu’on appelle un « modèle de langage de codec neuronal », et il s’appuie sur une technologie de compression audio appelée EnCodec, dévoilée par Meta (Facebook) en octobre dernier. Contrairement à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole en manipulant des formes d’onde, VALL-E génère des codes de codec audio à partir d’échantillons textuels et acoustiques. Il analyse essentiellement le son d’une personne, décompose ces informations en tokens (jetons) grâce à EnCodec, et il utilise le « machine learning » pour faire correspondre l’échantillon de trois secondes avec ce qu’il a appris.

Pour cela, Microsoft s’est appuyé sur la bibliothèque sonore LibriLight. Elle contient 60 000 heures de discours en anglais de plus de 7 000 locuteurs, principalement tirés des livres audio du domaine public LibriVox. Pour que VALL-E génère un résultat pertinent, la voix dans l’échantillon de trois secondes doit correspondre étroitement à une voix dans les données d’apprentissage.

Microsoft a conscience du danger

Pour vous convaincre, Microsoft fournit des dizaines d’exemples audio du modèle d’IA en action. Certains sont effrayants de similitude, mais d’autres sont clairement synthétiques et l’oreille humaine parvient à distinguer que c’est une intelligence artificielle. Ce qui impressionne, c’est qu’en plus de préserver le timbre et l’émotion de la personne qui parle, VALL-E est capable de reproduire l’environnement et les conditions de l’enregistrement. Microsoft prend l’exemple d’un appel téléphonique avec les propriétés acoustiques et fréquentielles propres à ce type de conversation.

Interrogé sur les dangers d’une telle intelligence artificielle, Microsoft confirme que le code source n’est pas disponible, et la firme a conscience que « cela peut entraîner des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identification vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles ».

Source : futura-sciences.com

Société

Fake news et fiasco : La France humiliée par Moscou !

Entre punaises de lit et complots, nos élites jouent les clowns dans une tour de Babel, laissant Poutine triompher sans effort ! Tour d'horizon vertigineux.

[SIGNED] 99% YOUTH 2 juil. 2025

changement climatique / Société

À l’époque romaine, il faisait plus chaud qu’aujourd’hui : archéologues contre modèles climatiques du GIEC, qui a raison ?

Le débat sur le changement climatique est souvent présenté comme une question scientifique moderne, dominée par des modèles informatiques complexes et des projections à long terme.

Rrose Sélavy 2 juil. 2025

prédictif

L’effondrement de l’agence Havas Paris : quand la proximité avec la Macronie devient un fardeau

Havas Paris, autrefois un pilier incontournable du paysage de la communication en France, traverse aujourd’hui une crise majeure qui menace son existence même.

APAR.TV 29 juin 2025

Société

Le scandale des paniers garnis : une rémunération insolite pour les soignants de nevers

À l’heure où le système de santé français, salué comme le meilleur au monde par l’Organisation mondiale de la santé en 2008, fait face à des défis croissants – vieillissement de la population, hausse des coûts et contraintes budgétaires –, une initiative a émergé à l’hôpital de Nevers.

Rrose Sélavy 28 juin 2025

Fin du game : l’IA VALL-E imite votre voix en seulement 3 secondes

Le « machine learning » en action

Microsoft a conscience du danger

Lire la suite