Ce site web propose une visualisation de la totalité du set de données « Temps de parole des hommes et des femmes à la télévision et à la radio » mis en ligne par David Douhkan chercheur à l’INA.
Ce set de données a pu être constitué grâce au logiciel libre « inaSpeechSegmenter ». Une collaboration entre le service de recherche de l’INA, dont David Douhkan fait partie, et le laboratoire d’informatique de l’université du Mans a permis la conception de ce logiciel. Ce logiciel permet d’analyser rapidement une grande quantité de sons, et ensuite de définir à quel genre( H ou F) appartiennent les différents locuteurs. Enfin, il permet de calculer le temps de parole réparti entre ces différents genres.
700000h de programmes de télévision et de radio ont été analysées pour constituer ce set de données. Cette analyse a été effectuée à partir de documents audios ou audiovisuels issus de 21 stations de radio et de 34 chaînes de télévision, aussi bien publiques que privées, sur la période de 1995 à 2019.
Les données collectées ont permis de conclure que, à la radio comme à la télévision, les femmes parlent en moyenne 2 fois moins que les hommes. Dans l’article suivant, David Doukhan présente les données essentielles à retenir : https://larevuedesmedias.ina.fr/la-radio-et-la-tele-les-femmes-parlent-deux-fois-moins-que-les-hommes
L’égalité entre les genres, notamment entre les hommes et les femmes, est un enjeu social
de première importance. Dans une société qui se dit égalitaire, nous sommes convaincus
qu’il est contradictoire qu’un genre domine la production et la présentation d’informations.
Il apporte alors, intrinsèquement, ses propres visions et ses propres biais.
La réception et l’interprétation de l’information aujourd’hui serait bien différente si les médias la communiquait manière paritaire.
Il est important de préciser que ce set a été constitué selon une vision binaire du genre.
Pour cette raison, notre projet n’est pas en mesure de restituer l’ensemble des genres,
et l'intersectionnalité des discriminations présents dans les médias. Cependant,
mettre en lumière cet aspect de domination est un premier pas pour comprendre les mécanismes
discriminatoires pesant sur nos sociétés.
A l’heure actuelle, de nombreux jeux de données existent à propos de la représentation des femmes
et des hommes dans les médias. Pourtant, très peu d’entre eux disposent de la même transparence
que celui avec lequel nous travaillons.
En effet, le logiciel inaSpeechSegmenter qui a permis de créer ce set de données est en open source
(https://github.com/ina-foss/inaSpeechSegmenter). Par ailleurs, nous avons eu la chance de pouvoir
échanger avec le chercheur David Doukhan, concepteur du jeu de données. Celui-ci a pu nous expliquer
en détail les tenants et les aboutissants ainsi que les biais de son projet.
Le biais majeur de ce set de données provient de ses données d'entraînement.
Une intelligence artificielle a besoin d’être entraînée à partir de données annotées,
le plus souvent manuellement. Dans le cas de InaSpeechSegmenter, l’entraînement s’est
fait à partir de la base de donnée des locuteurs référencés dans les archives de l’INA.
Cette base de donnée d’entraînement a été constituée avec 32 000 extraits sonores diffusés de 1957 à 2012.
Cela correspond à 1 780 locuteurs et 494 locutrices distincts, s’exprimant en français.
Par conséquent, cette intelligence artificielle est extrêmement performante pour analyser
des débats ou des présentations d’actualités, programmes médiatiques pour lesquels l’lA n’a
qu’un taux d’erreur de 0.6%. Cependant, l’IA reste très approximative lorsque le média analysé
n’appartient pas à ce domaine, comme par exemple des dessins animés pour enfant. Pour cette raison,
InaSpeechSegmenter n’a travaillé que sur enregistrements commençant à 10h. Afin d’éviter de calculer
des résultat à partir de dessins animés. Il est important de noter que les voix chantées ont été catégorisées
en tant que musique et donc sont exclues des données d’entraînements. Les publicités, au contraire, y ont été intégrée.
De manière générale, l’intelligence artificielle ne peut jamais obtenir de résultats parfaits.
De ce fait, Les données produites comportent toujours un nombre variable d’erreurs. Il est donc
maladroit de les désigner comme une représentation parfaite de la réalité. Il est tout de même
possible d’en extraire des tendances, que l’on peut ensuite analyser.
L’Arcom (Autorité de régulation de la communication audiovisuelle et numérique) a également mis
en ligne des données sur ce sujet. Leur résultat est plus précis car il permet d’obtenir des
résultats suivant des tranches horaires spécifiques en excluant les publicités. Cependant,
ce jeu de données a été obtenu par l’intermédiaire d’une autre IA. Leurs résultats ne sont donc
pas comparable avec ceux disponible sur notre site web. En effet, leur jeu de données ne comporte
pas les même types et nombre d’erreurs. De plus, l’infrastructure que Basile Jesset à mise en place
ne permet pas de supporter ni même de visualiser ces données.
Les deux polices de caractères variables, « FEMME » et « HOMME », ont été dessinées pour illustrer
et visualiser le set de données « Temps de parole des hommes et des femmes à la télévision et à la radio »
créé par David Douhkan à l’aide du logiciel libre « inaSpeechSegmenter » développé à l’INA.
Le dessin de ces caractères est entièrement subjectif et orienté pour accentuer l’interprétation d’une
réalité décrite par ce jeu de données. Les hommes parlent en moyenne deux fois plus que les femmes sur
les 20 dernières années à la télévision et à la radio. C'est pourquoi la fonte variable « HOMME » est placée
au dessus de « FEMME » en l’écrasant. Nous avons également choisi de nous émanciper des représentations usuelles
de la féminité (formes rondes et douces) et de la masculinité (formes dures, droites).
Nous avons créé un dessin de lettre très expressif qui se rapproche plus d’un travail d’illustration qu’à celui
d’une visualisation froide dite « objective » de données (par exemple : diagrammes, graphiques, ou encore camembert).
Une visualisation que l’on pourrait qualifier de « déshumanisées ».
La progression du dessin de chaque glyphe n’est pas linéaire. les lettres se métamorphosent en fonction
du temps de parole qu’elles représentent. Cependant, nous avons choisi de donner un aspect imposant et
écrasant "HOMME" meme lorsque le temps de parole est inférieur ou égale à celui des femmes. En effet,
inaSpeechSegmenter ne mesure pas les heures à laquelle les femmes parlent ni même l'importance des sujets abordés,
des paramètres dans lesquels la présence des hommes prédomine également...
La fonte variable « FEMME » a été dessiné pour avec plus d’économie pour croître.
Les caractéristiques clef des différents caractères sont concentrées dans la partie supérieur du glyphe.
Ces caractères et leur positionnement l’un avec l’autre ont été pensé expressément pour ce set de données.
Ils perdraient de leur pertinence et de leur force si ils venaient à être utilisés dans un autre contexte.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras sapien ante, sagittis et nunc sed, commodo luctus libero. Vivamus venenatis et justo placerat venenatis. Pellentesque feugiat sem nibh, sit amet venenatis enim finibus a. Sed lacus sapien, congue sed lobortis eu, pretium ut lectus. Vivamus volutpat dolor quis felis pulvinar vestibulum. Praesent vitae enim feugiat dolor consectetur condimentum id et tortor. Etiam nec odio nec nibh aliquet feugiat. Quisque at sodales purus, non feugiat urna. Sed ut felis non felis bibendum fringilla. Integer quis ante suscipit, eleifend massa vitae, eleifend tellus.
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras sapien ante, sagittis et nunc sed, commodo luctus libero. Vivamus venenatis et justo placerat venenatis. Pellentesque feugiat sem nibh, sit amet venenatis enim finibus a. Sed lacus sapien, congue sed lobortis eu, pretium ut lectus. Vivamus volutpat dolor quis felis pulvinar vestibulum. Praesent vitae enim feugiat dolor consectetur condimentum id et tortor. Etiam nec odio nec nibh aliquet feugiat. Quisque at sodales purus, non feugiat urna. Sed ut felis non felis bibendum fringilla. Integer quis ante suscipit, eleifend massa vitae, eleifend tellus.