Tableau représentant le temps de parole des hommes et des femmes en %
Voir l'évolution dans le temps

A propos des données

Ce site web propose une visualisation de la totalité du set de données « Temps de parole des hommes et des femmes à la télévision et à la radio » mis en ligne par David Douhkan chercheur à l’INA.

Ce set de données a pu être constitué grâce au logiciel libre « inaSpeechSegmenter ». Une collaboration entre le service de recherche de l’INA, dont David Douhkan fait partie, et le laboratoire d’informatique de l’université du Mans a permis la conception de ce logiciel. Ce logiciel permet d’analyser rapidement une grande quantité de sons, et ensuite de définir à quel genre( H ou F) appartiennent les différents locuteurs. Enfin, il permet de calculer le temps de parole réparti entre ces différents genres.

700000h de programmes de télévision et de radio ont été analysées pour constituer ce set de données. Cette analyse a été effectuée à partir de documents audios ou audiovisuels issus de 21 stations de radio et de 34 chaînes de télévision, aussi bien publiques que privées, sur la période de 1995 à 2019.

Les données collectées ont permis de conclure que, à la radio comme à la télévision, les femmes parlent en moyenne 2 fois moins que les hommes. Dans l’article suivant, David Doukhan présente les données essentielles à retenir : https://larevuedesmedias.ina.fr/la-radio-et-la-tele-les-femmes-parlent-deux-fois-moins-que-les-hommes

MEDIA
MEDIA
Moyenne du temps de parole des femmes
à la télévision et à la radio de 1995 à 2019 : 29,24%
VISION
VISION
Moyenne du temps de parole des femmes
à la télévision et à la radio en 2019 : 31,16%

Pourquoi présenter ces données ?

L’égalité entre les genres, notamment entre les hommes et les femmes, est un enjeu social de première importance. Dans une société qui se dit égalitaire, nous sommes convaincus qu’il est contradictoire qu’un genre domine la production et la présentation d’informations. Il apporte alors, intrinsèquement, ses propres visions et ses propres biais.

La réception et l’interprétation de l’information aujourd’hui serait bien différente si les médias la communiquait manière paritaire.

Il est important de préciser que ce set a été constitué selon une vision binaire du genre. Pour cette raison, notre projet n’est pas en mesure de restituer l’ensemble des genres, et l'intersectionnalité des discriminations présents dans les médias. Cependant, mettre en lumière cet aspect de domination est un premier pas pour comprendre les mécanismes discriminatoires pesant sur nos sociétés.

Pourquoi présenter spécifiquement ce set de données ?

A l’heure actuelle, de nombreux jeux de données existent à propos de la représentation des femmes et des hommes dans les médias. Pourtant, très peu d’entre eux disposent de la même transparence que celui avec lequel nous travaillons.

En effet, le logiciel inaSpeechSegmenter qui a permis de créer ce set de données est en open source (https://github.com/ina-foss/inaSpeechSegmenter). Par ailleurs, nous avons eu la chance de pouvoir échanger avec le chercheur David Doukhan, concepteur du jeu de données. Celui-ci a pu nous expliquer en détail les tenants et les aboutissants ainsi que les biais de son projet.

Le biais majeur de ce set de données provient de ses données d'entraînement. Une intelligence artificielle a besoin d’être entraînée à partir de données annotées, le plus souvent manuellement. Dans le cas de InaSpeechSegmenter, l’entraînement s’est fait à partir de la base de donnée des locuteurs référencés dans les archives de l’INA. Cette base de donnée d’entraînement a été constituée avec 32 000 extraits sonores diffusés de 1957 à 2012. Cela correspond à 1 780 locuteurs et 494 locutrices distincts, s’exprimant en français.

Par conséquent, cette intelligence artificielle est extrêmement performante pour analyser des débats ou des présentations d’actualités, programmes médiatiques pour lesquels l’lA n’a qu’un taux d’erreur de 0.6%. Cependant, l’IA reste très approximative lorsque le média analysé n’appartient pas à ce domaine, comme par exemple des dessins animés pour enfant. Pour cette raison, InaSpeechSegmenter n’a travaillé que sur enregistrements commençant à 10h. Afin d’éviter de calculer des résultat à partir de dessins animés. Il est important de noter que les voix chantées ont été catégorisées en tant que musique et donc sont exclues des données d’entraînements. Les publicités, au contraire, y ont été intégrée.

De manière générale, l’intelligence artificielle ne peut jamais obtenir de résultats parfaits. De ce fait, Les données produites comportent toujours un nombre variable d’erreurs. Il est donc maladroit de les désigner comme une représentation parfaite de la réalité. Il est tout de même possible d’en extraire des tendances, que l’on peut ensuite analyser.

L’Arcom (Autorité de régulation de la communication audiovisuelle et numérique) a également mis en ligne des données sur ce sujet. Leur résultat est plus précis car il permet d’obtenir des résultats suivant des tranches horaires spécifiques en excluant les publicités. Cependant, ce jeu de données a été obtenu par l’intermédiaire d’une autre IA. Leurs résultats ne sont donc pas comparable avec ceux disponible sur notre site web. En effet, leur jeu de données ne comporte pas les même types et nombre d’erreurs. De plus, l’infrastructure que Basile Jesset à mise en place ne permet pas de supporter ni même de visualiser ces données.

MIN
MIN
Minimum atteint du temps de parole des femmes
à la télévision et à la radio de 1995 à 2019 : 4,81%
MAX
MAX
Maximum atteint du temps de parole des femmes
à la télévision et à la radio de 1995 à 2019 : 54,12%
SPORT
SPORT
Moyenne du temps de parole des femmes
sur les chaines sportives à la télévision
et à la radio de 1995 à 2019 : 8,88%

Un outil typographique sur mesure

Les deux polices de caractères variables, « FEMME » et « HOMME », ont été dessinées pour illustrer et visualiser le set de données « Temps de parole des hommes et des femmes à la télévision et à la radio » créé par David Douhkan à l’aide du logiciel libre « inaSpeechSegmenter » développé à l’INA.

Le dessin de ces caractères est entièrement subjectif et orienté pour accentuer l’interprétation d’une réalité décrite par ce jeu de données. Les hommes parlent en moyenne deux fois plus que les femmes sur les 20 dernières années à la télévision et à la radio. C'est pourquoi la fonte variable « HOMME » est placée au dessus de « FEMME » en l’écrasant. Nous avons également choisi de nous émanciper des représentations usuelles de la féminité (formes rondes et douces) et de la masculinité (formes dures, droites).

Nous avons créé un dessin de lettre très expressif qui se rapproche plus d’un travail d’illustration qu’à celui d’une visualisation froide dite « objective » de données (par exemple : diagrammes, graphiques, ou encore camembert). Une visualisation que l’on pourrait qualifier de « déshumanisées ».

HOMME
FEMME
%
%

La progression du dessin de chaque glyphe n’est pas linéaire. les lettres se métamorphosent en fonction du temps de parole qu’elles représentent. Cependant, nous avons choisi de donner un aspect imposant et écrasant "HOMME" meme lorsque le temps de parole est inférieur ou égale à celui des femmes. En effet, inaSpeechSegmenter ne mesure pas les heures à laquelle les femmes parlent ni même l'importance des sujets abordés, des paramètres dans lesquels la présence des hommes prédomine également...

La fonte variable « FEMME » a été dessiné pour avec plus d’économie pour croître. Les caractéristiques clef des différents caractères sont concentrées dans la partie supérieur du glyphe.

Ces caractères et leur positionnement l’un avec l’autre ont été pensé expressément pour ce set de données. Ils perdraient de leur pertinence et de leur force si ils venaient à être utilisés dans un autre contexte.

ABCDEFGHIJKLM
ABCDEFGHIJKLM
ONPQRSTUVWXYZ
ONPQRSTUVWXYZ
1234567890%
1234567890%
Taux de représentation des femmes et des hommes en pourcentage
Femme : 50% - Homme : 50%

Une utilisation externe

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras sapien ante, sagittis et nunc sed, commodo luctus libero. Vivamus venenatis et justo placerat venenatis. Pellentesque feugiat sem nibh, sit amet venenatis enim finibus a. Sed lacus sapien, congue sed lobortis eu, pretium ut lectus. Vivamus volutpat dolor quis felis pulvinar vestibulum. Praesent vitae enim feugiat dolor consectetur condimentum id et tortor. Etiam nec odio nec nibh aliquet feugiat. Quisque at sodales purus, non feugiat urna. Sed ut felis non felis bibendum fringilla. Integer quis ante suscipit, eleifend massa vitae, eleifend tellus.

Texte du haut
HOMME
FEMME
Texte du bas

Texte haut

Taux de représentation des femmes en pourcentage

0%
100%

Texte bas

Format d'impression (en mm)

Largeur :
Hauteur :
Imprimer

Si vous souhaitez le fichier font, n'hésitez pas à nous en parler

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Cras sapien ante, sagittis et nunc sed, commodo luctus libero. Vivamus venenatis et justo placerat venenatis. Pellentesque feugiat sem nibh, sit amet venenatis enim finibus a. Sed lacus sapien, congue sed lobortis eu, pretium ut lectus. Vivamus volutpat dolor quis felis pulvinar vestibulum. Praesent vitae enim feugiat dolor consectetur condimentum id et tortor. Etiam nec odio nec nibh aliquet feugiat. Quisque at sodales purus, non feugiat urna. Sed ut felis non felis bibendum fringilla. Integer quis ante suscipit, eleifend massa vitae, eleifend tellus.