Introduction
La version anglaise du logiciel Lexicoder Sentiment Dictionary (LSD) a été conçue par Young et Soroka (Reference Soroka2012) et est disponible sur le site du lexicoder (lexicoder.com). Le LSD est un dictionnaire permettant de classifier de manière automatisée plusieurs milliers d'expressions dans des catégories préalablement établies de ton positif ou négatif.Footnote 1 Le LSD a montré sa grande utilité dans l'analyse du ton médiatique en politique. Mais jusqu'ici les analyses qui utilisent le LSD se limitent aux textes en anglais. Après avoir démontré l'importance de traduire le LSD, nous présentons et testons le LSDFr, la version française du LSD, ses avantages et ses limites.
L'analyse du ton, ou plus exactement l’évaluation de la négativité, d'un ensemble de textes a pris une place importante dans les recherches en communication politique, qu'il s'agisse de l’étude des publicités électorales des partis politiques (Ansolabehre et Iyengar, Reference Ansolabehre. and Iyengar1995 ; Ansolabehre, Iyengar et Simon, Reference Ansolabehre, Iyengar and Simon1999 ; Ansolabehre, Iyengar, Simon et Valentino, Reference Ansolabehre, Iyengar, Simon and Valentino1994 ; Gélineau et Blais, Reference Gélineau, Blais, Nai and Walter2015 ; Lau, Reference Lau1982), de la couverture médiatique des campagnes électorales (Eshbaugh-Soha, Reference Eshbaugh-Soha2010 ; Farnsworth et Lichter, Reference Farnsworth and Lichter2010 ; Gentzkow et Shapiro, Reference Gentzkow and Shapiro2010 ; Soroka et al., Reference Soroka, Bodet, Young and Andrew2009) ou de celle de l'actualité économique (Lowry, Reference Lowry2008 ; Nadeau et al., Reference Nadeau, Niemi, Fan and Amato1999 ; Soroka, Reference Soroka2006). Nous savons que le contenu des nouvelles politiques tend généralement à être plus négatif que positif. Nous savons également que les nouvelles négatives affectent davantage les lecteurs que les nouvelles positives ou neutres d'une part, et que d'autre part, les nouvelles négatives génèrent des réponses psychophysiologiques plus fortes que les nouvelles positives ou neutres (Ottati, Steenbergen et Riggle, Reference Ottati, Steenbergen and Riggle1992 ; Soroka, Reference Soroka2014 ; Soroka et McAdams, Reference Soroka and McAdams2015).
Malgré l'importance grandissante des recherches portant sur les biais de négativité des textes politiques en anglais, très peu de chercheurs se sont intéressés à l'analyse de textes politiques en français. Pourtant, la grande quantité de corpus médiatiques francophones–touchant divers contextes et aspects–représente une riche opportunité de recherche. De nombreux dictionnaires en langue anglaise sont disponibles depuis longtemps pour faciliter l'analyse du ton de la couverture médiatique du champ politique. À titre d'exemple, on peut mentionner le General Inquiry (GI : Stone et al., Reference Stone, Dumphy, Smith and Ogilvie1966), le DICTION 5.0 (Hart, Reference Hart2000), le Linguistic Inquiry and Word Count (LIWC : Pennebaker et al., Reference Pennebaker, Francis and Booth2001), le Regressive Imagery Dictionary (RID : Martindale, Reference Martindale1975, Reference Martindale1990), le WordNet-Affect (Strapparava et Valitutti, Reference Strapparava and Valitutti2004), le Dictionary of Affect in Language (DAL : Whissell, Reference Whissell, Plutchik and Kellerman1989), et le Affective Norms for English Words Language (ANEW : Bradley et Lang, Reference Bradley and Lang1999).
Il existe également plusieurs outils logiciels de fouilles des données textuelles en langue française. Mentionnons, entre autres, les logiciels Alceste (Reinert, Reference Reinert1987), Calliope (Van Meter et al., Reference Van Meter, Cibois and de Saint Léger2004), Prospero (Chateauraynaud et al., Reference Chateauraynaud, Reber and Van Meter2003) et Trideux (Cibois, Reference Cibois1995). Ces logiciels ne sont toutefois pas des dictionnaires d'analyse du ton. À notre connaissance, le seul dictionnaire mesurant le ton (l'affect) est la traduction en français du LIWC (Piolat et al., Reference Piolat, Booth, Chung, Davids and Pennebaker2011). La vocation du LIWC est plus large que la simple analyse du ton, puisqu'il a pour objectif d'identifier toutes les catégories de mots ayant un sens psychologique. Deux de ces catégories se concentrent cependant sur l'identification de mots se rattachant à l'affect, soit l’« émotion négative » et l’« émotion positive ». La construction et la traduction du LIWC en français reposent entièrement sur le codage manuel par des experts. La validation de la version francophone du LIWC s'est effectuée en analysant le ton positif ou négatif de textes rédigés par des étudiants au sujet de leurs réussites ou de leurs échecs scolaires.
Même si elle réussit bien à comparer les expressions écrites relatant un évènement personnel positif ou négatif, la version française du LIWC souffre de deux handicaps qui compromettent son utilisation pour mesurer adéquatement les nuances et les variations de ton dans le discours politique. Le dictionnaire LIWC en français se compose de 915 mots seulement (406 émotions positives ; 499 émotions négatives) comparativement au 1512 du LIWC en anglais et aux 4151 mots de notre dictionnaire. De plus, ces 915 mots n'ont pas toujours rapport à la politique. La comparaison que nous effectuons plus loin montre d'ailleurs clairement que notre dictionnaire différencie beaucoup mieux le ton négatif du ton positif en politique que ne le fait le dictionnaire LIWC en français. L'absence d'un outil adapté à l'analyse d'articles politiques en français dans la besace des politologues représente une lacune à combler. C'est pourquoi nous avons développé un dictionnaire d'analyse du ton médiatique en langue française.
Pour éviter de réinventer la roue, nous avons choisi de traduire le dictionnaire de Soroka et Young, le Lexicoder Sentiment Dictionary (Reference Young and Soroka2012). Plutôt que de construire notre propre dictionnaire, nous avons opté pour la traduction d'un dictionnaire anglais déjà existant afin de permettre aux chercheurs de conduire des analyses vraiment comparatives du ton des médias en français et en anglais dans un large ensemble de pays ayant des systèmes politiques et partisans et des médias très divers, notamment les pays africains. Nous avons adopté le dictionnaire LSD parce qu'il est lui-même basé sur le GI, le RID et le Roget's Thesaurus, et qu'il performe mieux que les autres dictionnaires de langue anglaise énumérés ci-dessus (Young et Soroka, Reference Soroka2012). Nous avons adopté le LSD plutôt qu'un des dictionnaires français parce que ces derniers ont été développés surtout par des linguistes et ne sont donc pas aussi bien adaptés à notre objet d’étude que le LSD. Même si LSDFr a été conçu afin d’être utilisé avec le gratuiciel d'analyse de contenu Lexicoder, tout comme le Lexicoder Sentiment Dictionary, les deux peuvent aussi être utilisés avec plusieurs logiciels d'analyse de contenu, notamment Provalis Wordstat ou encore avec le langage de programmation statistique R.
Dans les deux premières sections de cet article, nous présentons en termes généraux les principales questions se rattachant à l'analyse du ton médiatique et à l'analyse automatisée de contenu. Ensuite, nous expliquons les détails de l’élaboration du dictionnaire LSDFr et nous mettons sa validité interne à l’épreuve en comparant nos résultats d'analyse automatisée aux résultats obtenus par voie de codage manuel d'une part, et aux résultats d'analyse obtenus avec la version française du dictionnaire LIWC d'autre part. Dans la dernière section, nous testons la validité externe du dictionnaire LSDFr par l'analyse de l'effet du ton médiatique en campagne sur les intentions de vote. Un tel effet a été démontré récemment à l’échelle canadienne sur la base d'un codage manuel (Soroka et al., Reference Soroka, Bodet, Young and Andrew2009) et d'un codage automatisé avec le LSD (Young et Soroka, Reference Soroka2012). Ici nous testons la capacité du ton médiatique, codé de manière automatisée à l'aide de notre dictionnaire, à prédire les intentions de vote lors des élections québécoises de 2007, 2008, 2012 et 2014.
Les résultats sont concluants dans nos trois analyses : les valeurs attribuées par notre dictionnaire LSDFr dans l'analyse automatisée correspondent au codage manuel ; elles discriminent mieux entre ton positif et ton négatif que celles de la version française du dictionnaire LIWC et elles prédisent très bien l’évolution des intentions de vote en campagnes électorales.
Le ton médiatique
Les chercheurs en communication politique ont longtemps souligné l'attention toute particulière que l'opinion publique prête aux médias durant les campagnes électorales. L'opinion publique prête attention non seulement au contenu substantiel de la couverture médiatique de la campagne (les électeurs consultent les médias dans le but de s'informer), mais aussi à son contenu affectif, autrement dit son ton (les électeurs consultent les médias afin de former des impressions). L'importance du ton en politique est à mettre en rapport avec le rôle central que jouent les impressions subjectives et les émotions dans la formation des attitudes politiques (Marcus et al., Reference Marcus, Neuman and MacKuen2000 ; Miller, Reference Miller2011 ; Tourangeau et Galešić, Reference Tourangeau, Galešić, Donsbach and Traugott2008).
Les recherches ont montré l'influence du contenu affectif des médias sur la perception qu'ont les électeurs des dirigeants et des partis politiques (Eshbaugh-Soha, Reference Eshbaugh-Soha2010 ; Soroka et al., Reference Soroka, Bodet, Young and Andrew2009 ; Hopmann et al., Reference Hopmann, Vliegenthart, de Vreese and Albaek2010), des enjeux sociaux (Edelman, Reference Edelman1985 ; McComas et Shanahan, Reference McComas and Shanahan1999), économiques (Gentzkow et Shapiro, Reference Gentzkow and Shapiro2010 ; Lowry, Reference Lowry2008 ; Nadeau et al., Reference Nadeau, Niemi, Fan and Amato1999 ; Soroka, Reference Soroka2006) ou même stratégiques (Cho et al., Reference Cho, Boyle, Keum, Shevy, McLeod, Shan and Pan2003). Plus directement en lien avec notre étude, les recherches ont aussi montré l'influence du ton médiatique sur les intentions de vote aux élections présidentielles américaines (Farnsworth et Lichter, Reference Farnsworth and Lichter2010) et aux élections fédérales canadiennes (Soroka et al., Reference Soroka, Bodet, Young and Andrew2009).
Depuis sa parution en 2012, on dénombre plusieurs études ayant fait usage du LSD pour mesurer le ton médiatique et ses effets. Ces études portent sur des thèmes très variés. Par exemple, Fournier et al. (Reference Fournier, Cutler, Soroka, Stolle and Bélanger2013) analysent la « vague orange » lors des élections canadiennes de 2011, et démontrent qu'une augmentation des commentaires médiatiques qui mentionnent le NPD en premier correspond avec la montée des intentions de vote pour le NPD. Murthy et Petto (Reference Murthy and Petto2014) analysent l'influence du ton des articles de plusieurs journaux sur les tweets pendant les primaires républicaines aux États-Unis. Daku (Reference Daku2015) analyse le ton des articles du New York Times sur les politiques d'emploi aux États-Unis entre 1980 et 2014. Enfin, Daku et Dionne (Reference Daku and Dionne2015) ont analysé la réponse internationale à la couverture médiatique régionale de la crise de l'Ebola. Les recherches mentionnées ici constituent seulement un échantillon des nombreuses publications récentes qui utilisent le LSD. Pour une liste complète de ces publications, le lecteur est invité à consulter le site lexicoder.com. Et, bien sûr, l’étude de Young et Soroka (Reference Soroka2012), qui représente la première utilisation du LSD anglais, teste la validité externe du dictionnaire en mesurant l'impact du ton médiatique sur les intentions de vote au Canada. Toutes ces études analysent exclusivement des articles de médias anglophones, à l'exception de celle de Fournier et al. (Reference Fournier, Cutler, Soroka, Stolle and Bélanger2013) qui analyse, entre autres, le contenu d'articles de deux journaux francophones : Le Devoir et La Presse. Footnote 2
La rareté des études portant sur les médias francophones, comparativement aux études portant sur les médias anglophones, est sans doute attribuable au nombre plus restreint de chercheurs francophones, mais peut-être aussi au manque de fiabilité et aux coûts en temps et en argent que représente le codage manuel d'articles. Le LSD réalise en quelques secondes les analyses textuelles qui prennent des journées entières à compléter manuellement. Pour le moment, seuls les chercheurs qui utilisent des données en anglais peuvent bénéficier des gains en efficience et en fiabilité associés à l'utilisation du dictionnaire automatisé. Dans un contexte d'extension de la disponibilité de documents politiques sur Internet, la possibilité de recourir à un outil de codage automatique par ordinateur nous paraît une solution tout à fait envisageable pour surmonter l'obstacle.Footnote 3 Nous pensons qu'il existe là un terreau fertile à explorer pour faciliter la recherche sur le ton médiatique en français au Québec et au Canada, mais aussi en France, en Suisse, en Belgique et en Afrique francophone.
L'analyse automatisée
L'analyse automatisée de contenu a d'abord été abondamment utilisée pour le traitement du langage naturel (Natural Langage Processing : NLP) – un champ à la jonction entre la linguistique et l'informatique–et elle s'est par la suite étendue aux sciences sociales, y compris à la communication politique. Au fur et à mesure que les médias se sont développés, le volume de textes politiques disponibles pour la recherche s'est accru, et ces textes sont maintenant de plus en plus disponibles sous forme électronique. À l'augmentation en volume des sources d'information digitale a correspondu un progrès dans la sophistication des méthodologies d'analyse du contenu de ces sources d'information, la plupart de ces méthodologies étant maintenant automatisées.
Plusieurs types d'analyses automatisées de contenu sont employés en science politique. La méthode d'analyse qui nous intéresse ici est la méthode de classification avec des catégories connues.Footnote 4 Cette méthode nécessite la création d'un dictionnaire d'analyse ou l'utilisation d'une méthode d'apprentissage assistée par un codeur humain (supervised machine learning : SML), ce qui implique le codage manuel d'un corpus d'apprentissage. L'approche par dictionnaire représente essentiellement la seule approche de classification pour des catégories définies pouvant être appliquée sans codage manuel. Celle-ci nécessite cependant la création du dit dictionnaire, ce qui peut s'avérer difficile (voir Stewart et Grimmer, Reference Stewart and Grimmer2013 pour une discussion in extenso des différentes formes d'analyses automatisée de contenu).
Il y a à la fois des avantages et des inconvénients liés à l'utilisation de la méthode de classification automatisée à l'aide de catégories préétablies (dictionnaire/lexique). Un avantage de la méthode lexicale a déjà été mentionné ; il s'agit de l’économie en temps et en argent rattachée à son utilisation. Il devient ainsi possible d'analyser à coût raisonnable des objets qui nécessitent l'analyse de très grands corpus de données textuelles. Un deuxième avantage est que cette démarche donne une lecture parfaitement fidèle : les résultats de plusieurs codages indépendants, effectués avec la même méthode, sur le même corpus par des opérateurs différents, concordent parfaitement. Il y a parfaite « reproductibilité » des résultats pour chacun des textes, peu importe qui, quand, où et pourquoi les analyses sont effectuées. Un troisième avantage du codage automatisé est l'absence de biais caractéristiques du codage humain.
Le principal inconvénient de la méthode de classification automatisée à l'aide de catégories préétablies est qu'elle ne prend pas en compte le contexte, l'expérience personnelle de la source, les figures de style, l'utilisation des symboles, etc. Il s'agit d'une analyse sommaire moins apte à capter la complexité que ne le serait le codage manuel par des codeurs formés à cet effet. Néanmoins, l'utilisation de l'un ou l'autre peut dépendre de la question de recherche. Comme le soulignent Young et Soroka (Reference Soroka2012 : 209), les deux méthodes ciblent, d'une certaine façon, différents niveaux d'analyses. Pour nous en convaincre, ils ont repris l'analogie de Hart (Reference Hart and West2001) qui compare le codage manuel à la perspective d'un policier ayant travaillé toute sa vie dans les rues d'un quartier et l'analyse automatisée à un pilote d'hélicoptère survolant ce même quartier ; tous deux ont leur utilité et chacun amène une perspective que l'autre n'a pas.
Le dictionnaire
Pour créer notre dictionnaire francophone mesurant le ton négatif ou positif d'un texte, nous avons tout d'abord traduit manuellement les mots et les expressions trouvées dans le LSD. Par la suite, nous avons manuellement procédé à la racinisation – c.-à-d. à la transformation des flexions en leur racine (stemming) – , éliminé les doublons et ajouté les synonymes. La dernière étape avant la validation a consisté à ressortir les 1 500 mots les plus couramment employés dans notre corpus d'articles et à vérifier systématiquement la connotation négative ou positive de tous les mots qui n’étaient pas présents dans le dictionnaire LSD anglophone. Pour effectuer cette tâche, nous avons utilisé la fonction KWIC (Keyword in context) du programme R QuantEDA (Benoit, Reference Benoit2015) avant d'ajouter ces mots au dictionnaire en indiquant s'ils étaient utilisés de manière positive ou négative.
Pour passer du dictionnaire anglais au dictionnaire français, il nous a fallu tenir compte de certaines particularités morphologiques du français écrit qui entraînent des difficultés de codage. Dans ce qui suit, nous expliquons les principales sources de difficultés rencontrées et comment nous avons résolu certaines de celles-ci. Nous suggérons également des pistes de solutions pour les problèmes que nous n'avons pas encore résolus.
Une première série de difficultés tient au fait que la qualité des listes de mots vides ou mots d'arrêts (stop words) et de l'algorithme de racinisation (stemming) est moins grande en français qu'en anglais. La liste de mots d'arrêt typiquement utilisée en anglais (SMART ; Salton et Buckley, Reference Salton and Buckley1997 ; Buckley et al. Reference Buckley, Singhal, Mitra and Salton1995) comporte 571 mots alors que la liste en français n'en comporte que 463 (Savoy, Reference Savoy1999). En réalité, la portion utile de la liste en français comporte beaucoup moins de mots que ce qui est affiché étant donné qu'un grand nombre d’éléments superflus s'y retrouvent, notamment toutes les lettres de l'alphabet prises individuellement et des « mots » tels que : olé, brrr, hue, tsouin, etc. En outre, seuls les verbes « être » et « avoir » s'y retrouvent alors que la langue française comporte un bon nombre d'autres verbes communs dépourvus de sens dans un contexte d'analyse automatisée (faire, dire, aller, voir, venir, mettre, etc.).
L'algorithme de racinisation typiquement utilisé dans le Natural Language Processing est le libstemmer C de Porter (Reference Porter1980), un algorithme adapté par la suite à d'autres langues et implémenté en R (SnowballC : Bouchet-Valat, Reference Bouchet-Valat2014). L'adaptation au français n'est pas toujours optimale, y compris dans les cas, assez communs, où un grand nombre de terminaisons sont possibles pour une même racine. Par exemple, « maintenir » et « maintenue » sont lemmatisés en « maintien » et « maintenu » plutôt qu'en une même racine. Le problème est démultiplié par la complexité des conjugaisons et des terminaisons en français telle qu’évoquée par Piolat et al. (Reference Piolat, Booth, Chung, Davids and Pennebaker2011 : 153). La qualité parfois non optimale des outils en français entraîne la présence gênante de bruit statistique dans les résultats d'analyses de textes en français, mettant ainsi en lumière l'importance du nettoyage pré-analytique des textes à analyser (voir à ce propos Soroka et Young, Reference Young and Soroka2012 ; Ruedin, Reference Ruedin2013 ; Dolamic et Savoy, Reference Dolamic and Savoy2010). Nous avons bon espoir que les versions françaises des outils que nous décrivons ici arriveront dans le futur au même degré d'optimalité que leurs équivalents en anglais. La tâche qui reste à accomplir pour y arriver est énorme et elle dépasse de loin nos capacités limitées. Entre temps, nous avons opté pour la racinisation manuelle des mots présents dans notre dictionnaire pour tenter de minimiser, ne serait-ce qu'en partie, l'impact de racinisations douteuses en français.
Une autre source de difficultés concerne les négations. Les listes de négations du LSD anglophone consistent simplement à ajouter « not » devant chaque mot. Notre expérience de construction du LSDFr montre que l'adoption d'un tel raccourci n'est pas convenable en français. Les négations en français prennent des formes grammaticales beaucoup plus variées et complexes qu'en anglais, qui impliquent des changements de racines de certains mots et de certains verbes, des contractions (n’), et différents mots de négations possibles (peu, pas, non, ou sans). Bref, le simple ajout de « pas » (« not ») devant chacun de nos mots ne suffit pas à développer une liste appropriée au français. Résoudre la difficulté liée aux négations demandera une importante somme de travail ; c'est une priorité future importante pour nous, considérant la remarque de Young et Soroka (Reference Soroka2012) selon laquelle la prise en compte des négations améliore passablement la performance de leur dictionnaire.
Notre dictionnaire comporte 2 867 mots négatifs et 1 284 mots positifs pour un total de 4 151 mots codés comparativement aux 4 567 mots du LSD. En paraphrasant Young et Soroka (Reference Soroka2012 : 213), nous posons la question : est-ce que notre dictionnaire produit des scores cohérents avec le codage manuel effectué par des auxiliaires de recherche et est-ce que ces scores sont plus fidèles que ceux obtenus avec un autre dictionnaire ? Pour répondre à la question, trois auxiliaires de recherche ont codé l'ensemble d'un corpus aléatoire de 498 articles de nouvelles portant sur la politique électorale québécoise. Les auxiliaires avaient pour directives de lire chaque article dans son entièreté puis de coder « négatif », « neutre » ou « positif » le ton de l'article tout en ignorant leurs sentiments personnels par rapport au contenu de l'article ou par rapport aux personnalités concernées. Cette procédure est la même que celle employée par Young et Soroka (Reference Soroka2012 : 214) et a pour objectif de mesurer le ton général d'un article. À ce propos, rappelons que l'objectif du codage manuel par les auxiliaires de recherche est de recueillir et d'agréger leur sentiment collectif sur le ton de chaque article, et non pas d'arriver à un verdict uniforme. Les verdicts des auxiliaires de recherche sont reportés comme tels, sans tentative d’élimination des biais cognitifs. C'est la façon habituelle de procéder lorsqu'on mesure toute dimension affective, dans laquelle les différences entre codeurs sont plutôt perçues comme étant des manifestations de réelles ambiguïtés (Andreevskaia et Bergler, Reference Andreevskaia and Bergler2006 ; Subasic et Huettner, Reference Subasic and Huettner2001 ; Soroka et Young, Reference Young and Soroka2012). Fidèles à cette approche, nous ne rapportons pas les résultats de tests de fiabilité entre codeurs.
Chaque article s'est vu attribuer une valeur par chaque auxiliaire de recherche : +1 pour un article « positif », 0 à chaque article « neutre », et −1 à chaque article « négatif ». Après la sommation des évaluations des trois auxiliaires de recherche, les articles avec un score de −3 et −2 ont été identifiés comme étant négatifs, ceux avec un score de −1 à 1 ont été identifiés comme étant neutres et les articles avec un score de 2 ou 3, ont été identifiés comme positifs. Nous utilisons une échelle en trois points (positif, neutre, négatif) plutôt qu'une échelle en cinq points (très positif, positif, neutre, négatif, très négatif) comme celle de Young et Soroka (Reference Soroka2012) pour éviter un trop petit nombre de cas dans certaines catégories (il n'y a, par exemple, que cinq articles dans notre catégorie « très positif »).
Comme on pouvait s'y attendre, la grande majorité des articles sont neutres, soit 66.9 % ; 29.3 % sont négatifs et seulement 3.8 % sont positifs. La distribution des scores de Young et Soroka (Reference Soroka2012) s’établit comme suit, par comparaison : 19.1% positifs, 55.7% neutres, 25.2% négatifs. Nos résultats sont assez proches des leurs, mis à part le fait que nous avons moins d'articles positifs. En ce sens, notre corpus n'est pas aussi bien balancé que le leur, ce qui impose un léger bémol sur les résultats que nous obtenons quant aux scores des articles positifs, ceux-ci étant basés sur un corpus limité à 19 articles. Il convient cependant de noter la faible proportion d'articles positifs relativement aux articles négatifs dans les deux cas. Ceci n'est pas étonnant si on considère la présence possible d'un double biais de négativité en l'espèce, soit d'une part la tendance des médias à être plus négatifs que positifs dans leur couverture et d'autre part, le « biais cognitif » des auxiliaires des recherches (Rozin et Royzman, Reference Rozin and Royzman2001 ; Soroka, Reference Soroka2014 ; Baumeister et al., Reference Baumeister, Bratslavsky, Finkenauer and Vohs2001).
À propos du biais cognitif des auxiliaires de recherche, rappelons que l'objectif du codage manuel par les auxiliaires de recherche est de recueillir et d'agréger leur sentiment collectif sur le ton de chaque article, et non pas d'arriver à un verdict uniforme. Les verdicts des auxiliaires de recherche sont reportés comme tels, sans aucune tentative d’élimination des biais cognitifs et sans test de fiabilité entre codeurs. À propos du biais de négativité médiatique, nos résultats semblent indiquer que ce biais est encore plus sévère, en tout cas pas moins sévère, dans les médias francophones que dans les médias anglophones au Canada. Notre diagnostic ne peut être que provisoire en attendant d'avoir des données de contenu de la couverture médiatique d'une même élection en français et en anglais. Nos données appuient l'argument selon lequel le biais de négativité dans les médias est un phénomène global, et non pas la conséquence d'une mauvaise relation circonstancielle entre les médias et les politiciens (Nadeau et al., Reference Nadeau, Niemi, Fan and Amato1999 ; Soroka, Reference Soroka2006, Reference Soroka2012, Reference Soroka2014).
Le ton médiatique des articles dans notre échantillon est ensuite soumis à une analyse lexicale automatisée. Notre méthode de calcul des scores est semblable à celle qu'utilisent Young et Soroka (Reference Soroka2012) ; la quantité de mots négatifs par article a été soustraite du nombre de mots positifs et cette différence a été divisée par le nombre de mots total de l'article [(Nb positifs – Nb négatifs) / Nb total)]. Les scores que nous obtenons, représentés sur le graphique 1, se distribuent de manière assez semblable aux scores obtenus par Young et Soroka (Reference Soroka2012) ; la distribution est une distribution centrée réduite (une distribution pointicitée ou dite leptokurtique avec une mesure de kurtosis de 6.55).

Graphique 1:
Est-ce que les scores du LSDFr sont comparables aux catégories codées manuellement ? La réponse se trouve au graphique 2 où sont reportés les écarts interquartiles des scores assignés à l'aide de notre dictionnaire par catégories codées manuellement. Notre dictionnaire assigne des scores plus faibles aux articles manuellement codés négatifs, et des scores plus élevés aux articles codés positifs par nos codeurs. Les différences entre les scores du dictionnaire LSDFr pour les articles codés négatifs et neutres, neutres et positifs et négatifs et positifs sont toutes statistiquement significatives (T-test en double queue : p = 0.004, <0.001, 0.002).Footnote 5 Le test de validation de notre classification automatisée du ton à l'aide du dictionnaire francophone est donc concluant. Le LSDFr fonctionne.

Graphique 2:
L’étape suivante consiste à établir si notre dictionnaire fonctionne mieux que le LIWC francophone. L'analyse graphique du graphique 2 a été reproduite avec le LIWC francophone et est présentée dans le graphique 3.

Graphique 3:
Une simple inspection visuelle permet d'observer que notre dictionnaire discrimine plus adéquatement que le LIWC en français. La différence est particulièrement marquée si l'on observe la faible capacité de discrimination du LIWC francophone entre les articles ayant été classifiés comme négatifs et les articles neutres. Afin de dépasser la simple inspection visuelle, le tableau 1 présente la proportion de la variance expliquée par chacun des deux dictionnaires. Il s'agit ici d'analyse de variance (ANOVA) dans laquelle les scores obtenus par chaque dictionnaire sont analysés comme étant fonction de nos trois catégories de codage manuel. La première colonne présente la variance expliquée (R2) d'un modèle linéaire (MCO) bivarié, alors que la seconde colonne présente les résultats de MCO où les présupposés de normalité sont relâchés via l'utilisation de variables binaires (dummies) pour nos catégories de codage manuel (Young et Soroka, Reference Soroka2012 : 219–220).
Tableau 1: Pourcentage de la variance expliquée

Note: Les cellules contiennent les pourcentages de la variance expliquée dans notre échelle manuelle à trois points par les mesures automatisées.
Les résultats sont clairs : notre dictionnaire performe mieux que le LIWC francophone. Plus précisément, les codes attribués via notre codage manuel expliquent une plus grande proportion de la variance des scores générés par notre dictionnaire que par le LIWC. La variance non expliquée demeure toutefois importante, soulignant ainsi le travail qui reste à faire pour améliorer la performance du dictionnaire LSDFr. Footnote 6
Le ton des médias et les intentions de vote
Afin d'illustrer le potentiel de notre dictionnaire du ton, nous répliquons le modèle de Young et Soroka (Reference Soroka2012) avec des données québécoises. Young et Soroka ont démontré que le ton des médias, tel que mesuré par le LSD, a été un bon prédicteur des intentions de vote pendant les campagnes électorales fédérales de 2004 et de 2006. Cette constatation avait déjà été obtenue à l'aide d'analyses manuelles du ton (Soroka et al., Reference Soroka, Bodet, Young and Andrew2009) et le LSD a su la répliquer. Voyons si la version française du dictionnaire LSD parvient elle aussi à prédire les intentions de vote.
Nous appliquons notre modèle aux élections québécoises de 2007, 2008, 2012 et 2014. Plus spécifiquement, nous tentons de prédire les intentions de vote pour chaque parti politique à partir du ton de la couverture médiatique durant chaque campagne électorale. L'hypothèse prédit qu'un ton négatif dans la couverture médiatique d'un parti corrèle avec une baisse des intentions de vote pour ce parti, et un ton positif corrèle avec une augmentation des intentions de vote. L'hypothèse prédit également qu'un ton médiatique positif (négatif) envers un autre parti corrèle négativement (positivement) avec les intentions de vote du premier.
Nous utilisons un langage causal tout en sachant que le lien entre ton médiatique et intentions de vote pendant une élection peut résulter autant du fait que les médias sont un miroir qui reflète la manière dont la campagne évolue que du fait que les médias influencent l’évolution de la campagne. Il est fort probable que les deux phénomènes agissent simultanément : les médias influencent et suivent l'opinion publique sans qu'il soit possible de clairement identifier la direction de l'effet. Quoi qu'il en soit, une conclusion importante des nombreuses recherches liant le ton médiatique et l'opinion publique est que le ton médiatique affecte notre compréhension des évènements rapportés par les médias de masse. Ce faisant, le ton médiatique se révèle être un facteur important d'explication des comportements politiques (Young et Soroka, Reference Soroka2012 : 207). Jusqu'ici, les chercheurs francophones ont rarement opérationnalisé le ton médiatique comme variable d'explication. La seule analyse de contenu publiée à ce jour en français ayant pour thème le ton médiatique est celle de Giasson et al. (Reference Giasson, Brin and Sauvageau2010) sur la crise des accommodements raisonnables au Québec.
Nous utilisons un modèle autorégressif incluant une série de variables indépendantes décalées (lag) qui représentent l’évolution du ton de la couverture médiatique aux jours 4, 5 et 6 de la campagne. Une variable indépendante décalée supplémentaire associée au temps t = 4 est aussi incluse dans le modèle pour prendre en compte le caractère autorégressif des intentions de vote (Soroka, Young et Bodet, Reference Soroka, Bodet, Young and Andrew2009 ; Young et Soroka, Reference Soroka2012). Six variables contrôles binaires sont également incluses dans le modèle pour capturer l’« effet maison » (house effect) des firmes de sondage dans notre échantillon, Léger Marketing, CROP, Strategic Counsel, Reid, Nanos et Forum. L'effet maison mesure la tendance faible, mais systématique, de chaque firme à estimer les intentions de vote différemment des autres firmes. L'effet maison tient aux méthodes différentes d'administration des questionnaires ou de répartition des indécis par chaque firme (McDermott et Frankovic, Reference McDermott and Frankovic2003). La variable d'effet maison associée à chaque firme est codée 1 chaque jour au cours duquel un sondage est administré par cette firme et 0 autrement.
La variable pour le ton médiatique est construite à partir de l'analyse d'un corpus d'articles de journaux provenant des trois principaux quotidiens francophones du Québec, soit Le Journal de Montréal, La Presse et Le Devoir. Au préalable, pour repérer ces articles dans la banque de recherche Eureka.cc, nous avons utilisé une chaîne booléenne appliquée au contenu des articles pour ne retenir que ceux qui couvraient les campagnes électorales. À noter que les articles d'opinions n'ont pas été retenus.Footnote 7 Au total, 5 916 articles de nouvelles ont été collectés et ensuite codés à l'aide de notre dictionnaire de ton. Pour obtenir une mesure du ton par parti, nous avons mesuré la proportion de mots négatifs et positifs dans les phrases mentionnant les partis politiques ou leurs chefs.Footnote 8 Plus concrètement, le nombre de mots négatifs a été soustrait du nombre de mots positifs. Cette différence a été par la suite divisée par le nombre de mots présents dans la phrase. Les scores de chaque phrase de chaque article sont par la suite agrégés par journée.
Les intentions de vote sont mesurées à partir des résultats de sondages préélectoraux pendant chaque campagne électorale. Nous avons recueilli 10 sondages préélectoraux pour la campagne de 2007, 12 en 2008, 16 en 2012 et 16 en 2014.
Le modèle complet est illustré formellement comme suit:

où les intentions de vote par parti (p) à un temps (t) sont fonction des effets des maisons de sondages (m) et des effets du ton médiatique par parti/chef (n) avec un effet décalé (lag) de 4, 5 et 6 jours. Afin de prendre en compte le caractère autorégressif des intentions de vote, la variable dépendante au temps t = 4 est aussi incluse dans le modèle.
Le tableau 2 présente les résultats d'analyse : coefficients de pente pour les variables, ainsi que la proportion de la variance expliquée (R2 ajusté). Les modèles impairs du tableau 2 présentent seulement les variables contrôles ; les modèles pairs ajoutent les variables d'intérêt principal, c'est-à-dire le ton de la couverture médiatique de chaque parti.
Tableau 2: contenu médiatique et intentions de vote

Les cellules contiennent les coefficients MCO avec les erreurs standards entre parenthèses.
a p < 0.05
b p < 0.01
c p < 0.001
Les résultats obtenus appuient clairement nos hypothèses. Si on regarde d'abord les résultats par colonnes, on constate qu'un ton médiatique positif envers un parti politique donné corrèle toujours positivement avec les intentions de vote que ce parti reçoit dans les sondages, et la corrélation est le plus souvent statistiquement significative (p < 0.05). Par contre, un ton positif envers un autre parti corrèle presque toujours négativement avec les intentions de vote pour le premier parti, et encore une fois, la corrélation est souvent statistiquement significative (p < 0.05).Footnote 9 Par exemple, les intentions de vote pour le PLQ pendant la campagne électorale de 2008 corrèlent positivement et de manière significative avec le ton de la couverture médiatique du PLQ pendant cette même campagne, alors que les intentions de vote pour le PLQ, toujours en 2008, corrèlent négativement et de manière significative avec le ton de la couverture médiatique du PQ et de l'ADQ en 2008.
Si on regarde maintenant les résultats par rangées, on constate qu'un ton positif envers un parti donné corrèle négativement avec les intentions de vote que reçoivent les autres partis et que la corrélation est elle aussi souvent statistiquement significative (p < 0.05). Pour revenir à l'exemple de la campagne électorale de 2008, le ton de la couverture médiatique du PLQ corrèle négativement et de manière significative avec les intentions de vote pour le PQ et pour l'ADQ pendant cette campagne.Footnote 10
La comparaison des R2 ajustés des modèles pairs et impairs démontre que l'ajout des variables du ton médiatique augmente, parfois de façon substantielle, la proportion de la variance expliquée dans la plupart des cas.Footnote 11
Nos modèles sont illustrés de manière visuelle dans les diagrammes du graphique 4, dans lesquels ont été tracées à la fois les intentions de vote (lissées) et les prédictions du dictionnaire (lissées) pour le PLQ, le PQ et l'ADQ ou la CAQ pendant les quatre campagnes électorales à l’étude. Les sondages sont présentés sous forme de points dans les diagrammes. On constate qu’à quelques exceptions près, la trajectoire lissée des intentions de vote suit de près celle du ton des articles médiatiques. Il convient de noter que le prédicteur le plus important est de loin notre variable lag des intentions de vote. Conséquemment, il ne faut pas attribuer la justesse des modèles ici illustrés entièrement au ton médiatique, bien que celui-ci joue un rôle statistiquement significatif.

Graphique 4:
En somme, le codage automatisé du ton médiatique à l'aide du LSDFr dans le contexte québécois semble fonctionner aussi bien que le codage du ton médiatique à l'aide du LSD utilisé pour l'analyse des intentions de vote aux élections fédérales. Étant donné que la qualité du LSD a été prouvée à maintes reprises, nos résultats d'analyse ne peuvent que renforcer notre confiance dans le codage automatique.
Conclusion
L'analyse du ton en communication politique est un sujet qui fait couler beaucoup d'encre dans le milieu nord-américain de la recherche. La mise au point du logiciel Lexicoder Sentiment Dictionary permettant l'analyse automatisée du ton des textes politiques (Young et Soroka, Reference Soroka2012) contribue de manière importante à l’épanouissement des recherches dans ce domaine. Le LSD réalise en quelques secondes les analyses textuelles qui se faisaient auparavant manuellement et nécessitaient de longues heures de codage. Le codage automatisé a aussi l'avantage de produire des résultats fiables et libres des biais caractéristiques du codage humain.
Les gains d'efficience et de fiabilité ainsi réalisés permettent d'effectuer des recherches plus nombreuses et de plus grande envergure qu'auparavant. Depuis sa création, le logiciel a été utilisé dans de nombreuses analyses de contenu en anglais (voir le site du lexicoder pour une liste exhaustive de ces recherches). Jusqu’à présent, les chercheurs qui utilisaient le LSD devaient le faire avec des données en anglais et ceux et celles qui auraient souhaité faire l'analyse automatisée du ton de textes politiques en français étaient laissés à l’écart.
Notre objectif était de produire un dictionnaire de mesure du ton médiatique fiable et valide pour les chercheurs intéressés à l'analyse des corpus médiatiques francophones. La mise au point du LSD en français rend possible dorénavant le développement et même l'extension d'analyses automatisées du ton de textes politiques à la Francophonie. Le dictionnaire est libre d'accès et disponible sur le site web du projet poltext (poltext.org) ou encore sur le site web du Lexicoder (lexicoder.com).
Nous invitons les chercheurs à utiliser notre dictionnaire, tout en rappelant que les méthodes de classification à catégories connues, ou méthodes lexicales, sont conçues en fonction d'un domaine d'application spécifique, soit les articles politiques de journaux dans notre cas. L'utilisation d'un dictionnaire dans d'autres contextes sans l'avoir adapté au préalable à ce contexte peut amener de sérieux problèmes (Stewart et Grimmer, Reference Stewart and Grimmer2013).
Notre dictionnaire peut certainement être amélioré et, en ce sens, nous sommes ouverts à toute suggestion de la part des chercheurs qui emploieront cet outil. La création d'un dictionnaire est un processus itératif. Par exemple, le LSD en anglais est régulièrement mis à jour et amélioré ; il en est à sa troisième version. De la même manière, nous prévoyons entretenir et améliorer le LSDFr. Nous sommes d'avis que les améliorations les plus pressantes ne sont pas nécessairement liées au dictionnaire à proprement parler, mais plutôt aux outils de prétraitement non disponibles en français. Comme nous l'avons expliqué plus haut, les listes de mots d'arrêts (stop words), de racinisation (stemming) et de lemmatisation sont de qualité décevante en français comparativement aux listes anglophones. Tel que noté par Young et Soroka (Reference Soroka2012), les outils de prétraitement, bien qu'ils soient très compliqués et onéreux à développer, apportent une amélioration de la performance et sont applicables à d'autres types d'analyses automatisées de contenu. De notre côté, la prochaine étape consiste à développer un dictionnaire du ton avec une liste de négations qui lui soit propre.
Une amélioration supplémentaire, qui va au-delà du dictionnaire lui-même, concerne la comparaison des scores obtenus avec le LSD et avec le LSDFr. Notre dictionnaire fournit bel et bien des scores fiables, mais ces scores ne sont pas directement comparables aux scores obtenus par la version anglaise. Nous ne savons pas s'il y a des biais systématiques d'un dictionnaire par rapport à l'autre et desquels il s'agit. Par conséquent, nous ne pouvons pas corriger ces biais afin d'obtenir des scores directement comparables. Pour ce faire, il nous faudrait analyser un corpus assez large d'articles journalistiques professionnellement traduits du français à l'anglais et un deuxième corpus de l'anglais au français. Une fois ces biais identifiés et mesurés, il serait possible d’élaborer une procédure de « scaling » des résultats les rendant suffisamment semblables pour fins de comparaison.Footnote 12
Le processus de développement et de traduction d'un dictionnaire expert est long et fastidieux, mais il ouvre la porte à de nombreuses avenues de recherche. Ainsi, nous adapterons ultérieurement notre dictionnaire à d'autres contextes en lui adjoignant de nouveaux termes destinés à mieux refléter des sentiments ou émotions–tels que la peur, la colère, le sentiment religieux-associés à des enjeux politiques particuliers (Soroka, Young et Balmas, Reference Soroka, Young and Balmas2015).