INTRODUCTION
Les chansons sont des productions linguistiques qui se positionnent de façon toute particulière entre oralité et scripturalité. Söll (Reference Söll1974) a tout d’abord proposé de distinguer l’aspect médial (le canal utilisé : phonique vs graphique) de l’aspect conceptionnel (l’allure linguistique d’une production : oral vs écrit). Koch et Oesterreicher (Reference Koch and Oesterreicher2001) ont par la suite défendu l’idée que les diverses productions linguistiques peuvent être replacées sur un continuum conceptionnel entre immédiateté (ou proximité) et distance. Si les chansons sont phoniques, elles présentent principalement des caractéristiques communicationnelles relevant de la distance : détachement actionnel et situationnel, communication publique, interlocuteur inconnu, communication préparée, monologue (selon les paramètres de Koch et Oesterreicher, Reference Koch and Oesterreicher2001: 586). Au niveau linguistique, notre corpus se caractérise également par une absence de disfluences (particules d’hésitation, amorces, reformulations, réparations) mais présente pourtant d’autres caractéristiques relevant de la proximité, que ce soit au niveau phonétique : réductions (par exemple de [ʒəsɥi] à [ʃɥi] ou [ʃy]), simplification de groupes consonantiques (dont des non-réalisations de la consonne finale des pronoms sujets il et elle devant initiale consonantique) ou encore non-réalisation de voyelles (comme le [e] de déjà prononcé [dʒa]) ; au niveau morphosyntaxique : utilisation du suffixe –zer,Footnote 1 mots tronqués (comme Lambo pour Lamborghini), non-réalisation du ne dans la négation, du il à valeur impersonnelle dans il y a ou il faut… Certains faits linguistiques venant d’être exposés comme relevant de la variation entre oral et écrit, ou variation diamésique, peuvent également être propres à d’autres dimensions, celles-ci se combinant entre elles. Pour la dimension socioculturelle (variation diastratique), les sociolectes des catégories sociales défavorisées tendraient vers la proximité alors que les sociolectes des catégories sociales favorisées tendraient vers la distance. Pour la dimension géographique (variation diatopique), les diverses variétés régionales tendraient également vers la proximité tandis que pour la dimension situationnelle (variation diaphasique), les registres les moins soutenus tendraient vers la proximité et les plus soutenus vers la distance. L’utilisation de prononciations et termes régionaux ou argotiques tirerait ainsi les productions du côté de la proximité conceptionnelle. Les règles de versification classiques propres au français ne sont également pas toujours respectées, notamment au niveau de la réalisation des schwas (habituellement tous prononcés, excepté en fin de vers, devant ou après voyelle phonique) et des liaisons (réalisation d’un maximum de liaisons variables). Ces consonnes à la frontière entre deux mots (mot 1, M1 et mot 2, M2) pouvant être produites devant initiale vocalique mais ne l’étant pas devant initiale consonantique ou lorsque les mots sont prononcés en isolation, constituent ici notre objet d’étude. Si le phénomène est phonique, la réalisation de nombreuses liaisons variables est caractéristique de la distance en cela que ce paramètre prestigieux dénote une certaine maîtrise du code graphique (voir néanmoins Hornsby, Reference Hornsby2019 pour l’apport de données sur la liaison à l’hypothèse diglossique du français). Comme leur nom l’indique, les liaisons variables sont variablement réalisées, contrairement aux liaisons invariables qui sont généralement toujours réalisées par les locuteurs francophones natifs.
Dans une perspective fondée sur l’usage, la grammaire émerge de l’expérience linguistique d’un locuteur en production comme en réception et influence les productions de ce locuteur ; la grammaire émane donc de l’usage tout comme elle détermine l’usage (Bybee, Reference Bybee2006). L’importance du rôle d’auditeur était déjà notée avant l’émergence de la linguistique cognitive par les sociolinguistes : ‘la langue d’un sujet, contrairement au jugement commun, ce n’est pas la langue qu’il parle, c’est la langue qu’il entend’ (Encrevé, Reference Encrevé1977: 6). Cela nous a amenées à nous intéresser à un corpus de chansons. Cet attrait pour le groupe social des chanteurs de variété découle surtout du caractère public de leurs productions, et plus qu’une simple influence entre pairs au sein d’un groupe d’appartenance, c’est ici la possible influence des chanteurs sur les auditeurs francophones qui nous a semblée pertinente. La musique est en effet aujourd’hui un objet culturel du quotidien qui passe souvent par une pratique d’écoute, privée ou collective (Maisonneuve, Reference Maisonneuve2009: 13). La pratique d’écoute privée est aujourd’hui massive puisque selon un sondage IPSOS (Le Gorju, Reference Le Gorju2014), 99% des Français disent écouter de la musique, environ 17h par semaine et indiquent que leur genre préféré est la variété française. Les Français sont en outre confrontés à la musique dans l’espace public, dans les commerces et au travail (71% des commerçants diffusent de la musique dans leur établissement, touchant à la fois les clients et les employés ; Le Gorju, Reference Le Gorju2014). Notons qu’il ne semble pas exister à l’heure actuelle d’étude portant sur la liaison dans les chansons, excepté celle de Nardy et al. (Reference Nardy, Chevrot and Chauvin-Payan2014) portant sur les enfantines en synchronie, ou ‘genres oraux utilisés par les enfants au cours de leurs jeux chantés : chansons, formulettes, comptines, devinettes, charades, etc.’ (Chauvin et Colletta, Reference Chauvin and Colletta2003: 40). Comme l’avaient proposé ces auteurs : ‘une séquence des enfantines incluant un contexte de liaison peut fournir le matériau constitutif d’un schéma à la condition que cette séquence soit aussi suffisamment fréquente dans les échanges quotidiens’ (Nardy et al., Reference Nardy, Chevrot and Chauvin-Payan2014: 258).
Notre première partie présentera un état de l’art en matière d’étude diachronique de la liaison. Nous présenterons dans une seconde partie notre corpus et dans une troisième la méthodologie adoptée pour transcrire et annoter nos données ainsi que l’outil que nous avons développé pour l’étude de la liaison. Dans une quatrième partie, nous observerons les pratiques de nos chanteurs en matière de liaison. L’étude de leur évolution diachronique nous permettra enfin de modérer nos observations.
Nous souhaitons comparer la réalisation des liaisons dans notre corpus avec celle des liaisons de corpus oraux spontanés, car les chansons étant des productions préparées, la façon de liaisonner a pu être pensée en amont, ce qui pourrait impacter l’authenticité de ces productions. Nous voulons en outre observer dans quelle mesure les liaisons variables, indicatrices de distance, sont produites : les chanteurs souhaitent-ils se démarquer de productions orales spontanées ou au contraire s’en rapprocher par souci d’authenticité ?
LIAISON ET DIACHRONIE
L’enregistrement sonore constitue une avancée technologique relativement récente, de la sorte, il existe encore peu de corpus oraux diachroniques pour le français. Les données orales les plus anciennes ont été enregistrées selon deux perspectives, premièrement, conserver les productions de grands hommes et femmes d’une époque (personnalités politiques, écrivains, artistes, inventeurs, chanteurs), deuxièmement, préserver la mémoire de pratiques linguistiques (dialectologiques) et sociales (ethnographiques, musicologiques) menacées de disparition (Descamps, Reference Descamps2005: 71). Pour accéder à des données sonores anciennes pour le français, il faut donc soit se pencher sur les productions de professionnels de la parole (pour la plupart), ce sera notre cas, soit s’intéresser à des productions non standard ou provenant d’une autre discipline. En ce qui concerne l’étude diachronique de la liaison, seules les personnalités politiques ont été étudiées (Encrevé, Reference Encrevé1983 ; Laks, Reference Laks2009 ; Laks et Peuvergne, Reference Laks and Peuvergne2017), bien que des journalistes aient aussi fait l’objet d’études en synchronie. Les chanteurs, aux côtés des professeurs, acteurs ou encore personnels administratifs pourraient également avoir un impact sur les productions des locuteurs. Des études ont aussi porté sur la liaison en diachronie chez les locuteurs des villes de Tours (Ashby, Reference Ashby2003) et d’Orléans (Dugua et Baude, Reference Dugua and Baude2017), mais nous n’avons pas de grand corpus oral pour le français antérieur aux années 1960. Les études diachroniques portant sur l’oral restent de la sorte micro-diachroniques et ne nous permettent d’étudier que des tendances récentes. Sur le long terme, on ne peut nier une évolution diachronique, puisque ce sont d’anciennes consonnes finales qui ont évolué vers les liaisons actuelles. Déjà en latin mérovingien, on observe des cas de sandhis externes consonantiques prenant la forme d’alternances conditionnées phonologiquement (Russo, Reference Russo2014). Mais la tendance n’a pas toujours été à la diminution, puisque l’influence de l’écrit (Durand et al., Reference Durand, Laks, Calderone and Tchobanov2011: 111) et de l’analogie (Morin, Reference Morin1982: 28) ont pu favoriser la prononciation de liaisons auparavant non réalisées. En l’absence de données empiriques, l’idée reçue selon laquelle la liaison serait actuellement en déclin a souvent été reprise (Léon, Reference Léon1992: 246 ; Chigarevskaïa, Reference Chigarevskaïa1973: 162 ; Thomas, Reference Thomas1998: 546). Les corpus oraux micro-diachroniques existants convergent en revanche dans la direction opposée : depuis le siècle dernier, le taux global de liaisons aurait peu évolué, que ce soit chez les personnalités politiques (Laks, Reference Laks2009: 243 ; Laks et Peuvergne, Reference Laks and Peuvergne2017: 62) ou les locuteurs orléanais (Dugua et Baude, Reference Dugua and Baude2017: 51). Ashby (Reference Ashby2003) n’apporte aucune indication à ce sujet.
Malgré cela, ces études antérieures ont montré que cette stabilité apparente cachait certaines évolutions au niveau de la catégorie des liaisons variables tout comme des évolutions individuelles différentes. Notons que dans l’étude portant sur les enfantines, Nardy et al. (Reference Nardy, Chevrot and Chauvin-Payan2014) avaient observé une réalisation élevée de liaisons variables et une variation interindividuelle quasi inexistante entre les différentes versions d’une même enfantine. Le changement linguistique peut être appréhendé de deux façons. Une première concerne les études en temps réel, dans lesquelles on s’intéresse au changement dans la communauté linguistique en divers points temporels (Labov, Reference Labov1994: 73). Ashby (Reference Ashby2003), en comparant deux corpus de français tourangeau enregistrés à vingt ans d’écart, note une diminution du taux de liaison variable entre 1976 (586/1617, 36%) et 1995 (290/1034, 28%). Laks (Reference Laks2009: 245) met quant à lui en évidence pour le corpus HPOL1 (personnalités politiques françaises, 1908–1998) une fluctuation du taux de liaisons variables à la hausse comme à la baisse : la décroissance régulière s’est en effet inversée dans les années 1970, au même moment où le taux de liaisons non enchaînéesFootnote 2 a atteint son pic. Cette fluctuation est aussi visible dans les trajectoires individuelles des présidents de la République de la période étudiée (Laks, Reference Laks2009: 249–251). Enfin, si la liaison variable après des M1 polysyllabiques ou singuliers aurait décru, après des M1 monosyllabiques ou pluriels elle se serait renforcée (Laks, Reference Laks2009: 256–257). L’entreprise la plus difficile reste encore de parvenir à obtenir un corpus oral diachronique de mêmes locuteurs, pari relevé pour sept locuteurs orléanais enregistrés à quarante ans d’intervalle entre les années 1970 et les années 2010 dans le cadre d’un sous-corpus des ESLO (Enquêtes sociolinguistiques à Orléans, voir LLL, 2017 et Eshkol-Taravella et al., Reference Eshkol-Taravella, Baude, Maurel, Hriba, Dugua and Tellier2011). Globalement, la variation interindividuelle au niveau des taux de réalisation des liaisons variables est moindre dans le second volet du corpus comparé au premier, ce qui laisse dire aux auteurs qu’il pourrait y avoir une plus grande convergence des usages dans les pratiques récentes (Dugua et Baude, Reference Dugua and Baude2017: 51). A quarante ans d’intervalle, et avec les trajectoires sociales des locuteurs à disposition, on peut également observer des évolutions individuelles des taux de liaisons variables réalisées (Dugua et Baude, Reference Dugua and Baude2017: 52). Les études en temps apparent constituent une deuxième façon d’appréhender des données orales diachroniques. Pour celles-ci, on s’intéresse au changement linguistique entre les différents groupes d’âge de la communauté linguistique (Labov, Reference Labov1994: 28). Laks et Peuvergne (Reference Laks and Peuvergne2017: 65–66) ont notamment montré que pour le corpus HPOL2 (personnalités politiques françaises, 1999–2015), la réalisation des liaisons variables était moindre au fil des générations, changement qui serait mené par les femmes. Ceci est contraire aux résultats de l’étude d’Ashby (Reference Ashby2003) en temps réel où le changement semble provenir des hommesFootnote 3 . Laks et Peuvergne (Reference Laks and Peuvergne2017: 69–70) indiquent également que la réalisation des liaisons variables de certaines constructions spécifiques peut aussi fluctuer en temps apparent (par exemple, la liaison après pas est moins réalisée au fil des générations).
Enfin, une autre dimension que la dimension diachronique peut entrer en jeu dans le changement linguistique. Laks (Reference Laks2009: 245), en s’intéressant aux liaisons variables dans quatre corpus : HPOL1, PFC (Phonologie du français contemporain, corpus variationniste recueilli dans l’espace francophone,Footnote 4 1996–2015 ; voir MoDyCo et RUG, 2017 et Durand et al., Reference Durand, Laks and Lyche2009), VIL (adolescents issus de classes populaires, Villejuif, 1975) et BRU (ouvriers parisiens, 1912–1913), note par exemple « le rôle dominant des facteurs diastratiques et diaphasiques sur les facteurs proprement diachroniques » : diastratiques, dans le sens où les professionnels de la parole publique que sont les personnalités politiques (HPOL1) liaisonneraient plus que les ouvriers (BRU), les adolescents issus de classes populaires (VIL) ou plus généralement les locuteurs d’une interaction spontanée (PFC) et diaphasiques, dans le sens où ils liaisonneraient pourtant autant que des locuteurs en lecture (PFC), en opposition aux locuteurs d’interactions plus spontanées (VIL, BRU, conversations PFC). On pourrait encore voir là de la variation diamésique, avec une influence de l’écrit sur les productions orales, car pour reprendre un des arguments avancés par Koch et Oesterreicher (Reference Koch and Oesterreicher2001: 586), la parole politique est souvent préparée.
CORPUS DE TOPS 1
Nous avons constitué un corpus à partir de chansons ayant accédé à la première place de classements musicaux réalisés pour la France entre 1956 et 2017. Le choix de ces chansons nous a semblé pertinent en tant qu’input linguistique pour les auditeurs français et représentatif du champ musical d’une période donnée. Le classement du Top 50 a débuté en 1984, il est ainsi aisé d’avoir accès aux titres classés numéro un depuis cette date.Footnote 5 Il a tout d’abord comptabilisé seulement les singles physiques avant de prendre également en compte, dès 2016, avec donc un certain délai, les téléchargements et le streaming (limité aux écoutes en streaming payantes à partir de 2018 ; cf SNEP, 2019). Avant 1984, il faut se contenter d’estimations et les titres sélectionnés pour cette période dans notre corpus ne le sont qu’à titre indicatif. Notons que ces classements ne comptabilisent ni la diffusion dans les médias, ni le prêt entre particuliers ou en bibliothèque, ni la copie, ni le téléchargement illégal ou encore la revente, classements qui peuvent aussi refléter des enjeux économiques plus qu’un réel engouement de la part des consommateurs. Nos trois critères de sélection étaient les suivants : que ce soit une chanson (sont ainsi exclus les sketchs humoristiques), ayant été classée top 1 et qu’elle soit francophone ou partiellement francophone. Ce dernier choix est motivé par l’absence de liaisons dans les autres langues ayant accédé à cette position (telles l’anglais, le latin, le créole guadeloupéen ou encore le douala sans compter les titres uniquement instrumentaux). Une chanson peut contenir de trois vers en français pour la chanson Bad Romance de Lady Gaga (2010 [2009]) à tous ses vers en français. Étant donné que notre intérêt porte principalement sur ce qui est proposé aux auditeurs, nous n’avons exclu ni les chansons mixtes, ni celles de chanteurs n’étant pas francophones natifs.
Le corpus ainsi constitué a une durée totale de 21h 27min (temps musicaux et alternance codique compris), comptabilise 368Footnote 6 chansons, 107 550 mots,Footnote 7 5914 contextes de liaison possibles pour 3252 liaisons réalisées.Footnote 8 Nous considérons comme site potentiel de liaison une frontière externe de mots entre tout mot ayant une consonne finale graphique non prononcée et potentiellement de liaison (M1) et un mot à initiale vocalique à l’oral (M2),Footnote 9 quel que soit le contexte prosodique, syntaxique de l’énoncé, le statut lexical ou encore morphosyntaxique des mots 1 et 2. Même si cela provoquera pour bon nombre de corpus un bruit important, toute comparaison est alors permise, même avec les corpus les plus atypiques : corpus acquisitionnels, de locuteurs non natifs, d’écrits oralisés ou encore corpus de chansons traditionnelles. Nous ne pouvons que recommander d’engager une réflexion sur nos pratiques et de rendre publics à la fois nos corpus, nos jeux de données étudiés et de présenter dans nos résultats les effectifs et non pas seulement des pourcentages afin de voir émerger des méta-analyses cohérentes.
Notre corpus peut être vu comme socialement situé car de par leur image publique nous pouvons facilement obtenir des informations d’ordre sociolinguistique sur les chanteurs et sur leur place dans le champ musical. Même s’ils ne constituent pas une population sociolinguistique équilibrée, notre corpus étant exhaustif, elle est néanmoins socialement représentative. Nous n’avons alors pas eu à constituer un échantillon représentatif de la communauté des chanteurs francophones, ni du champ musical français (on peut noter dans notre corpus des chansons relevant de plusieurs genres musicaux : chansons d’amour, chansons de foot, rap…), étant donné que nous avons à notre disposition la population totale visée, soit l’ensemble des titres numéro un, sur une période temporelle précise.
Quelques protagonistes (Johnny Hallyday > Mylène Farmer > Dalida = Michel Sardou > Claude FrançoisFootnote 10 ) cumulent les titres numéro un (18% des titres dépendent de ces cinq chanteurs ; 72/402Footnote 11 ) alors qu’un très grand nombre de chanteurs n’atteindra qu’une fois la première place du hit-parade (43% ; 173/402). Si tous nos sujets exercent le métier de chanteur, on trouve plus d’hommes (67% ; 270/403) que de femmes (33% ; 133/403), et la plupart des chanteurs étaient plutôt jeunes (78%, soit 276/354 ont dans la vingtaine ou la trentaine), avec une fourchette allant de 4 (Jordy avec Dur dur d’être bébé !, 1992 [1992]) à 65 ans (Johnny Hallyday avec Ça n’finira jamais, 2008 [Reference Hallyday2008]). Tous ne sont aussi pas nés en France et certains ne sont pas de langue maternelle française (comme Shakira, de langue maternelle espagnole, chantant Je l’aime à mourir, 2011 [2011]). Un bon nombre de chanteurs nés en France proviennent pour leur part de la région parisienne. Il est à noter que le lieu de naissance n’est pas toujours un critère pertinent, les chanteurs étant un groupe socio-culturel ayant une grande mobilité géographique, mais cette donnée est plus facilement disponible que par exemple le lieu de résidence lors de l’accession au top 1.
Le nombre de chansons par année varie d’une seule (2012) à treize chansons (2007), en fonction des autres titres en tête du hit-parade. Le nombre de contextes de liaison possibles variant de ce fait selon les années, nous avons arbitrairement décidé de regrouper les chansons par décennie pour notre étude micro-diachronique. La Figure 1 montre que la plupart des chansons ne font qu’une irruption brève en tête des charts (par exemple, uniquement une semaine pour 20% des chansons, soit 73/368), alors que seul un petit nombre réussira à s’y maintenir longtemps. Des chansons prégnantes pourraient davantage toucher leurs contemporains, et de la sorte certains contextes de liaison pourraient être mis en avant dans l’ambiance musicale d’une époque. On citera encore le cas problématique des chansons qui accèdent au top 1 bien après leur sortie et pour lesquelles la façon de liaisonner des chanteurs est prise en compte avec l’année d’accession au top 1 alors qu’elle est le produit d’une époque (par exemple, Je te promets de Johnny Hallyday, 2017 [Reference Hallyday1986], numéro un à la mort du chanteur en 2017), ou le cas des reprises ou référence à des chansons existant antérieurement où, par fidélité avec la chanson d’origine, les chanteurs peuvent adopter une façon de liaisonner qui n’est plus en phase avec leur époque (par exemple, Ah… si tu pouvais fermer ta gueule… de Patrick Sébastien, 2008 [Reference Sébastien2008] fait référence à la Marseillaise dans le vers allons [z] enfants ça sera notre hymne à nous).

Figure 1. Nombre de chansons selon la durée de conservation au top 1.
TRANSCRIPTION ET ANNOTATION DU CORPUS
Les chansons retenues ont été transcrites et alignées sur le son (vers par vers) à l’aide du logiciel CLAN (Computerized Language ANalysis, MacWhinney, Reference MacWhinney2000), utilisé à l’origine pour traiter des données acquisitionnelles. Afin de faciliter le repérage automatique des liaisons, seuls les vers en français ont été transcrits et en cas d’alternance codique au sein du même vers, les parties non francophones n’ont pas été conservées. Les transcriptions se fondent sur des paroles de chansons proposées par des internautes (notamment sur des sites tels que Lyricstranslate Footnote 12 ) adaptées au format CHAT (conventions de transcription et d’annotation de CLAN).
Plusieurs étapes ont été nécessaires en partant de ces transcriptions pour arriver vers des transcriptions sous le logiciel ELAN (EUDICO Linguistic Annotator, cf Max Planck Institute for Psycholinguistics, 2018 et Brugman et al., Reference Brugman, Russel and Nijmegen2004) avec pré-annotation automatique des liaisons. Le format XML des transcriptions facilite l’extraction des informations qui nous intéressent ainsi que des segments sonores associés. Comme on le voit dans la Figure 2, le logiciel propose une structuration plus maniable, avec un alignement temporel (segmentation au mot) et structurel (vers, liaison, partie du discours, lemme, métadonnées). Tout d’abord, les métadonnées ont été récupérées depuis les fichiers sources CLAN. Les transcriptions ont été converties au format .trs (logiciel Transcriber) grâce à l’outil TeiCorpo (cf MoDyCo, 2016 et Liégeois et al., Reference Liégeois, Etienne, Parisse, Benzitoun and Chanard2015). Ce format nous a permis d’utiliser le logiciel Jtrans pour aligner notre transcription sur le signal sonore (voir Cerisara et al., Reference Cerisara, Mella and Fohr2009) selon un découpage au niveau de séparateurs comme l’apostrophe, le tiret et l’espace sans distinction de frontière interne de mot. Ainsi nous obtenons aujourd’|hui mais aussi l’|arbre. Ce paramètre propre au logiciel n’est pas modifiable mais nous permet d’avoir un alignement optimal sur le son et un découpage en petites unités qui nous permettent de déterminer par la suite des contextes de liaison. À partir du résultat obtenu, nous avons pu créer une transcription au format .eaf (logiciel ELAN) en ajoutant une ligne d’annotation de la liaison pour chaque locuteur et en proposant des liaisons potentielles pour chaque contexte de liaison possible. Ces derniers sont repérés en fonction de critères définis pour chaque corpus : derniersFootnote 13 et premiersFootnote 14 caractères des mots, liste d’exclusion de certains M1 à consonne finale toujours prononcée (tels Dallas, short, verbes à terminaison en -ir), voire de M2, pas de liaison possible entre deux énoncés (ici entre deux vers). On peut choisir de délimiter les énoncés selon le découpage des fichiers sources (ce fut notre cas avec les fichiers CLAN) ou bien de considérer une pause de 800 millisecondes comme un changement de tour de parole (critère utile pour d’autres corpus oraux).Footnote 15 De plus nous avons annoté notre corpus en parties du discours (ou PoS pour parts of speech) et en lemmes alignés sur les mots via le logiciel Treetagger (cf Schmid, Reference Schmid1999) et en utilisant à nouveau l’outil TeiCorpo.

Figure 2. Structuration des fichiers ELAN.
Depuis ELAN ont ensuite été vérifiés manuellement à la fois les contextes de liaison préannotés (suppression du bruit) et les liaisons, préannotées par défaut comme non réalisées, ont été réannotées à l’aide d’un menu déroulantFootnote 16 sur une base perceptive. L’annotation des chants à l’unisson reste problématique, il a été nécessaire de trancher en fonction de ce qui était globalement perçu (les cas les moins clairs ont été annotés comme incertains). Enfin, ELAN permet des recherches sur corpus en ayant la possibilité de revenir facilement aux contextes de réalisation et de faire de premières statistiques, ou d’exporter les données dans un tableur.
En résumé, l’outil ici présenté, développé pour l’étude de la liaison, permet de préannoter automatiquement les contextes de liaison possibles à partir de transcriptions existantes. Leur vérification manuelle se fait en allant de contexte en contexte qui sont directement réécoutables. Cet outil nous semble prometteur pour faciliter des études futures, afin de traiter plus rapidement des données toujours plus importantes. Il reste à perfectionner, notamment en réfléchissant à une possible automatisation de l’obtention d’informations complémentaires absentes du codage actuel (nature de la consonne de liaison et réalisation de cette consonne) mais prises en compte dans d’autres systèmes d’annotation de la liaison (notamment PFC, cf Durand et al., Reference Durand, Laks and Lyche2009) : nombre de syllabes du M1, enchaînement, présence d’une pause, nasalité de la voyelle précédant les liaisons en [n].
LA LIAISON DANS UN CORPUS CHANTÉ
Globalement, les liaisons sont plus réalisées dans ce corpus de chansons (54,99% ; 3252/5914) que dans des interactions entre connaissances (PFC 44,11% ; 18760/42528),Footnote 17 ce qui serait caractéristique de productions distantes. Ceci n’est pas sans rappeler les taux plus élevés de réalisation observés en lecture (PFC : 62,16% ; 7723/12425).Footnote 18 L’ordre de fréquence des consonnes de liaison du corpus de tops 1 (en excluant la non-liaison) est le même que celui des conversations du corpus PFC (Tableau 1) : /z, n, t ʁ, p/, mais on observe, tout comme en lecture dans le corpus PFC, que la part des liaisons en /n/ est moins importante et celle des liaisons en /t/ plus importante.
Tableau 1. Fréquence des consonnes de liaison dans PFC et le corpus de tops 1

Cette analyse peut être affinée en observant plus en détail ce qui se produit au niveau de certaines liaisons variables. Avant de faire quelques observations, nous ferons deux remarques. Tout d’abord, les chiffres sont en réalité très difficilement comparables étant donné que les études précédentes, à part certaines études sur les locuteurs non natifs du français, ne tiennent pas compte des contextes morphosyntaxiques et lexicaux considérés comme impossibles. Dans les mêmes conditions, nos taux de réalisation pourraient encore être supérieurs aux taux ici présentés, puisque nous prenons en compte tous les contextes, même ceux où des liaisons n’ont jamais été notées. De plus, nous avons, pour le Tableau 2, présenté desrésultats différents pour le même corpus, PFC, selon la masse de données disponibles lors des deux analyses. Nous pouvons voir que même pour un corpus aussi massif que PFC, les effectifs semblent être encore trop petits pour obtenir des résultats fiables.
Tableau 2. Liaisons après le verbe être conjugué

Après le verbe être conjugué à la première personne du présent ou de l’imparfait de l’indicatif (Tableau 2), on peut notamment noter un taux de réalisation des liaisons élevé chez les chanteurs, comparé aux corpus déjà existants, surtout par rapport aux corpus variationnistes.
Après des adverbes polysyllabiques (Tableau 3), on notera que les chanteurs liaisonnent souvent après jamais (à 64%), ce que Laks (Reference Laks2009: 261) avait déjà constaté dans la parole politique, mais contrairement aux personnalités politiques, jamais après toujours (les effectifs sont trop restreints pour proposer une quelconque conclusion quant aux autres adverbes polysyllabiques). C’est surtout en comparant nos données à des productions plus spontanées que ce type de liaisons variables apparaît comme un moyen de se démarquer de productions relevant de la proximité.
Tableau 3. Liaisons après des adverbes polysyllabiques

DIACHRONIE DE LA LIAISON DANS LES CHANSONS
Contrairement aux études diachroniques antérieures sur la liaison, pour notre corpus de titres ayant accédé à la première place de classements musicaux, la diminution du taux de liaisons réalisées est visible, liaisons variables comme invariables confondues. Entre la première décennie et la dernière, on passe en effet de 68% de liaisons réalisées à 44% (annotation ‘x’, Figure 3 : 1956–1966 : 68% (644/950), 1967–1976 : 64% (615/959), 1977–1986 : 60% (492/824), 1987–1996 : 54% (375/699), 1997–2006 : 47% (613/1313), 2007–2017 : 44% (513/1169)). La chute du taux de liaison semble s’effectuer principalement au détriment de liaisons en /z/ et /t/, consonnes de liaisons connues pour être liées à des cas de liaisons variablesFootnote .

Figure 3. Evolution de la réalisation des liaisons dans les tops 1.
En distinguant les liaisons invariables (selon les propositions de Côté, Reference Côté2017 : déterminant + adjectif/nom, proclitique + proclitique/verbe, verbe + enclitique et en + X), qui sans surprise, sont stables (en moyenne réalisées à 95%), des liaisons variables, on observe que ces dernières chutent de façon régulière de 51% (316/950) à 18% (145/1169) entre la première et la dernière décennie, pour atteindre des taux proches de ceux observés dans la langue quotidienne (21,39% (n = 389) pour le corpus des ESLO ; Dugua et Baude, Reference Dugua and Baude2017: 49 et 19% (4296/22568) pour PFC ; Barreca, Reference Barreca2015: Annexe 2). Nous nous alignons sur les observations de Laks (Reference Laks2009) : le changement diachronique peut provenir de glissements diaphasiques, diastratiques ou encore diamésiques. Ici, le changement en cours dans les chansons, à première vue diachronique, semble relever d’un alignement progressif de la langue chantée sur la langue parlée, les chansons passant de la distance à la proximité. Ceci serait à vérifier pour d’autres phénomènes linguistiques caractéristiques de productions distantes, en observant par exemple l’évolution du taux de réalisation du il à valeur impersonnelle ou du ne de négation.
Il y a tout lieu de penser que ces changements affectent des constructions spécifiques, de façon plus ou moins visible. On peut par exemple regarder ce qui se passe pour les liaisons après est (Tableau 4), où un changement semble en cours depuis les trois dernières décennies ou encore après les prépositionsFootnote 20 (Tableau 4).
Tableau 4. Diachronie de la liaison dans deux constructions : est + X et PRP + X

C’est donc dans des contextes spécifiques, morphosyntaxiques ou lexicaux et à différents niveaux d’analyse qu’il semble falloir aller chercher une explication à l’évolution diachronique du taux de liaison global. Les liaisons variables dans de tels contextes rendent les productions étudiées distantes, cependant en diachronie certaines de ces liaisons sont moins produites ce qui rend les chansons actuelles plus proches de réalisations authentiques en matière de liaison.
CONCLUSION
Le corpus que nous avons développé est le premier pour l’étude de la liaison à être constitué de chansons issues de l’industrie du disque. Il vient également apporter un éclairage nouveau à l’étude diachronique de la liaison, pour laquelle on ne disposait que de données de locuteurs des villes de Tours et d’Orléans ainsi que de personnalités politiques. Notre corpus est temporellement clos sur la période étudiée et de fait, nous avons accès à des sujets qui ne sont pas équilibrés comme dans un corpus variationniste et à une population (les chansons) de la même façon non équilibrée en termes de genres musicaux. Nous avons pris le temps de lister ses limites afin d’aborder nos résultats avec la prudence nécessaire. Nous avons également présenté un outil prometteur pour traiter des corpus d’étude de la liaison plus rapidement qu’avec un repérage des contextes et une annotation des liaisons manuels, même s’il nous reste à affiner notre codage.
Les liaisons dans notre corpus de tops 1 sont globalement plus réalisées que dans un corpus interactionnel, la part des liaisons en /t/ y est supérieure et certaines constructions spécifiques, comme les liaisons après suis, étais ou jamais, semblent être caractéristiques de productions distantes (personnalités politiques, livres audio pour enfants). C’est surtout dans sa dimension diachronique que notre corpus révèle sa transition d’une mise en scène plutôt distante, avec l’utilisation de liaisons plus rares dans des constructions spécifiques, à une proximité croissante. De 1956 à 2017, le taux global de liaison a en effet diminué de façon importante, ce qui n’avait jamais été noté même chez des locuteurs professionnels, ce qui est évidemment imputable aux seules liaisons variables. Des corpus tels que le nôtre ont pu amener certains linguistes à parler de chute de la liaison en français contemporain. Nous avons montré que celle-ci se fait à travers des constructions spécifiques, synonymes de distance, et à divers niveaux d’analyse. La convergence progressive de la langue chantée vers la langue parlée dans les tops 1 sur la période étudiée nous semble principalement illustrer une variation diaphasique moindre au fil du temps.
Notre corpus reste limité par sa taille. Étant exhaustif, il pourrait être agrémenté au fil des années avec les nouveaux titres accédant en tête des charts, voire être étendu aux tops 2 et 3. Nous avons présenté ici une étude relativement préliminaire, les pistes futures qui s’offrent à nous sont : la prise en compte des variables sociolinguistiques, des différents genres musicaux et notamment de questions de métrique et de text-setting, une distinction des temps chantés et déclamés, tout comme on pourrait s’intéresser aux trajectoires individuelles de chanteurs en particulier.
Abréviations
Voir les abréviations du jeu d’étiquettes de Treetagger, disponibles sur https://cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html.