1 INTRODUCTION
Cette étude examine la perception du contraste de nasalité vocalique en français standard. Nous présentons les résultats de deux expériences perceptuelles, l'une d'identification l'autre de discrimination, qui ont été menées d'abord sur des auditeurs francophones belges, et ensuite sur des auditeurs anglophones américains.
L'expérience 1 vise à établir les dimensions phonétiques (nasalité proprement dite; durée; timbre) sur lesquelles se fonde la décision linguistique d'identification nasale pour des auditeurs francophones. Quelles sont les conditions nécessaires et suffisantes pour qu'un auditeur francophone affirme avoir perçu une voyelle nasale? L'expérience 2 investigue une éventuelle intégration de ces dimensions phonétiques dans l'espace perceptuel des auditeurs francophones. Les différents indices phonétiques sont-ils automatiquement combinés à un stade précoce du traitement perceptuel? Ou bien la combinaison s'opère-t-elle à un stade ultérieur, lors du processus de décision proprement linguistique?
Afin d'évaluer le rôle joué par l'expérience linguistique dans les réponses des auditeurs francophones aux expériences 1 et 2, des expériences d'identification (expérience 3) et de discrimination (expérience 4) ont également été menées sur des auditeurs natifs de l'anglais américain.
L'objectif de la présente étude est (i) de décrire la perception du contraste de nasalité pour les voyelles du français standard, et (ii) de discuter les résultats obtenus dans le contexte plus global des phénomènes de covariation phonétique, qui sont régulièrement observés dans les langues du monde.
2 ETAT DE L'ART
2.1 Perception de la nasalité vocalique
Après une cinquantaine d'années de travaux sur le sujet, les mécanismes présidant à la perception de la nasalité vocalique demeurent encore mal compris, et ce principalement pour deux raisons. Tout d'abord, les effets acoustiques du couplage nasal proprement dit sont extrêmement complexes, et dépendent de multiples facteurs, tels que le degré de couplage (le rapport d'aires entre la voie nasale et la voie orale au port vélo-pharyngal), la configuration articulatoire (orale) de la voyelle, ainsi que les propriétés anatomiques des cavités nasales de chaque locuteur (House et Stevens, Reference House and Stevens1956; Fant, Reference Fant1960; Fujimura et Lindquist, Reference Fujimura and Lindqvist1971; Lindquist et Sundberg, Reference Lindqvist and Sundberg1976; Maeda, Reference Maeda, Huffman and Krakow1993; Dang et al., Reference Dang, Honda and Suzuki1996; Stevens, Reference Stevens1998; Engvall et al., 2006).Footnote 2 Ensuite, l'abaissement du voile du palais est souvent accompagné par d'autres ajustements articulatoires dont les effets acoustiques interagissent avec ceux de la nasalité proprement dite. L'implémentation phonétique du contraste phonologique de nasalité vocalique repose dans la plupart des langues sur un ensemble d'indices (p.ex. nasalité, mais aussi durée, timbre, etc.) qui nécessite un examen en profondeur, afin de déterminer non seulement la contribution spécifique de chaque indice, mais également les effets d'interaction, et finalement l'impact global de ces facteurs covariants sur l'acoustique et la perception du trait de nasalité.
En somme, l'acoustique de la nasalité est particulièrement complexe et le lien entre acoustique et perception n'est pas transparent, alors que les auditeurs, même non natifs, semblent traiter les voyelles nasales d'une langue comme une classe naturelle distincte des orales (Butcher, Reference Butcher1976; Beddor et Strange, Reference Beddor and Strange1982). Sur quelle(s) propriété(s) physique(s) s'appuie donc le percept de nasalité vocalique?
En ce qui concerne les corrélats perceptuels de la nasalité proprement dite (donc de l'ouverture du port vélo-pharyngal), plusieurs études ont souligné l'importance du degré de proéminence spectrale en basses fréquences. House et Stevens (Reference House and Stevens1956), Delattre (Reference Delattre1954, Reference Delattre1965) et Huffman (Reference Huffman1990, Reference Huffman1991) ont montré à partir de stimuli purement synthétiques qu'une réduction de l'amplitude et/ou une augmentation de la bande passante en F1 sont corrélées avec une augmentation (de 10 à 50%) des jugements de nasalité chez des auditeurs francophones et anglophones. Hawkins et Stevens (Reference Hawkins and Stevens1985) ont obtenu des résultats similaires en introduisant une paire pôle-zéro dans la région de F1 à des fréquences spécifiques à chaque timbre vocalique, dont l'effet acoustique global était de créer une proéminence à bande large en basse fréquence (interprétation proposée par Beddor, Reference Beddor, Huffman and Krakow1993). Maeda (Reference Maeda1982, Reference Maeda, Huffman and Krakow1993) a proposé de considérer la distance entre deux pics spectraux sous 1500 Hz comme une mesure du caractère diffus de l'énergie spectrale en basses fréquences, et donc de la nasalité. Malheureusement, cette mesure suppose de l'expérimentateur qu'il exclue a priori du calcul le F2 des antérieures, et elle n'est que très modérément corrélée avec les jugements de nasalité pour les voyelles postérieures fermées.
De façon plus générale, la manipulation de l'énergie dans la seule région de F1 est moins efficace à créer le percept de nasalité pour les voyelles postérieures. En fait, il est établi que par rapport aux orales, le spectre d'une nasalisée est plus aplati, et le niveau général d'énergie moins élevé, et ce à toutes les fréquences (Dickson, Reference Dickson1962; Bernthal et Beuckelman, Reference Bernthal and Beuckelman1977; Kent et al. Reference Kent, Liss, Philips and Bzoch1989; Delvaux et al., Reference Delvaux, Metens and Soquet2002; Delvaux, soumis). En effet, la théorie acoustique prédit l'apparition de paires pôle-zéro dues au couplage nasal dans l'ensemble du domaine fréquentiel (Fant, Reference Fant1960; Stevens, Reference Stevens1998). En particulier, la présence d'antirésonances dans la région spécifique de F3 a été régulièrement observée dans plusieurs travaux antérieurs (Bloomer et Peterson, Reference Bloomer and Peterson1955; Jha, Reference Jha1986; Kent et al., Reference Kent, Liss, Philips and Bzoch1989), et ce alors que le F2 des antérieures semble lui relativement bien préservé (Maeda, Reference Maeda1982; Delvaux et al., Reference Delvaux2004; Delvaux, soumis). Des études perceptuelles impliquant le recours à des voyelles naturelles modifiées spectralement ont d'ailleurs montré que la manipulation de l'énergie en hautes fréquences était nécessaire à la perception de la nasalité pour les voyelles fermées, antérieures et surtout postérieures (Hattori et al., Reference Hattori, Yamamoto and Fujimura1958; Takeuchi et al., Reference Takeuchi, Kasuya and Kido1975).
En ce qui concerne les ajustements complémentaires à l'abaissement du voile du palais dans la réalisation de la nasalité, ils sont de deux ordres, temporel et spectral. Certains de ces indices sont régulièrement observés en covariation avec les mouvements du voile du palais dans les langues du monde, tandis que d'autres semblent spécifiques à une langue ou à une variété de langue donnée.
Les modifications temporelles concernent tout d'abord la durée de la voyelle. Dans de nombreuses langues, les nasales sont intrinsèquement plus longues que les orales (Ruhlen, Reference Ruhlen, Ferguson, Hyman and Ohala1975; Greenberg et al., Reference Greenberg, Ferguson and Moravcsik1978). Toutes choses égales par ailleurs, les voyelles longues ont plus de chances d'être perçues comme nasales (p.ex. pour le français: Delattre et Monnot, Reference Delattre and Monnot1968), même pour des auditeurs natifs d'une langue où il n'y a pas de covariation entre nasalité et durée de la voyelle (Whalen et Beddor, Reference Whalen and Beddor1989). La perception de la nasalité peut également dépendre de l'évolution temporelle des mouvements du voile du palais, en particulier la synchronisation entre le geste vocalique et le geste d'ouverture vélique. Ainsi, les voyelles nasales du français méridional, du portugais, et, dans une moindre mesure, du français québécois, se caractérisent par une ouverture du port vélo-pharyngal retardée par rapport à l'attaque de la voyelle, même lorsque cette voyelle est consécutive à une consonne nasale pour laquelle le voile est déjà abaissé (Demolin et Teston, Reference Demolin and Teston1998; Delvaux, Reference Delvaux2006; Oliveira et Teixeira, Reference Oliveira and Teixeira2007). La dynamique des mouvements du voile contribue à l'identification de la nasalité vocalique chez les auditeurs portugais (Teixeira et al., Reference Teixeira, Vaz and Príncipe1999).
Les modifications spectrales induites par le couplage nasal (via l'introduction de paires pôle-zéro) influencent la perception du timbre vocalique, et en particulier de l'aperture. On a en effet constaté que la nasalité introduit une paire pôle-zéro vers 400 Hz, soit à une fréquence intermédiaire entre le F1 des voyelles fermées et celui des voyelles ouvertes. Ceci entraîne un déplacement du centre de gravité en basses fréquences (F1’), et, partant, du percept d'aperture; une fois nasalisées, les voyelles ouvertes sont perçues comme moins ouvertes, et les voyelles fermées comme moins fermées (pour l'anglais: Wright, Reference Wright, Ohala and Jaeger1986; Beddor et Hawkins, Reference Beddor and Hawkins1990). Dans de nombreuses langues du monde, l'aperture des voyelles nasales a continué à évoluer dans le même sens, ce qui a abouti à des modifications du degré d'aperture des nasales en production, à tel point que l'inventaire phonologique des nasales contient moins de distinctions d'aperture que l'inventaire phonologique oral (les voyelles ‘manquantes’ étant généralement d'aperture moyenneFootnote 3: Ruhlen, Reference Ruhlen, Ferguson, Hyman and Ohala1975). Dès lors, c'est la modification d'aperture qui supporte le percept nasal, et non plus l'inverse. En somme, la perception de la nasalité et de l'aperture vocalique interagissent de façon complexe, en partie dépendante de la situation spécifique à chaque langue (Kingston et Macmillan, Reference Kingston and Macmillan1995; Macmillan et al., Reference Macmillan, Kingston, Thorburn, Dickey and Bartels1999).
Enfin, la perception de la nasalité vocalique dépend du contexte phonologique. En contexte consonantique nasal, les auditeurs ont moins tendance à identifier une voyelle comme nasale (Kawasaki, Reference Kawasaki, Ohala and Jaeger1986; Krakow et Beddor, Reference Krakow and Beddor1991; Beddor et Krakow, Reference Beddor and Krakow1999). Il est probable qu'ils attribuent tout ou partie de la nasalité vocalique perçue à l'influence coarticulante des consonnes nasales voisines (Ohala, Reference Ohala1981, Reference Ohala, Perkell and Klatt1986). D'ailleurs, l'interaction perceptuelle entre aperture et nasalité vocalique semble bloquée en contexte nasal (Krakow et al., Reference Krakow, Beddor, Goldstein and Fowler1988; mais voir Macmillan et al., Reference Macmillan, Kingston, Thorburn, Dickey and Bartels1999, pour des résultats légèrement différents et une autre interprétation). Le poids respectif des différents indices contribuant à l'identification de phonèmes voyelles nasales est donc susceptible d'évoluer en fonction de l'environnement phonétique.
2.2 Le cas du français standard
Par rapport aux tendances décrites ci-dessus, le français standard occupe une position particulière, qui justifie une étude approfondie de la perception de la nasalité vocalique dans cette (variété de) langue, et fournit en retour une occasion unique d'investiguer les phénomènes de perception liés à la covariation de multiples indices dans la réalisation phonétique de certains contrastes phonologiques.
Examinons tout d'abord la façon dont le trait phonologique de nasalité vocalique est réalisé phonétiquement en français standard eu égard aux différentes dimensions citées ci-dessus, à savoir: la durée, l'énergie (en basses et hautes fréquences), le timbre de la voyelle, ainsi que leur modulation en fonction du contexte phonologique et du décours temporel. Premièrement, les voyelles nasales du français standard sont intrinsèquement longues, alors que les voyelles orales sont presque toujours brèvesFootnote 4, ce qui rend les nasales en moyenne plus longues que leurs homologues de l'inventaire phonologique oral (Delattre et Monnot, Reference Delattre and Monnot1968; Delvaux, Reference Delvaux2000, soumis). Ensuite, le niveau général d'énergie est moins élevé pour les nasales que pour leur correspondante phonologique oraleFootnote 5, avec un aplatissement spectral particulièrement marqué sous 1000 Hz (soit dans la région de F1, et de F2 pour les postérieures uniquement), ainsi qu'entre 2000 et 3000 Hz (soit dans la région de F3); par contre, l'énergie est mieux préservée entre 1000 et 2000 Hz, soit autour du F2 des antérieures (Maeda, Reference Maeda, Huffman and Krakow1993; Delvaux et al., Reference Delvaux, Metens and Soquet2002; Delvaux, Reference Delvaux2003, soumis).
En ce qui concerne le timbre, le résultat des multiples évolutions phonétiques qu'ont connu les voyelles nasales entre le 14e et le 20e siècle est un inventaire phonologique nasal assez particulier par rapport aux régularités observées dans les langues du monde, en ce sens que les voyelles nasales du français standard moderne sont toutes ouvertes ou semi-ouvertes: ɛ˜, œ˜, ɑ˜, ɔ˜ (Straka, Reference Straka1979; Morin, Reference Morin and Van Deyck1994). Depuis la seconde moitié du 20e siècle, plusieurs auteurs ont constaté que le timbre des nasales du français standard continue d'évoluer, et qu'elles s'éloignent de plus en plus de leur correspondante phonologique orale (Walter, Reference Walter and Van Deyck1994; Hansen, Reference Hansen1998). En première analyse, ces modifications articulatoires semblent relativement diverses: elles impliquent aussi bien les lèvres, que la position de la langue dans les dimensions fermé/ouvert et antérieur/postérieur (Brichler-Labaeye, Reference Brichler-Labaeye1970; Zerling, Reference Zerling1984; Bothorel et al., Reference Bothorel, Simon, Wioland and Zerling1986; Delvaux et al., Reference Delvaux, Metens and Soquet2002). En nous fondant sur une analyse de la littérature, ainsi que sur des données acoustiques et articulatoires prises sur des sujets francophones, nous avons récemment proposé de considérer que, globalement, l'évolution récente allait dans le sens d'un assombrissement du timbre vocalique des voyelles nasales (c'est-à-dire à un déplacement de l'énergie spectrale vers de plus basses fréquences), assombrissement relié le plus souvent à un abaissement de la fréquence de F2 dans le domaine acoustique, et à un arrondissement et/ou une rétraction de la langue dans le domaine articulatoire (Delvaux, soumis). En moyenne, F2 est 21% plus bas pour /ɛ˜, œ˜, ã que pour ɛ, œ, a/. Par contre, /ɔ˜/ a en moyenne un F2 de fréquence plus élevée que /ɔ/ (de 6%), mais d'intensité si faible (delta d'intensité entre F1 et F2: 8.2 dB en moyenne) que la nasale est en toute hypothèse plus sombre que l'orale correspondante. A notre connaissance, seul le français standard combine systématiquement nasalité vocalique et assombrissement du timbre.
Enfin, Delvaux (soumis) a constaté une modulation des différents indices acoustiques signalant la nasalité phonologique en fonction du contexte phonologique. En contexte oral (cv vs. c), le delta d'énergie entre voyelles phonologiques orales et nasales est maximal. En contexte nasal (nvn vs. nv˜), les différences d'énergie sont moins marquées (le port vélo-pharyngal est d'ailleurs modérément ouvert pour les orales dans les items nvn), tandis que les différences en termes de fréquences formantiques sont maximales, ce qui suggère un plus grand recours aux ajustements articulatoires complémentaires à l'abaissement du voile du palais pour les nasales dans les items n. Nasales et orales phonologiques sont donc nettement distinctes en production de la parole, et ce même si l'orale est nasalisée par coarticulation en contexte nasal.
En somme, la production des voyelles nasales phonologiques en français standard s'inscrit dans les tendances généralement observées dans les langues du monde, notamment en ce qui concerne la covariation de l'abaissement du voile du palais avec d'autres modifications spectrales et temporelles. Le recours à de multiples articulations covariantes permet d'asseoir la robustesse d'un contraste phonologique, notamment dans différents contextes prosodiques et phonologiques (Repp, Reference Repp1982; Diehl et Kingston, Reference Diehl and Kingston1991; Maddieson, Reference Maddieson2006). La modulation de la covariation en fonction du contexte phonologique observée en production de la parole suggère une telle analyse pour le contraste orales/nasales en français standard, mais cette hypothèse n'a pas reçu à ce jour de validation perceptuelle. La particularité du français standard par rapport aux autres langues du monde tient principalement à l'usage d'une modalité covariante spécifique, à savoir l'assombrissement du timbre des nasales par rapport aux orales correspondantes, qui se manifeste le plus souvent par un abaissement de la fréquence de F2. Il reste cependant à établir, en perception, qu'avec un F2 légèrement plus élevé mais nettement moins intense, la voyelle /ɔ˜/ est également plus sombre que sa correspondante phonologique orale /ɔ/.
L'assombrissement du timbre n'est qu'une des multiples dimensions phonétiques le long desquelles les nasales étaient susceptibles d'évoluer tout en maintenant une distinctivité maximale par rapport aux orales correspondantes, notamment en contexte nasal. Néanmoins, certaines études ont suggéré que lors de la production d'une voyelle antérieure nasalisée, une paire pôle-zéro nasale est introduite dans la zone fréquentielle originellement dédiée à F2 (pôle oral), ce qui aboutit à une fusion perceptuelle, sinon acoustique des deux pôles oral et nasal en un seul pic, dont la fréquence est inférieure au F2 de la voyelle orale antérieure (Wright, Reference Wright, Ohala and Jaeger1986). Dans ce cas, on peut considérer que l'abaissement du voile du palais a pour conséquence automatique de diminuer légèrement le F2 d'une voyelle antérieure, et que la diminution massive observée en français standard est un renforcement et/ou une généralisation (aux voyelles postérieures) de cette tendance. Deux écoles s'affrontent, en effet, quant au rôle joué par la covariation phonétique, et aux mécanismes perceptuels qui y sont liés. La première considère que la covariation est soit: (i), le plus souvent, due à des liens mécaniques entre articulateurs, dont les conséquences acoustiques sont aisément (Ohala, Reference Ohala1981, Reference Ohala, Perkell and Klatt1986), voire automatiquement (Fowler, Reference Fowler1996), retranchées du signal par l'auditeur; soit (ii) dans certains cas, constituée sur la base de dimensions phonétiques qui sont complètement indépendantes au point de vue auditif, mais dont la covariation (en production et en perception) est acquise au cours de l'apprentissage de la langue (Beddor et Krakow, Reference Beddor and Krakow1999). D'autres chercheurs ont au contraire proposé que certaines langues (ou dialectes) sélectionnent des dimensions covariantes parce que leurs effets acoustiques se rehaussent mutuellement, et fournissent donc un avantage a priori, en perception, lié aux propriétés intrinsèques du système auditif humain (Diehl et al., Reference Diehl, Kluender, Walsh and Ainsworth1990; Kingston et Diehl, Reference Kingston and Diehl1994; Macmillan et al., Reference Macmillan, Kingston, Thorburn, Dickey and Bartels1999; Holt et al., Reference Holt, Lotto and Kluender2001). L'étude présentée ici vise à contribuer au débat sur ces questions – qui sont d'un grand intérêt pour la théorie phonétique – en examinant le cas de la covariation perceptuelle entre nasalité et diminution fréquentielle de F2 en français standard.
3 NOTRE ÉTUDE
L'objectif de cette étude est à la fois descriptif et explicatif. Tout d'abord, nous présentons les résultats d'une expérience perceptuelle d'identification (expérience 1), qui vise à établir les dimensions phonétiques le long desquelles s'établit le contraste de nasalité vocalique en français standard. Les études antérieures menées en production de la parole nécessitent une validation perceptuelle, dans la mesure où les régularités observées en production ne garantissent pas que ces propriétés constituent bel et bien les indices perceptuels sur lesquels se fondent les auditeurs lorsqu'ils doivent décider si une voyelle est orale ou nasale. Trois dimensions acoustiques sont ici considérées: (i) la proéminence spectrale dans les régions de F1 et F3; (ii) le timbre clair/sombre de la voyelle, indicé par la fréquence de F2; (iii) la durée de la voyelle. Trois contrastes orale-nasale sont ici étudiés, /a-ɑ˜/, /ɛ-ɛ˜/, /ɔ-ɔ˜/,Footnote 6 en contexte oral (items cvc) et en contexte nasal (nvc), avec pour objectif d'établir les corrélats perceptuels de la nasalité vocalique en français standard, toutes voyelles et tous contextes confondus.
Au-delà de la description proprement dite, l'objectif de cette étude est de contribuer à une meilleure compréhension des mécanismes présidant à la covariation phonétique. La contribution perceptuelle respective des indices liés à l'énergie, au timbre et à la durée sera examinée en détail dans l'expérience 1, en particulier en fonction du contexte phonologique. Nous avons suggéré ci-dessus que la covariation phonétique entre les effets acoustiques de l'abaissement du voile et ceux des articulations complémentaires pourrait avoir pour fonction d'assurer la robustesse du contraste phonologique entre orales et nasales en français standard, et ce particulièrement en contexte nasal où les voyelles phonologiques orales peuvent être nasalisées phonétiquement par coarticulation. L'expérience 1 permettra de tester l'hypothèse selon laquelle la fréquence de F2 est la dimension phonétique la plus utilisée par les auditeurs lorsqu'ils doivent identifier une voyelle nasale en contexte nasal.
Nous présentons ensuite les résultats d'une expérience perceptuelle de discrimination (expérience 2), effectuée sur les mêmes auditeurs et les mêmes stimuli que l'expérience 1 (pour plus de détails, voir les sections suivantes). L'objectif ici est d'investiguer la sensibilité auditive des auditeurs aux différentes dimensions covariant dans la réalisation de la nasalité vocalique en français standard, en dehors de toute stratégie de décision linguistique éventuellement impliquée par la tâche d'identification de mots de l'expérience 1. L'expérience 2 permet de déterminer si les dimensions covariantes sont indépendantes perceptuellement, mais éventuellement combinées par les auditeurs lors de l'identification suite à leur expérience de cette covariation en français standard, ou bien si les dimensions covariantes sont intégrées à un stade précoce du traitement perceptuel, de sorte que les auditeurs combinent automatiquement l'information en provenance de ces deux sources. Dans ce dernier cas seulement, on peut proposer que le français standard a retenu des articulations covariantes dont les effets acoustiques se rehaussent mutuellement dans la perception des auditeurs (Kingston et Diehl, Reference Kingston and Diehl1994).
Enfin, les résultats obtenus au cours des expériences 1 et 2 nous amèneront à nous interroger sur le rôle joué par l'expérience linguistique dans les réponses des auditeurs francophones. Dès lors, nous présenterons les résultats d'une étude préliminaire réalisée sur les mêmes stimuli auprès d'auditeurs anglophones américains (expériences 3 et 4). Sans posséder de voyelles nasales phonologiques, l'anglais présente une tendance nette à la nasalisation contextuelle des voyelles orales, mais les auditeurs nord-américains ne sont pas familiers avec une covariation entre nasalité et assombrissement du timbre vocalique.
4 STIMULI
Les stimuli sont communs à toutes les expériences. Il s'agit d'items C1VC2, où V est une voyelle synthétique appartenant à un continuum orale/nasale, et C1 et C2 sont des consonnes prononcées en parole naturelle (les mêmes pour tous les stimuli d'un même continuum). La synthèse a été réalisée à l'aide du logiciel KlattExplorerFootnote 7, dont le module de synthèse reproduit les 60 paramètres du synthétiseur de Klatt (Reference Klatt1980).
Chaque voyelle synthétique a une position déterminée dans un espace à deux dimensions de cinq pas chacune (voir Figure 1). Soient (x,y), les coordonnées de la voyelle dans l'espace des stimuli ainsi défini. La voyelle (1,1) est le prototype de l'orale, et la voyelle (5,5) le prototype de la nasale. En abscisse est représenté le principal corrélat acoustique des articulations complémentaires, c'est-à-dire que l'on fait varier le timbre de la voyelle sur un axe clair-sombre en diminuant la fréquence de F2 depuis celle de l'orale de référence (1,y) jusqu'à celle d'une voyelle orale plus sombre/postérieure (5,y). En ordonnée sont représentés les effets acoustiques de l'abaissement du voile du palais via la manipulation de la proéminence spectrale: entre les orales (x,1) et les nasalisées (x,5), on procède à une augmentation de la bande passante en F1 (de 100 à 250 Hz), et en F3 (de 100 à 500 Hz), d'une ampleur telle que le troisième formant finit par disparaître.Footnote 8
Trois types de continuum ont été construits: /a-ɑ˜/, /ɛ-ɛ˜/, /ɔ-ɔ˜/. Les voyelles d'un même continuum ont toutes la même valeur pour F1, soit 750 Hz pour /a-ɑ˜/, et 550 Hz pour /ɛ-ɛ˜/ et /ɔ-ɔ˜/. F2 varie par pas de 50 Hz, entre 1150 Hz et 950 Hz pour /a-ɑ˜/, entre 1750 Hz et 1550 Hz pour /ɛ-ɛ˜/, et entre 950 Hz et 750 Hz pour /ɔ-ɔ˜/. Pour chacun des timbres, il y a quatre continuums distincts, en fonction de la durée de la voyelle, brève (120 ms) ou longue (180 ms), et du contexte phonologique, nasal (C1= [m], C2= [t]), ou oral (C1= [t] pour /a-ɑ˜/ et /ɛ-ɛ˜/; C1= [k] pour /ɔ-ɔ˜/Footnote 9; C2= [t] dans tous les cas). Le nombre total de stimuli s'élève à 300, à savoir 12 continuums de 25 items C1VC2..
En ce qui concerne l'évolution temporelle des paramètres en cours de voyelle, elle suit la dynamique observée en production de la parole en français standard (Delvaux, soumis):
• une courte période de 20 ms est consacrée en début et en fin de voyelle aux transitions formantiques;
• les paramètres liés à la nasalisation (réduction de F2, diminution de la proéminence spectrale en F1 et F3) atteignent leur valeur-cible après 40 ms, quelle que soit la durée de la voyelle;
• pour les items NVC, la première partie de la voyelle est contextuellement nasalisée (par réduction de la proéminence spectrale): pour les voyelles (x,1) (Figure 1), les bandes passantes en F1 et F3 (B1 et B3) sont respectivement de 250 Hz et 500 Hz en début de voyelle et atteignent leur valeur-cible (respectivement de 100 Hz et 90 Hz) en milieu de voyelle, soit à 60 ms (voyelles brèves) ou à 90 ms (voyelle longues);
• tous les stimuli connaissent une évolution temporelle de la fréquence fondamentale (contour descendant).
Le détail des valeurs prises par les différents paramètres en fonction du temps est donné dans le Tableau A dans l'appendice pour le continuum /a-ɑ˜/.
4 EXPÉRIENCE 1: IDENTIFICATION
4.1 Matériel et méthode
En tout, 18 auditeurs ont participé à l'expérience 1, répartis en trois groupes de six sujets, un groupe par timbre vocalique. Il s'agit d'étudiants de l'Université Libre de Bruxelles âgés de 18 à 22 ans, tous Belges francophones, ayant le français pour unique langue maternelle.
Chaque auditeur a effectué la tâche d'identification successivement pour quatre continuums (CVC brèves, CVC longues, NVC brèves, NVC longues), le tout réparti sur deux sessions expérimentales de 1h30. La tâche consistait à répondre à une question à choix fermé du type: «Quel mot avez-vous entendu? ‘motte’ ou ‘monte’?», en cliquant sur le mot adéquat apparu à l'écran. Les deux mots proposés à l'auditeur dans chaque cas sont donnés dans le Tableau 1.
Au cours de la phase d'entraînement, les six stimuli situés aux deux extrémités du continuum orale/nasale, (1,1), (1,2), (2,1), (4,5), (5,4), et (5,5), ont été présentés chacun trois fois en ordre aléatoire. Après chaque réponse, un feedback était donné, qui permettait à l'auditeur de comparer sa réponse avec la réponse attendue, p.ex. ‘tête’ pour (1,1), (1,2), (2,1), et ‘teinte’ pour (4,5), (5,4), (5,5). Le feed-back avait ici pour principale fonction d'assurer à l'expérimentateur que les auditeurs avaient bien compris les consignes. Durant la phase de test, les 25 stimuli d'un même continuum ont été présentés chacun 20 fois, dans un ordre aléatoire et sans feedback.
4.2 Résultats
La figure 2, la figure 2 et la figure 3 donnent les résultats de l'expérience d'identification, respectivement pour les continuums /a-ɑ˜/, /ɛ-ɛ˜/ et /ɔ-ɔ˜/. Ces figures représentent pour les quatre conditions étudiées (CVC brèves, CVC longues, NVC brèves, NVC longues) l'évolution de la proportion de réponses ‘nasale’ (‘Pn’) en fonction de la valeur du stimulus le long des deux dimensions acoustiques: proéminence spectrale autour de F1 et F3 (‘Pro’) et fréquence de F2 (‘F2’). Pour chacun des 25 stimuli d'un continuum, la proportion de réponses ‘nasale’ est représentée sous la forme d'une boite à moustaches, qui fournit un résumé statistique des 6 proportions individuelles de réponses ‘nasale’ calculées chacune sur la base des 20 présentations du stimulus concerné. Les courbes, dites ‘fonctions d'identification’, ont été obtenues par mise en correspondance des données (proportions individuelles de réponses ‘nasale’) avec une sigmoïde à l'aide du logiciel Prism (http://www.graphpad.com). Il y a cinq fonctions d'identification par graphe, qui correspondent chacune à un niveau de fréquence de F2.
Dans leur ensemble, les fonctions d'identification illustrent le fait que les auditeurs utilisent l'information en provenance des deux dimensions acoustiques principales F2 et Pro lorsqu'ils jugent de la nasalité d'une voyelle. Une voyelle dont on a réduit la proéminence spectrale au maximum sans modifier la fréquence de F2 (1,5) n'est identifiée comme nasale que dans moins de la moitié des cas (taux moyen d'identification nasale: 0.40). La réduction de la fréquence de F2 est une condition tout aussi nécessaire à l'identification correcte d'une nasale par nos auditeurs. En effet, lorsque les deux dimensions sont combinées, les performances des auditeurs sont excellentes. Le taux moyen d'identification nasale est de 0.03 pour les stimuli (1,1) et de 0.94 pour les stimuli (5,5), tous timbres, durées et contextes confondus. Ceci signifie que les deux dimensions acoustiques sélectionnées sont à la fois nécessaires et suffisantes à l'identification de la nasalité pour les voyelles du français standard.
Les figures 2 à 4 font également apparaître que la proportion de réponses ‘nasale’ varie en fonction du continuum considéré, du contexte oral ou nasal, et dans une moindre mesure, de la durée de la voyelle. Une analyse de variance univariée (ANOVA) a été effectuée afin de juger de la significativité des variations observées. La variable dépendante était la Proportion (individuelle) de réponse ‘nasale’ (Pn), et les variables indépendantes étaient le Timbre (T: /a-ɑ˜/; /ɛ-ɛ˜/; /ɔ-ɔ˜/), le Contexte (C: oral; nasal), la Durée (D: brèves; longues), la fréquence de F2 (F2: 5 niveaux); et la Proéminence en F1/F3 (Pro: 5 niveaux). Les résultats sont donnés dans le Tableau 2.
Les résultats de l'ANOVA indiquent que les variables de Timbre, Contexte, Durée, F2 et Pro induisent toutes une variation significative dans la proportion de réponse nasale, seules et en interaction. L'interaction significative D*C*T représente le fait que la longueur a tendance à favoriser une réponse ‘nasale’ (pour F2 et Pro > 2) pour le continuum /ɔ-ɔ˜/, ce qui n'est vrai que dans une moindre mesure pour les continuums /ɛ-ɛ˜/ (contexte oral), et /a-ɑ˜/ (contexte nasal) (voir figures 2 à 4). Les interactions significatives F2*T et Pro*T rendent compte du fait que le poids respectif des deux dimensions acoustiques principales (diminution de F2 et réduction de la proéminence en F1/F3) dans la décision d'identification dépend du timbre de la voyelle. Le taux d'identification nasale dépend avant tout du degré de proéminence en F1/F3 pour les continuums /ɛ-ɛ˜/Footnote 10 (Figure 3). Pour les deux autres continuums, la fréquence de F2 joue aussi un rôle essentiel, surtout pour /ɔ-ɔ˜/ (Figure 4). Par ailleurs, l'interaction significative C*F2*Pro signale que, tous timbres confondus, la décision d'identifier une voyelle comme nasale, lorsqu'elle est en contexte nasal, repose plus sur sa valeur pour F2 que sur son degré de proéminence en F1/F3. Les indices acoustiques liés à l'abaissement du voile du palais sont moins utilisés par l'auditeur lorsque la voyelle est susceptible d'être nasalisée par l'effet du contexte phonologique.
5 EXPÉRIENCE 2: DISCRIMINATION
5.1 Matériel et méthode
Les 18 auditeurs de l'expérience 2 sont les mêmes que ceux ayant participé à l'expérience 1, soit six auditeurs par timbre vocalique. Dans les faits, l'expérience 2 s'est tenue avant l'expérience 1, de façon à éviter une contamination de la tâche d'identification sur la tâche de discrimination.
Le paradigme expérimental est une adaptation (Delvaux, Reference Delvaux2003) du paradigme développé par Macmillan et al. (Reference Macmillan, Kingston, Thorburn, Dickey and Bartels1999) pour étudier l'intégration perceptuelle de dimensions acoustiques à un niveau infra-linguistique via le recours à une tâche dite de ‘classification fixe’. Cette tâche consiste pour le sujet à apprendre à classer deux stimuli (ici deux sons de parole) difficilement discriminables dans deux catégories distinctes identifiées par des étiquettes non linguistiques (p.ex. ‘1’ et ‘2’).
Les différentes étapes du paradigme expérimental sont schématisées dans la Figure 5. Tout d'abord, un sous-ensemble de 3*3 stimuli (numérotés de 1 à 9 sur la Figure 5 et la Figure 6) a été sélectionné par continuum. A l'intérieur de ce sous-ensemble, toutes les paires de stimuli adjacents ont fait l'objet d'une tâche de discrimination, soit 20 tâches par continuum. Chaque tâche s'est déroulée en deux temps. Au cours de la phase d'entraînement, l'auditeur apprenait à assigner à l'un des stimulus la réponse ‘1’ et à l'autre la réponse ‘2’. Les stimuli de la paire testée étaient présentés un à la fois, chacun des deux stimuli étant présenté dix fois, le tout dans un ordre aléatoire, et un feedback était donné avec la réponse correcte: ‘1’ ou ‘2’. Au cours de la phase de test, les stimuli ont été présentés 40 fois chacun dans un ordre aléatoire, avec feedback, pour un total de 80 décisions par paire testée. Le feedback est présent tout au long de la session expérimentale parce que l'expérimentateur soumet ici délibérément les sujets à une tâche de discrimination difficile voire dans certains cas très difficile (on attend des performances imparfaites).
Ensuite, les performances à la tâche de discrimination ont été converties en un indice de sensibilité perceptuelle à la différence entre les stimuli de la paire, à savoir le d’ de la théorie de la détection du signal (Green et Swets, Reference Green and Swets1966; Macmillan et Creelman, Reference Macmillan and Creelman1991). On a introduit les différentes valeurs de d’ obtenues pour les six paires d'un même quadrant (voir Figure 5) dans une procédure de proportionnalisation multidimensionnelle individualisée (INDSCAL, Young et Hamer, Reference Young and Hamer1979; Young et Harris, Reference Young and Harris1990). Cette procédure permet de reconstruire géométriquement, à partir des données de l'expérience, un espace perceptuel correspondant chez chacun de nos auditeurs à l'espace acoustique des stimuli. La procédure de reconstruction géométrique est théoriquement justifiée parce que le d’ satisfait aux trois conditions de la distance (symétrie, séparation, inégalité triangulaire). Un sous-ensemble de 3*3 stimuli par continuum permet de reconstruire 4 quadrants A, B, C, D, au sein desquels chaque paire de stimuli a fait l'objet d'une tâche de discrimination (voir Figure 5).
Enfin, dans l'espace perceptuel commun à nos six auditeurs,Footnote 11 nous avons mesuré l'angle ɵ comme indiqué sur la Figure 5. L'angle ɵ donne une mesure de l'éventuelle interaction perceptuelle des dimensions acoustiques de F2 et Pro. Si l'angle ɵ équivaut à 90°, il n'y a aucune interaction entre les deux dimensions. Si l'angle ɵ est de 0° ou 180°, l'intégration est totale, négative (0°) ou positive (180°). Ainsi, pour l'exemple donné dans la Figure 5, l'angle ɵ (= 108°) indique une légère interaction positive entre les deux dimensions acoustiques initiales. Celle-ci rend compte du fait que les stimuli 2 et 6, pour lesquels les dimensions de F2 et Pro covarient positivement (le stimulus 6 présente à la fois une valeur élevée sur la dimension ‘F2’ et sur la dimension ‘Pro’ tandis que le stimulus 2 a une valeur faible sur les deux dimensions), sont séparés par une plus grande distance perceptuelle que les stimuli 3 et 5 (dits «négativement corrélés»), alors que la distance acoustique est la même dans les deux cas.
L'expérience 2 concerne les conditions CVC brèves (20 tâches) et CVC longues (20 tâches) pour les trois continuums /a-ɑ˜/, /ɛ-ɛ˜/ et /ɔ-ɔ˜/, ce qui a nécessité un total de quatre sessions expérimentales de deux heures par auditeur.
5.2 Résultats
Les résultats de l'expérience 2 sont résumés dans le Tableau 3. Les valeurs moyennes prises par l'angle θ sont données par timbre, par condition et par quadrant.Footnote 12 Le tableau donne également les moyennes des index de correspondance de ‘stress’ (formule 1 de Kruskal) et de ‘RSQ’ (proportion de variance expliquée), qui permettent d'évaluer dans quelle proportion le modèle géométrique rend compte des données sur lesquelles il est fondé (Young et Harris, Reference Young and Harris1990).
On constate que dans la toute grande majorité des cas θ est nettement supérieur à 90°. La moyenne générale est de 133° pour /a-ɑ˜/, de 132° pour /ɛ-/, et de 142° pour /ɔ-ɔ˜/. Les valeurs obtenues pour les index stress et RSQ indiquent que la correspondance est généralement bonne entre le modèle géométrique et les données. En moyenne, plus de 80% des données de d’ sont représentées par les distances dans l'espace perceptuel reconstruit par INDSCAL (RSQ moyen = 0.804, détails dans le Tableau 3).
La Figure 6 illustre les configurations géométriques typiquement obtenues pour des valeurs de ɵ élevées, soit en l'occurrence 133° (à gauche: /ɔ-ɔ˜/ CVC brèves quadrant A) et 180° (à droite: /ɔ-ɔ˜/ CVC longues quadrant C).
Lorsque ɵ est compris entre 90 et 180°, cela indique une tendance à l'interaction positive des deux dimensions acoustiques F2 et Pro. Dans le cas illustré sur la Figure 6 (gauche), les performances dans la tâche de discrimination ont été nettement supérieures pour la paire de stimuli 1-5 (d’ = 2.46) que pour la paire 2-4 (d’ = 0.61), alors que la distance acoustique était similaire. Le fait que les deux dimensions acoustiques interagissent perceptuellement implique que la valeur d'un stimulus le long d'une dimension n'est pas indépendante de sa valeur le long de l'autre. En l'occurrence, les quatre repères situés à égale distance des paires 1-2, 2-5, 4-5 et 1-4 montrent que les stimuli avec un F2 élevé (1-4) et ceux avec une forte proéminence spectrale (1-2) occupent une même région de l'espace perceptuel, région distincte de celle occupée par les stimuli à F2 bas (2-5) et proéminence spectrale réduite (4-5). En d'autres mots, un stimulus à faible proéminence spectrale a tendance à être automatiquement perçu comme ayant un F2 bas, et vice-versa.
Lorsque ɵ atteint 180° (Figure 6, droite), la configuration géométrique la plus fidèle aux données de d’ représente les quatre stimuli dans un alignement presque complet. Les stimuli ne se distinguent plus que le long d'une seule dimension perceptuelle ‘F2 + Pro’, dans laquelle sont positivement intégrées les deux dimensions acoustiques initiales. Le stimulus 8, qui a le F2 le plus bas et la proéminence spectrale la moins élevée est situé à une extrémité de l'espace perceptuel, et le stimulus 4 (F2 et Pro élevés) est situé à l'autre extrémité de l'espace. Les stimuli négativement corrélés 5 et 7 ont une position intermédiaire (presque équivalente) le long de la dimension perceptuelle intégrée.
Considérés dans leur ensemble, les résultats de l'expérience 2 indiquent donc que les dimensions F2 et Pro, qui covarient dans la réalisation du contraste oral/nasal pour les voyelles du français standard, sont intégrées à un stade précoce du traitement perceptuel, de sorte que les auditeurs combinent automatiquement l'information en provenance de ces deux sources, et ce préalablement à toute activité d'ordre linguistique. Les résultats de l'expérience 1 n'étaient pas, du moins pas uniquement, dûs à une stratégie de décision proprement linguistique. Deux interprétations concurrentes peuvent être proposées pour rendre compte de ce résultat. Soit le français standard a tiré parti d'une propriété générale, préexistante du système auditif humain, dont les modalités de fonctionnement impliqueraient automatiquement l'intégration de la fréquence de F2 avec la proéminence spectrale en F1/F3. Soit la sensibilité auditive des francophones a été modelée dans le sens d'une telle intégration perceptuelle, suite précisément à leur expérience linguistique de la covariation F2/Pro dans la réalisation des nasales du français standard. Afin de départager ces deux hypothèses, il est nécessaire d'investiguer plus avant, sur un grand nombre d'auditeurs d'horizons linguistiques divers. Dans les sections suivantes, nous présentons les résultats d'une première étude menée sur des auditeurs anglophones, dont la langue maternelle ne présente pas de covariation entre nasalité (Pro) et postériorisation (F2).
6 EXPERIENCES 3 ET 4: AUDITEURS ANGLOPHONES
6.1 Matériel et méthode
Les expériences 3 et 4 ont été réalisées sur deux groupes de respectivement huit et sept auditeurs anglophones, à partir de paradigmes expérimentaux comparablesFootnote 13 à ceux décrits ci-dessus pour les expériences 1 et 2. Les auditeurs étaient tous de nationalité américaine, étudiants à l'Université du Massachussetts, et ayant l'anglais pour langue maternelle. Ils n'avaient de connaissance active d'aucune autre langue que l'anglais, et aucune connaissance, même passive, du français.
Les stimuli étaient exclusivement constitués des continuums /ɔ-ɔ˜/. Le choix s'est porté sur ce continuum parce que contrairement aux voyelles antérieures, la théorie acoustique ne prédit pas de diminution, même minime, du F2 perçu suite à la nasalisation des voyelles postérieures (voir introduction). L'expérience 3 est une expérience d'identification sur les continuums /ɔ-ɔ˜/ CVC brèves, CVC longues, NVC brèves, NVC longues. L'expérience 4 est une expérience de discrimination sur toutes les paires de stimuli adjacents dans un sous-ensemble de 3*3 stimuli au sein des continuums /ɔ-ɔ˜/ CVC brèves et CVC longues.
6.2 Résultats
Sur le modèle de la Figure 4, la Figure 7 présente les courbes d'identification obtenues pour l'expérience 3. Le Tableau 4 donne les résultats de l'analyse de variance univariée effectuée sur les mêmes données, avec pour variable dépendante la Proportion individuelle de réponse ‘nasale’ (Pn) et pour variables indépendantes F2, Pro, la Durée et le Contexte.
La variable indépendante qui explique le mieux les variations dans les performances d'identification est la proéminence en F1/F3 (voir Figure 7). Ceci confirme les résultats de travaux antérieurs qui suggèrent que la proéminence spectrale est reliée à la sensation subjective de nasalité, indépendamment de la langue maternelle de l'auditeur (Huffman, Reference Huffman1990; Beddor et Hawkins, Reference Beddor and Hawkins1990; Beddor, Reference Beddor, Huffman and Krakow1993; Maeda, Reference Maeda, Huffman and Krakow1993). En contexte oral, les stimuli de valeur 1 pour Pro (forte proéminence spectrale en F1/F3) ont une Pn moyenne de 38%, contre 62% pour les stimuli de valeur 5 pour Pro (faible proéminence spectrale en F1/F3). Les interactions D*Pro et C*Pro expriment deux tendances largement attestées dans les langues du monde, à savoir que d'une part la nasalité est plus aisément perçue pour des voyelles longues, et que d'autre part la nasalité vocalique est moins facilement identifiable en contexte nasal (voir Figure 7).
Un résultat essentiel en ce qui concerne les hypothèses testées dans le cadre de ce travail est le fait que l'abaissement de la fréquence de F2 augmente significativement la proportion de réponses ‘nasale’ chez les auditeurs anglophones. L'interaction significative C*F2 marque le fait que ceci est essentiellement vrai en contexte oral: dans les items CVC, les stimuli de valeur 1 pour F2 (F2 élevé) ont une Pn moyenne de 42%, contre 55% pour les stimuli de valeur 5 pour F2 (F2 bas).
Le Tableau 5 donne les valeurs obtenues pour l'angle ɵ et les index de correspondance stress et RSQ pour les configurations géométriques dérivées par INDSCAL à partir des performances des auditeurs lors de l'expérience 4. Les valeurs moyennes de ɵ indiquent une interaction positive modérée (moyenne générale: 108°). Les valeurs de stress et de RSQ sont légèrement moins favorables que pour les auditeurs francophones, tout en restant largement acceptables. Ceci est probablement dû à un effet plancher. En effet, les valeurs obtenues pour d’ sont généralement très basses pour les anglophones (toutes paires considérées, d’ moyen = 0.12 vs. 1.18 pour les francophones), ce qui s'explique par le fait que les stimuli ont été construits en référence au français standard.Footnote 14 Néanmoins, les valeurs majoritairement supérieures à 90° obtenues pour ɵ sont adéquates, dans le sens où elles rendent compte du fait que les auditeurs anglophones ont été plus performants lorsque la tâche de discrimination impliquait des stimuli positivement corrélés (d’ moyen= 0.23) que négativement corrélés (d’ moyen= 0.13). Les résultats de l'expérience 4 tendent donc à confirmer que le gain en performances d'identification nasale apporté par l'abaissement du F2 de la voyelle en contexte oral (expérience 3) n'est pas dû à une stratégie de décision d'ordre linguistique – d'ailleurs, la postériorisation des voyelles nasalisées n'a jamais été observée en anglais américain – mais bien à un phénomène perceptuel d'ordre sensoriel, à savoir l'interaction positive de F2 et Pro chez les auditeurs anglophones.
7 DISCUSSION
7.1 Corrélats perceptuels du contraste de nasalité vocalique en français standard
Le premier objectif de cette étude était d'établir les dimensions phonétiques le long desquelles s'établit le contraste phonologique de nasalité pour les voyelles du français standard. Sur la base de travaux précédents menés en production de la parole (Delvaux et al., Reference Delvaux, Metens and Soquet2002; Delvaux, Reference Delvaux2003, soumis), trois types d'indices acoustiques ont été sélectionnés pour construire des continuums orale-nasale /a-ɑ˜/, /ɛ-ɛ˜/ et /ɔ-ɔ˜/: des indices liés au timbre, à l'énergie et à la durée de la voyelle. L'expérience 1 a montré que la combinaison d'un abaissement de la fréquence de F2 et d'une réduction de la proéminence spectrale en F1/F3 est à la fois nécessaire et suffisante à l'identification des nasales du français standard, tous timbres et tous contextes confondus. Lorsque la voyelle est longue, l'effet des deux autres variables est encore accentué, mais l'influence de la durée n'est significative que dans certains cas, et en tout état de cause son ampleur est sans commune mesure avec les effets des deux autres indices (voir figures 2 à 4).
Le succès obtenu dans notre poursuite des corrélats perceptuels du contraste vocalique oral-nasal peut se mesurer à l'empan des valeurs moyennes de Pn: d'une extrémité à l'autre du continuum, du stimulus (1,1) au stimulus (5,5), la proportion moyenne de réponses ‘nasale’ augmente de plus de 90%. A notre connaissance, aucune étude précédente concernant l'identification de la nasalité vocalique en français n'avait obtenu un empan égal ou supérieur à 60% (Delattre, Reference Delattre1954, Reference Delattre1965; Maeda, Reference Maeda, Huffman and Krakow1993).
Etant donné le succès obtenu, plusieurs points méritent d'être soulevés eu égard aux choix méthodologiques opérés ici.
Notons tout d'abord que la décision de réduire la proéminence spectrale via l'augmentation des bandes passantes en F1 et F3 permet une (presque totale) indépendance de l'expérimentateur par rapport au timbre de la voyelle. A l'opposé, les méthodes de synthèse de la nasalité qui impliquent l'insertion d'une paire pôle-zéro à une fréquence, et avec un écart, spécifiques, variables en fonction de la voyelle (par exemple: Hawkins et Stevens, Reference Hawkins and Stevens1985), ne permettent pas de progresser sur la voie des corrélats acoustiques de la nasalité qui sont communs à tous les timbres vocaliques, et qui font en sorte que les nasal(isé)es sont traitées par les auditeurs comme une classe naturelle, même dans une langue qui n'est pas leur langue maternelle (Butcher, Reference Butcher1976; Beddor et Strange, Reference Beddor and Strange1982). De ce point de vue, l'augmentation de près de 25% du taux d'identification nasale obtenue chez les auditeurs anglophones (en contexte oral) est tout-à-fait prometteuse, même si les valeurs obtenues (PN entre 0.38 et 0.62) témoignent d'un certain degré d'ambiguité des stimuli en termes de nasalité perçue.
Un second intérêt de la procédure utilisée ici pour synthétiser les effets acoustiques de l'abaissement du voile du palais concerne la réduction de la proéminence spectrale dans la zone de F3, qui accompagne systématiquement dans nos stimuli la réduction d'énergie en F1 (beaucoup plus classique, quant à elle: House et Stevens, Reference House and Stevens1956; Delattre, Reference Delattre1954, Reference Delattre1965; Hawkins et Stevens, Reference Hawkins and Stevens1985; Huffman, Reference Huffman1990, Reference Huffman1991). Rappelons d'emblée que nous n'avons pas testé les effets séparés de la réduction de la proéminence spectrale dans ces deux régions formantiques. On peut pourtant supposer que la réduction de la proéminence spectrale en F3 a permis d'accroitre le taux d'identification nasale, en particulier pour les voyelles postérieures. Nous obtenons en effet chez les auditeurs francophones une Pn moyenne de 0.45 pour les stimuli (1,5) des continuums /ɔ-ɔ˜/ (contexte oral), ce qui est certes inférieur aux moyennes obtenues dans les autres continuums, mais demeure nettement supérieur aux performances obtenues avec des voyelles postérieures lorsque l'énergie spectrale est manipulée dans la région de F1 uniquement (Delattre, Reference Delattre1965; Maeda, Reference Maeda, Huffman and Krakow1993).
Enfin, les résultats obtenus dans cette étude confirment la nécessité de compléter par des études perceptuelles les descriptions effectuées en production de la parole, aussi précises et complètes soient-elles. Ainsi, les voyelles nasales sont typiquement longues en français (Delattre et Monnot, Reference Delattre and Monnot1968, Delvaux, Reference Delvaux2000); pourtant, la durée ne constitue apparemment pas un indice perceptuel sur lequel se fondent systématiquement les auditeurs lorsqu'ils doivent décider si une voyelle est orale ou nasale. Les résultats de l'expérience 1 permettent également de valider l'analyse que nous avons précédemment développée sur la base des propriétés acoustiques présentées par les nasales postérieures du français standard (Delvaux, soumis). Nous avions en effet proposé de considérer /ɔ˜/ comme une voyelle plus sombre que sa correspondante phonologique orale. Même si le second pic spectral de /ɔ˜/ est de fréquence plus élevée, en moyenne, que le F2 de l'orale correspondante, il est d'une intensité si faible que l'essentiel de l'énergie acoustique est concentré en-deçà de la zone typiquement dédiée à F2. En somme, nous avions suggéré que pour la nasale postérieure, le F2 perçu équivaut à F1 (un F1 à large bande). Dans cette perspective, les continuums /ɔ-ɔ˜/ utilisés ici ont été construits sur le même principe que les continuums /a-ɑ˜/et /ɛ-ɛ˜/, c'est-à-dire que de (1,1) à (5,5), on procède à un abaissement fréquentiel de F2 en même temps qu'à une diminution de la proéminence en F1/F3. En conséquence, les stimuli (5,5) des continuums /ɔ-ɔ˜/ présentent une concentration de l'énergie acoustique à de très basses fréquences (sous 800 Hz), et sont donc des voyelles très sombres. Les résultats de l'expérience 1 démontrent clairement le succès d'une telle stratégie pour la synthèse de /ɔ˜/. C'est en effet pour le continuum /ɔ-ɔ˜/ que la dimension de F2 influence le plus la proportion de réponses ‘nasale’; le rôle de cette dimension est même ici prépondérant.
7.2 Covariation phonétique entre fréquence de F2 et proéminence spectrale en F1/F3
Les quatre expériences perceptuelles menées au cours de cette étude permettent de mieux comprendre les mécanismes présidant à la covariation entre plusieurs indices dans la réalisation phonétique du contraste phonologique de nasalité vocalique en français standard. En retour, le cas du français ouvre la porte à une compréhension plus globale des phénomènes de covariation phonétique, qui surviennent régulièrement dans les langues du monde (Repp, Reference Repp1982).
Tout d'abord, l'expérience 1 a montré que la covariation observée lors de la production des voyelles nasales du français standard joue un rôle essentiel quant à l'identification de ces voyelles par les auditeurs francophones. Delvaux (soumis) avait montré qu'au niveau articulatoire, l'ouverture du port vélo-pharyngé s'accompagne d'une postériorisation et/ou d'un arrondissement de la voyelle, ce qui se traduisait au niveau acoustique par une covariation entre une diminution du niveau d'énergie acoustique dans les régions de F1/F3 et une diminution de la fréquence de F2. L'expérience 1 a montré qu'au niveau perceptuel, l'identification de la nasalité vocalique en français standard repose sur la combinaison d'une réduction de la proéminence spectrale en F1/F3 et d'une modalité covariante spécifique à cette variété de langue, à savoir un assombrissement du timbre vocalique par rapport à l'orale correspondante. On peut s'interroger sur l'ampleur de l'effet de F2 sur la proportion de réponses ‘nasale’ dans les résultats de l'expérience 1. Il est possible que les auditeurs aient ici recouru plus massivement à l'information liée au timbre de la voyelle que s'ils avaient été en présence de nasales naturelles, et ce parce que l'information liée à la nasalité proprement dite n'était pas suffisante, soit quantitativement, soit qualitativement. Deux éléments permettent de douter d'une telle interprétation. Tout d'abord, le gain (en termes de Pn) amené par la manipulation de la proéminence spectrale en F1/F3 est égal, ou dans le cas de /ɔ-ɔ˜/, supérieur, à celui rapporté dans les travaux antérieurs sur la perception de la nasalité vocalique en français (Delattre, Reference Delattre1965; Maeda, Reference Maeda, Huffman and Krakow1993). D'ailleurs, contrairement aux données recueillies dans ces mêmes travaux, les stimuli occupant l'extrémité orale de nos continuums – typiquement (1,1), (1,2), (2,1) – présentent un taux d'identification nasale proche de zéro, ce qui implique que ces stimuli n'étaient absolument pas ambigus en termes de nasalité perçue: il s'agissait de voyelles typiquement orales du point de vue de nos auditeurs francophones. Ensuite, le simple rôle d'adjuvant joué par la durée par rapport à la contribution indispensable de F2 suggère que la présence d'un indice acoustique complémentaire ne constitue pas la garantie que celui-ci sera utilisé par les auditeurs dans la tâche qui leur incombe.Footnote 15 En somme, nous pensons que les effets acoustiques du voile du palais ont été synthétisés de façon appropriée, et que l'importance de la dimension de F2 pour des auditeurs francophones n'est pas surévaluée dans nos résultats.
L'expérience 1 a également montré que la contribution respective de F2 et Pro à l'identification de la nasalité vocalique en français standard varie en fonction du contexte phonologique, tous timbres confondus. En contexte nasal, les auditeurs francophones s'appuient plus sur la fréquence de F2 pour décider si une voyelle est orale ou nasale. Ce résultat fait écho à de récents travaux effectués sur la production de la nasalité vocalique, qui ont montré que le F2 des nasales était plus bas encore en contexte nasal (Delvaux, soumis). A l'opposé, le niveau d'énergie des voyelles orales est quelque peu réduit lorsque celles-ci sont nasalisées sous l'influence d'une consonne nasale adjacente.Footnote 16 Considérés dans leur ensemble, les résultats obtenus en production et en perception de la parole suggèrent que l'une des principales fonctions de la covariation entre F2 et Pro en français standard est d'assurer la robustesse du contraste phonologique entre orales et nasales correspondantes, en particulier là où elle est le plus menacée, c'est-à-dire en contexte nasal.
L'expérience 2 a permis de mettre en perspective les résultats obtenus au cours de l'expérience 1, principalement en ce qui concerne l'origine de la covariation. L'expérience 2 a montré que la combinaison effectuée par les auditeurs francophones entre F2 et Pro était d'origine sensorielle, et non décisionnelle.
Il était en effet possible que la combinaison perceptuelle soit d'origine décisionnelle, c'est-à-dire que les auditeurs francophones aient appris à combiner fréquence de F2 et proéminence spectrale en perception uniquement parce que ces deux dimensions acoustiques covarient dans la réalisation du contraste orale/nasale en français standard. Dans cette hypothèse, les deux dimensions resteraient indépendantes aux premiers stades du traitement perceptuel, et leur combinaison résulterait d'une stratégie de décision, liée à l'expérience linguistique de la covariation. C'est ainsi par exemple que Beddor et Krakow (Reference Beddor and Krakow1999) analysent la covariation entre aperture et nasalité vocalique.
En fait, l'expérience 2 a montré que les auditeurs francophones n'avaient ‘pas le choix’ en combinant F2 et Pro. L'intégration perceptuelle de F2 et Pro a été mise en évidence au cours d'une tâche de discrimination, en dehors de toute décision d'ordre linguistique. Les auditeurs perçoivent automatiquement les stimuli positivement corrélés sur les dimensions F2 et Pro comme plus différents l'un de l'autre que les stimuli négativement corrélés sur ces mêmes dimensions. Un stimulus de faible/haute valeur sur l'une des deux dimensions est automatiquement perçu comme ayant une faible/haute valeur sur l'autre dimension. Dans les cas les plus extrêmes (ɵ proche de 180°), les deux dimensions originelles F2 et Pro s'équivalent en perception, et les auditeurs francophones traitent les stimuli le long d'une seule dimension perceptuelle: F2 + Pro.
Différents auteurs ont proposé que les phénomènes de covariation prennent leur source dans certaines propriétés intrinsèques du système auditif humain, préexistantes à toute expérience d'une langue donnée (Diehl et al., Reference Diehl, Kluender, Walsh and Ainsworth1990; Kingston et Diehl, Reference Kingston and Diehl1994; Macmillan et al., Reference Macmillan, Kingston, Thorburn, Dickey and Bartels1999; Holt et al., Reference Holt, Lotto and Kluender2001). Dans cette hypothèse, les langues sélectionneraient pour la covariation certaines dimensions acoustiques en particulier parce qu'elles rehaussent mutuellement (et automatiquement) leurs effets dans la perception des auditeurs. Le fait que l'intégration perceptuelle entre F2 et Pro est d'origine sensorielle pour les auditeurs francophones n'implique cependant pas directement qu'elle reflète une propriété intrinsèque du système auditif humain. Au cours de la première année de vie, les enfants voient leur sensibilité auditive modifiée en profondeur, s'ajustant aux régularités caractérisant les signaux de parole qui constituent le milieu linguistique ambiant (Jusczyk, Reference Jusczyk1993; Jusczyk et al., Reference Jusczyk, Friederici, Wessels, Svenkerud and Jusczyk1993; Vihman et de Boysson-Bardies, Reference Vihman and de Boysson-Bardies1994). Il est donc possible que l'intégration entre F2 et Pro soit le résultat d'une adaptation au milieu linguistique, en ontogenèse. Seules des études sur des enfants ‘prélinguistiques’ (avant 3 mois), ou bien la collecte de données dans un grand nombre de langues, de familles linguistiques diverses, peut permettre de confirmer ou d'infirmer l'hypothèse d'une origine sensorielle ‘universelle’ à la covariation entre F2 et Pro.
Notre contribution à ce débat s'est limitée ici à la tenue d'une étude préliminaire menée sur des auditeurs anglophones nord-américains. L'expérience 3 a montré qu'en contexte oral l'abaissement de la fréquence du F2 de la voyelle augmente le taux d'identification nasale, alors que les voyelles nasalisées de l'anglais n'ont jamais été décrites comme postériorisées ou arrondies. Malgré un effet plancher lié à la difficulté de la tâche – les stimuli ont été construits en référence aux niveaux de sensibilité propres à des auditeurs francophones – l'expérience 4 suggère une interaction perceptuelle modérée entre F2 et Pro pour les auditeurs anglophones. Si elle se confirmait (avec un plus grand nombre d'auditeurs, et une distance entre stimuli adaptée) cette interaction pourrait rendre compte des résultats de l'expérience 3, et constituer un premier élément de preuve concernant l'existence d'une tendance universelle à traiter la fréquence de F2 et la proéminence spectrale en F1/F3 de façon non indépendante.
Quant à la source de l'éventuelle convergence auditive entre F2 et Pro, elle demeure à découvrir. Une piste à investiguer réside dans la notion de F’2. Le ‘second formant effectif’ d'une voyelle (ou F’2) décrit l'effet perceptuel combiné de F2, F3 et F4 (Fant, Reference Fant1973; Carlson et al., Reference Carlson, Fant, Granström, Fant and Tatham1975). Chistovich et collègues (Chistovich et al., Reference Chistovich, Fant and de Serpa-Leitao1966, Reference Chistovich, Sheikin, Lublinskaya, Lindblom and Öhman1979; Chistovich et Lublinskaya, Reference Chistovich and Lublinskaya1979) avaient proposé l'existence d'un mécanisme d'intégration spectrale à large échelle par lequel l'information spectrale comprise dans un intervalle de 3.5 Barks tend à être intégrée en un seul pic. Escudier et Schwartz (Reference Escudier and Schwartz1985; Schwartz et Escudier, Reference Schwartz, Escudier and Schouten1987) ont montré qu'un tel mécanisme pouvait rendre compte du fait que le champ de tous les timbres vocaliques perçus peut être couvert à partir de voyelles synthétiques à deux formants uniquement, le premier formant synthétique correspondant au F1 de la voyelle naturelle de référence, le second à F’2, soit à une combinaison non linéaire de l'information en provenance des F2, F3 et F4 ‘originels’. La notion de F’2 pourrait expliquer pourquoi les auditeurs francophones ont tendance à traiter de façon équivalente des voyelles antérieures avec un F2 bas et des voyelles avec un F2 plus élevé mais avec un F3 quasi-inexistant du fait de la réduction de la proéminence spectrale dans cette région. La Figure 8 illustre ce phénomène. On présente en superposition les spectres LPC des stimuli (1,1), (5,1) et (1,5) provenant des continuums CVC brèves /ɛ-ɛ˜/.Footnote 17 Les valeurs de F’2 correspondant à ces trois voyelles (calculées à partir de la méthode donnée par Ménard et al., Reference Ménard, Schwartz, Boë, Kandel and Vallée2002Footnote 18) sont également représentées. Si l'on considère que F3 n'est plus un pic pour la voyelle nasalisée (1,5), alors F’2 égale F2, et est donc plus bas que le F’2 de la voyelle orale (1,1). De même, le F’2 de la voyelle (5,1) est plus bas que celui de (1,1) puisque son F2 est plus bas (tout en restant peu distant de F3: F3-F2 < 3.5 Barks).
Ainsi, pour les voyelles antérieures, les mécanismes d'intégration spectrale à large bande, propriété intrinsèque du système auditif humain, pourraient en partie rendre compte du fait que F2 et Pro sont traitées perceptuellement de façon non indépendantes et dès lors constituer l'une des sources de la covariation observée en français standard entre la nasalité (responsable de la réduction de la proéminence spectrale en F3) et la postériorisation et/ou l'arrondissement. Ajoutons que, parmi les effets acoustiques de la nasalité, figurent des modifications locales des fréquences formantiques de la voyelle dues à l'introduction de pôles nasals, dont l'abaissement du F2 des antérieures (Wright, Reference Wright, Ohala and Jaeger1986). En somme, la covariation entre F2 et Pro pourrait être à la fois le produit automatique de l'abaissement du voile du palais, et le résultat d'une stratégie développée par les locuteurs – et fossilisée dans la langue – afin d'assurer la robustesse du contraste orale/nasale, stratégie qui s'appuierait sur les mécanismes liés au fonctionnement général du système auditif humain, à savoir la convergence entre les effets acoustiques liés à la nasalité et à l'assombrissement du timbre.
Remarquons néanmoins que l'hypothèse auditive intrinsèque/générale se heurte à un obstacle majeur. A notre connaissance en effet, seul le français standard utilise la combinaison F2/Pro pour implémenter le contraste de nasalité vocalique. La diminution du F2 des voyelles nasales semble être un indice spécifique à la production et à la perception de la nasalité vocalique en français standard. La covariation entre nasalité et ajustements de timbre a été observée dans un certain nombre de langues, mais principalement en ce qui concerne la dimension d'aperture (Ruhlen, Reference Ruhlen, Ferguson, Hyman and Ohala1975; Greenberg, Reference Greenberg, Ferguson and Moravcsik1978). Si la postériorisation des nasales était un (quasi)-universel phonétique, on prédirait d'ailleurs une prédominance des voyelles nasales postérieures par rapport aux antérieures dans les inventaires phonologiques des langues du monde, ce qui n'est pas le cas (Ruhlen, Reference Ruhlen, Ferguson, Hyman and Ohala1975; Beddor, Reference Beddor, Huffman and Krakow1993). Notons cependant que la plupart des travaux typologiques rapportant d'éventuelles modifications de timbre des voyelles nasales par rapport aux orales correspondantes ont été effectué sur la base de mesures acoustiques des fréquences formantiques, sans tenir compte de l'intensité des formants. Comme nous l'avons souligné ci-dessus, une voyelle postérieure // peut être décrite comme plus sombre que l'orale correspondante /ɔ/ alors que son F2 est de fréquence plus élevée, parce que l'intensité de F2 est tellement réduite que l'essentiel de l'énergie est concentrée dans la région de F1.
Même en nous concentrant uniquement sur le français, il est patent que les tendances décrites ci-dessus ne peuvent rendre compte de la totalité des réalisations phonétiques des voyelles nasales dans les différents dialectes de la langue. Ainsi, la postériorisation n'est pas attestée en français méridional, où // = [vn] (Walter, Reference Walter1977; Demolin et Teston, Reference Demolin and Teston1998), tandis que les nasales du français québécois sont diphtonguées, tardivement nasalisées, voire antériorisées (Martin et al., Reference Martin, Beaudoin-Begin, Goulet and Roy2001; Delvaux, Reference Delvaux2006). On pourrait faire l'hypothèse que la contrainte posée à la réalisation phonétique des nasales en français, quel que soit le dialecte, concerne le contraste à maintenir, tant en production qu'en perception, entre orales et nasales, ainsi qu'entre les nasales elles-mêmes. Chaque variété de français pourrait avoir exploité une dimension phonétique spécifique en complément à l'abaissement du voile du palais, et ce en lien avec les propriétés du système auditif humain, mais également avec certaines contraintes qui lui sont propres (p.ex. le fait que certaines voyelles orales sont diphtonguées et d'autres non en français québécois).
En conclusion, nous avons montré ici que la perception de la nasalité vocalique en français standard s'appuie sur deux principaux indices, la nasalité proprement dite et la diminution de F2 par rapport à l'orale correspondante. L'intégration des deux dimensions covariantes s'opère à un niveau de traitement perceptuel infra-linguistique. Dans le cas des voyelles antérieures, certains éléments permettent de postuler l'existence d'effets acoustiques convergents à la nasalité et à l'assombrissement du timbre vocalique. En français standard, cette tendance est encore renforcée, et elle est également généralisée à l'ensemble des voyelles nasales, y compris les postérieures. Des études complémentaires sur d'autres (variétés de) langues sont à mener afin d'établir dans quelle mesure, et, le cas échéant, les raisons pour lesquelles, ce phénomène est spécifique au français standard.