(To read this article in English, please turn to page 23.)
1. Introduction
La linguistique, comme toute science, est sujette à certains principes élémentairesFootnote 1. D'abord, une théorie linguistique doit expliquer des données (provenant d'un corpus ou de jugements de locuteurs), c'est-à-dire faire comprendre pourquoi les données ont certaines propriétés, et doit aussi faire des prédictions adéquates. Ensuite, la théorie doit être exprimée de la façon la plus compacte, la plus simple possible, ce qui permet de découvrir des généralisations qui correspondent à des propriétés profondes des langues, et donc du langage en tant que faculté humaine. Ce deuxième principe correspond en gros à ce que Chomsky a appelé l’adéquation explicative (explanatory adequacy) et il a proposé d'en prendre la mesure par la métrique d’évaluation (evaluation metric) dès The logical structure of linguistic theory [1955] (1975) et Syntactic Structures (1957). L'idée est clairement formulée dans Chomsky (Reference Chomsky and Milner1971 : 64) [Reference Chomsky1965 : 43] :
Nous avons une généralisation lorsqu'un ensemble de règles concernant des éléments distincts peut être remplacé par une règle unique (ou, plus généralement, par des règles partiellement identiques) concernant l'ensemble tout entier, ou encore lorsqu'il est possible de montrer qu'une « classe naturelle » d’éléments passe par un certain processus ou un ensemble de processus analogues. Ainsi le choix d'une mesure d’évaluation constitue une décision sur la nature des « processus analogues » et des « classes naturelles » — en bref, sur la nature des généralisations importantes.
Bref, un système de règles plus simple est meilleur, et on rend un système plus simple en réduisant le nombre de symboles (et aussi la longueur des dérivations). Pour Chomsky, la métrique d’évaluation jetait un éclairage sur le problème de l'acquisition du langage en imposant des restrictions sur la classe de grammaires possibles.
Plus généralement, en science, on soumet les théories au principe de simplicité (économie, parcimonie), souvent attribué à Guillaume d'Occam, et qui est formulé comme suit : Pluralitas non est ponenda sine necessitate. « La pluralité ne doit pas être posée sans nécessité. »
Or, ce principe fondamental n'est pas simple d'application, tant dans sa conception générale que dans la façon particulière de l'utiliser en linguistique. Je vais donc tenter d'en préciser les modalitésFootnote 2. Il arrive que son application consiste simplement à compter les termes de deux théories qui sont comparées et à ne conserver que ceux qui sont nécessaires, comme le laisse supposer la métrique d’évaluation. Toutefois, ce cas de figure élémentaire se présente très rarement.
L'application du principe est plus compliquée parce que les éléments ne sont pas tous égaux. Il y a des considérations qualitatives dont il faut tenir compte. Certains éléments ont un coût moindre, voire nul, parce qu'ils sont motivés indépendamment de la théorie considérée. Par exemple, Tesnière (Reference Tesnière1959), s'appuyant sur le principe de linéarité de Ferdinand de Saussure [1916] (1967), montre que plusieurs propriétés structurales des constituants syntaxiques découlent du fait que les sons produits par l'appareil phonatoire sont séquentiels, et donc que les mots doivent apparaître dans un ordre temporel; voir aussi Kayne (Reference Kayne1994)Footnote 3. Ces auteurs basent donc leurs analyses sur une propriété motivée indépendamment de la linguistique, une propriété logiquement antérieure au langage et qui s'explique par d'autres sciences. Une telle théorie est fortement explicative, puisque fondée sur une propriété qui est nécessaire indépendamment du langage (ce que Chomsky Reference Chomsky2005 appelle le « troisième facteur »).
Plus généralement, certains éléments nécessaires sont essentiellement des propositions observationnelles qui sont considérées comme étant évidentes par une communauté de scientifiques. Une proposition observationnelle est déclarée non falsifiable par défaut et quiconque a appris une technique pertinente pourra vérifier que l'assertion est acceptable (Lakatos Reference Lakatos, Lakatos and Musgrave1970 : 106, citant Popper Reference Popper1963), d'où le consensus dans une communauté scientifique. La communauté considère donc que ces propositions sont valides en général, axiomatiques : les sciences auxquelles on pourrait les soumettre sont considérées comme logiquement antérieures au domaine de la communauté scientifique. On accorde un statut observationnel aux théories les plus établies de ces sciences antérieures et elles sont utilisées comme des extensions de nos sens. Ces théories ne sont pas vues comme des théories mises à l'essai, mais comme des connaissances de base, par convention (voir Lakatos Reference Lakatos, Lakatos and Musgrave1970 : 106–107) à propos de l'emploi fréquent de telles conventions dans les sciences dures).
Il faut cependant prendre garde aux arguments d'autorité et ne pas considérer qu'un élément est motivé indépendamment uniquement parce qu'il a été mis de l'avant par un linguiste reconnu ou un groupe en vogue. En privilégiant des éléments motivés indépendamment par des sciences logiquement antérieures au domaine linguistique, on évite cet écueil. En particulier, les propriétés des substances perceptuelles et conceptuelles du langage offrent une base solide d'explication parce qu'on peut relier l'explanandum (phénomène à expliquer) à un explanans (source d'explication) qui est motivé indépendamment du domaine linguistique. Cette approche offre aussi une voie de solution au profond problème créé par l'hypothèse de la Grammaire universelle (GU), cette partie du cerveau humain qui serait préencodée pour le langage. Comme le fait remarquer Chomsky (Reference Chomsky2005, Reference Chomsky2007), la GU contient les éléments inexpliqués de l’état initial des locuteurs. Plus cette composante d’éléments inexpliqués est importante, plus il est difficile de rendre compte de son évolution biologique, donc moins le modèle est plausible. Or, le recours à des traits et des catégories spécifiquement langagiers, sans fondements cognitifs ou biologiques, est en constante augmentation (Bouchard Reference Bouchard2005a), au point où Cedric Boeckx, qui avait pourtant sévèrement critiqué le constat que j'en faisais dans Bouchard (Reference Bouchard2013), parle maintenant de « featuritis » (Boeckx Reference Boeckx2014).
On postule la composante GU parce que plusieurs des généralisations exprimées par les principes générativistes semblent impossibles à apprendre sur la base des données linguistiques primaires. On en conclut que des principes linguistiques innés contraignent le parcours d'acquisition et que les enfants n'ont pas à apprendre ces principes, puisque ces derniers font partie de leur bagage génétique. On considère que ces éléments dans la GU ne sont pas coûteux, puisqu'ils sont innés. Mais comme le souligne Bouchard (Reference Bouchard2005b : 123), « c'est là une interprétation abusive de l'approche biolinguistique qui l'assimile dangereusement à un saut vers une insaisissable cause finale ».
J'ai très tôt douté de la méthodologie s'appuyant sur la notion de GU. D'abord, une liste de traits, de conditions et d'opérations est une taxonomie peu éclairante, peu explicative. Mais surtout, je trouve étrange le raisonnement qui considère l'incapacité de certains outils d'analyse à expliquer les faits comme étant une confirmation d'une GU très développée. Le fait que la GU provient d'un manque d'explication devrait plutôt alerter les scientifiques que le cadre théorique est problématique, qu'il faut trouver ce qui cause ces difficultés, et proposer une alternative qui permettrait idéalement de réduire la GU à zéro. La façon la plus efficace d'y arriver, c'est d'adopter une méthodologie qui s'appuie sur des éléments motivés indépendamment, logiquement antérieurs au langage. Moins les éléments d'une théorie linguistique sont spécifiques au domaine langagier, plus ils sont susceptibles d'avoir la granularité nécessaire pour être biologiquement plausibles (Poeppel et Embick Reference Poeppel, Embick and Cutler2005). Cette méthodologie guide mon travail depuis des décennies.
Quand on applique rigoureusement le principe de simplicité en tenant compte des aspects qualitatifs que sont les propriétés des substances perceptuelles et conceptuelles du langage, on est amené à considérer les données sous un autre angle, et on découvre des généralisations et des classes naturelles nouvelles. Là où le modèle théorique en vogue exhibe une certaine stagnation, cette approche donne des résultats plus éclairants. Plutôt que de le démontrer par l'analyse d'un exemple exploré à fond, je vais présenter les effets de cette approche en discutant de l'analyse de plusieurs constructions maintenant classiques dans les études en syntaxe, pour donner une vision plus globale. Les lecteurs intéressés aux détails des analyses discutées sont invités à consulter les travaux auxquels je réfère. De cette façon, nous verrons que cette approche méthodologique renouvelle la notion d'adéquation explicative et répond à des questions qui ont été laissées en suspens au cœur de l'argumentation linguistique des six dernières décennies.
2. Combien y a-t-il de projections X-barre?
Une question souvent soulevée dans les années 1970 et 1980 concerne le nombre de projections X-barre (voir une discussion approfondie dans Jackendoff Reference Jackendoff1977). Le problème consiste à avoir le nombre de projections suffisant pour pouvoir accommoder les différents types de compléments et de modifieurs, sans surcharger le système. Après bien des tentatives, le nombre le plus généralement adopté est de deux, pour faire une distinction minimale entre les compléments et les spécifieurs.
Mais dès qu'on adopte un nombre fixe de projections, quel qu'il soit, il faut « tricher ». D'une part, il y a souvent des têtes qui apparaissent seules dans leur projection, comme les noms et les adjectifs en (1), ou des têtes qui apparaissent avec un complément mais pas de spécifieur comme en (2), ou encore des têtes qui apparaissent seulement avec un spécifieur comme en (3).
(1)
a. Paul est heureux.
b. Beavers are eager.
‘Les castors sont avides.’
(2)
a. C'est un homme heureux de son sort.
b. He is proud of his daughter.
‘Il est fier de sa fille.’
(3)
a. Il est très heureux.
b. He is very happy.
Pour respecter la projection à deux niveaux, il faut poser des niveaux qui n'ont aucun effet détectable. Inversement, il y a des cas où il y a trop de matériel, comme les deux compléments en (4) et les nombreux spécifieurs en (5).
(4)
a. Pierre a donné un coup de main à sa mère.
b. John gave the ball to his dog.
‘John a donné la balle à son chien.’
(5)
a. une bonne vieille solution
b. a big red American car
‘une grosse voiture américaine rouge’
On propose de scinder les nœuds pour accommoder la structure quand il y a plus d’éléments de combinés à la tête, ou alors d'ajouter artificiellement des têtes fonctionnelles; le tout sans aucun effet dans le langage et uniquement pour éviter que l'hypothèse ne soit réfutée.
Bouchard (Reference Bouchard1979 : 22–24) montre qu'en utilisant les informations lexicales au maximum (sans les enrichir) on peut réduire considérablement la composante syntaxique, sans faire appel à des artifices. Par une simple règle générale de Fusion (Merge), deux constituants qu'on combine donneront un constituant qui est une projection de la catégorie de l'un ou de l'autre constituant, selon l'interprétabilité du résultat.
(6)
$ [{}_{{\rm X}^{{\rm n}+1}}{\rm X}{}^{\rm n}{\rm Y}{}^{\rm m}]\; {\rm ou}\; [{}_{{\rm Y}^{{\rm m}+1}}{\rm X}{}^{\rm n}{\rm Y}{}^{\rm m}]$
Il n'est pas nécessaire de postuler un niveau minimum ou maximum absolu de projection : on projette autant de fois que la sémantique l'exige. S'il n'y a aucun élément d'ajouté à une tête, cette tête est un X0 qui est simultanément un Xmax. S'il y a quatre éléments ajoutés, il y a quatre niveaux de projection et Xmax est un X4. Xmax est la projection supérieure, peu importe le nombre de barres. De plus, la syntaxe n'a pas à filtrer des cas comme en (7), parce qu'ils sont filtrés automatiquement par la sémantique, quelle que soit la manière dont on combine les mots syntaxiquement.
(7)
a. # Jean enseignait la [vertement linguistique]
b. # Sont de séduits pas chiens chats
Bref, la fusion de constituants est libre, mais si les constituants qui en résultent ne sont pas fonctionnellement interprétables, la phrase sera rejetée. La composante syntaxique peut donc être simplifiée radicalement. Chomsky (Reference Chomsky1995) a également proposé une structure syntagmatique minimale (Bare Phrase Structure) avec une définition relationnelle des projections. Dans les faits, cependant, parce qu'il maintient une distinction entre spécifieurs et compléments, son système conserve des défauts du système X-barre classique. Il utilise entre autres des nœuds scindés et ajoute des catégories fonctionnelles pour préserver un système [Spec [tête complément]].
3. Combien y a-t-il de catégories vides, avec quelles propriétés?
Selkirk (Reference Selkirk1972) a été la première à proposer des traces pour les constituants déplacés en syntaxe. C’était pour expliquer certains phénomènes phonologiques, dont entre autres l'impossibilité de liaison en français dans des contextes où autrement on s'y attendrait. Fiengo (Reference Fiengo1974) a proposé que les traces sont des anaphores, donc qu'elles sont soumises aux contraintes de localité des anaphores lexicales. Il propose d'expliquer ainsi certaines conditions de localité qui s'appliquent aux phrases avec des « trous » (Ross Reference Ross1967). La dérivation de ces phrases avec des « trous » est équivalente à la dérivation de phrases avec des éléments concrets. L'inconnu est donc expliqué par du connu, les conditions de localité des anaphores étant motivées indépendamment.
Après Selkirk (Reference Selkirk1972) et Fiengo (Reference Fiengo1974), on a ajouté rapidement de nouvelles catégories vides à la théorie : le PRO des infinitives, le pro des phrases à sujet vide et un dédoublement des traces, celles des SN et celles des constituants Qu- Footnote 4. Le nombre de catégories vides ne pose pas nécessairement de problème en soi, mais le problème vient plutôt du fait que chaque nouvelle catégorie vide s'est vu attribuer des conditions qui lui sont exclusives, de sorte que la dérivation de phrases avec des « trous » ne se réduit plus à la dérivation de phrases avec des éléments concrets, contrairement à ce que proposait Fiengo à l'origine. Pour illustrer, je présente le cas typique de PRO, le sujet des infinitives. Deux conditions spécifiques s'appliquent à PRO. En ce qui a trait à sa distribution, PRO est sujet à la condition de non-gouvernement. Quant à son interprétation, PRO a sa propre théorie de liage, le contrôle. Quand ce genre de conditions particulières se multiplient avec l'ajout de nouvelles catégories vides, la théorie perd de son pouvoir explicatif.
On peut facilement éviter cet écueil en visant une approche plus généralisante (Bouchard Reference Bouchard1984). D'abord, la distribution des catégories vides relève d'un principe de lexicalisation.
(8) Principe de lexicalisation :
Un SN est lexicalisé si et seulement si des traits-ψ sont présents dans l'entrée de N en Forme phonologique, où ψ = personne, nombre, genre, cas.
Un tel principe s'applique à tous les nominaux, qu'ils soient lexicaux ou videsFootnote 5. Il en découle que (i) un N lexical doit avoir tous les traits ψ en forme phonologique, et (ii) un N non lexical ne doit avoir aucun des traits ψ en forme phonologique. Une catégorie nominale est vide si elle ne porte aucun trait-ψ en forme phonologique et qu'elle peut recevoir des traits interprétatifs en forme logique (les catégories prononcées vérifient leurs traits en forme logique par accord; les catégories vides reçoivent leurs traits en forme logique par accord). C'est exactement ce à quoi on s'attend dans un modèle linguistique où la base syntaxique nourrit deux composantes par des voies indépendantes, l'une qui fait interface avec la forme et l'autre avec le sens.
Un principe de lexicalisation rend donc compte de la distribution de catégories vides comme PRO. Quant à son interprétation, PRO se comporte tantôt comme une anaphore, comme en (9a), tantôt comme un pronom, comme en (9b–c).
(9)
a. Je veux PRO partir.
b. PRO partir, c'est PRO mourir un peu.
c. Jean a parlé à Marie de PRO se marier à l’église.
Ceci ne fait pas de PRO une anaphore pronominale. En fait, l'hypothèse d'une anaphore pronominale crée tous les problèmes théoriques en ce qui a trait à son interprétation et à sa distribution. PRO est soit anaphore, soit pronom, selon la relation établie avec son antécédent (Bouchard Reference Bouchard1985). Ceci est confirmé par une propriété langagière indépendante qui distingue les anaphores et les pronoms lexicaux. Comme l'a observé Ross (Reference Ross1967), quand il y a « effacement » du syntagme verbal, une anaphore dans le syntagme verbal « reconstruit » a une interprétation référentielle différente de celle de l'anaphore du syntagme verbal d'origine. Ainsi, en (10), la première anaphore a la référence de John, mais l'anaphore « reconstruite » a la référence de Bill. Par contre, un pronom dans un syntagme verbal « reconstruit », comme en (11), a deux interprétations possibles : soit sa référence est identique à celle du pronom du syntagme verbal d'origine, soit sa référence est différente de celle-ci.
(10) John likes himself, and Bill does too. (c.-à-d., Bill likes himself too.)
‘John s'aime, et Bill aussi.’ (c.-à-d., Bill s'aime également.)
(11) Johni thought that hei would win, and Bill did too.
‘John pensait qu'il gagnerait, et Bill aussi.’ (c.-à-d., Bill pensait que John/Bill gagnerait.)
Si on applique le test à des constructions avec PRO, on voit que le PRO local, c'est-à-dire le PRO anaphorique, ne reçoit qu'une interprétation référentielle différente de celle du PRO du syntagme verbal d'origine (12), tandis qu'un PRO non local, c'est-à-dire un PRO pronominal, a une référence qui est soit identique à celle du PRO du syntagme verbal d'origine, soit différente de celle-ci (13).
(12) John tried PRO to leave early, and Bill did too.
‘John a essayé de partir tôt, et Bill aussi.’ (c.-à-d., Bill a essayé que Bill parte tôt.)
(13) John thinks that it will be difficult PRO to see the President, and Bill does too.
‘John pense qu'il sera difficile de voir le président, et Bill aussi.’ (c.-à-d., Bill pense qu'il sera difficile pour Bill/John/quelqu'un de voir le président.)
En résumé, on n'a pas besoin de conditions particulières pour rendre compte de la distribution de PRO (Principe de lexicalisation) ni de son statut (anaphore ou pronom).
4. La montée du sujet
Dans les analyses transformationnelles standard, le pronom il en (14a) est un signe défectueux, qui a une forme mais pas de sens ni de référence. En (14b), Pierre est un signe scindé : sa forme est dans la position du sujet de semble, mais il est interprété seulement comme un argument de comprendre l'explication, le prédicat de la phrase enchâssée.
(14)
a. Il me semble que Pierre comprend l'explication.
b. Pierre me semble comprendre l'explication.
Ces deux hypothèses posent problème pour le Principe de compositionalitéFootnote 6.
(15) Principe de compositionalité :
Le sens d'une expression est fonction du sens de ses constituants et de leur mode de combinaison.
Comme l'indiquent Hintikka (Reference Hintikka1983), Hausser (Reference Hausser1984), Partee et Hendriks (Reference Partee, Hendriks, van Benthem and ter Meulen1997), et Clark et Lappin (Reference Clark and Lappin2011), le principe n'opère qu'avec des propriétés qui sont directement en lien avec des éléments tangibles des interfaces. Si une théorie admet des éléments intangibles, un locuteur ne peut jamais être sûr qu'une phrase ne contient pas un élément intangible qui lui était jusqu'alors inconnu et qui modifie son interprétation. En conséquence, la compositionalité perd sa capacité d'expliquer comment nous comprenons des phrases nouvelles. Il est donc très important de résoudre ce problème, puisqu'il mine les fondements explicatifs du langage, d'autant plus que le problème s'est accentué parce qu'il y a maintenant une prolifération d’éléments intangibles en grammaire générative : niveaux intangibles, catégories vides (en particulier un foisonnement de catégories fonctionnelles), traits intangibles, opérations intangibles. Les éléments intangibles soulèvent aussi un problème pour l'adéquation explicative et l'acquisition. Face à une phrase qu'il entend, un apprenant peut supposer divers éléments intangibles que cette phrase pourrait contenir et qui feraient varier sa structure et son interprétation, rendant l'acquisition très difficile, voire impossible, selon la latitude d'invention analogique qu'on accorde au locuteur. Pour contraindre les éléments intangibles, il faut supposer que la GU contient une nomenclature précise de tels éléments et que le locuteur n'a pas la capacité d'en dévier. Mais le modèle basé sur un tel répertoire fixe et immuable est alors sujet à la critique que Chomsky adresse à l’égard du modèle de Ferdinand de Saussure : « […he] regards langue as basically a store of signs with their grammatical properties, that is, a store of word-like elements, fixed phrases, and, perhaps, certain limited phrase types » [[il] considère la langue comme étant en gros un stock de mots avec leurs propriétés grammaticales, soit un stock d’éléments qui s'apparentent à des mots, des expressions figées et aussi peut-être un certain nombre limité de types de syntagmes] (Chomsky Reference Chomsky, Fodor and Katz1964 : 59). Dans une GU classificatrice (comme dans le modèle cartographique), chaque construction syntaxique, et même chacune de ses occurrences, se réduit à une liste de traits intangibles : chaque cas de Fusion (Merge) ou de Déplacement (Move) est justifié par la présence d'un trait inscrit dans le lexique qui doit être vérifié. Je présente ici une solution au problème de la compositionalité dans les constructions en (14), mais la méthodologie s'étend aux autres analyses avec surcharge d’éléments intangibles.
L'analyse standard est basée sur l'impression que la position du sujet de verbes comme sembler n'est pas une position thématique, que ces verbes ne sont pas normaux et que leur syntagme verbal ne sélectionne pas sémantiquement le sujet. Toutefois, cette impression est fausse. Sembler impose des restrictions détectables, quoique subtiles, à son sujet grammatical. Ainsi, le verbe causatif faire exige que l'entité affectée ait un certain contrôle sur l’événement de la phrase enchâssée : on peut faire en sorte que quelqu'un fasse quelque chose seulement si cette personne a la capacité de le faire. C'est pourquoi le choix du verbe dans la phrase (16a) est inadéquat: on n'a pas de contrôle sur sa taille. Mais si on introduit le verbe sembler comme en (16b), le résultat devient acceptable.
(16)
a. # Ce costume te fait être énorme.
b. Ce costume te fait sembler énorme.
En fait, sembler est un verbe d’évidentialité, comme le suggère Rooryck (Reference Rooryck2000) (en s'appuyant sur Jakobson Reference Jakobson and Jakobson1971, Anderson Reference Anderson, Chafe and Nichols1986, Chafe et Nichols Reference Chafe and Nichols1986, Palmer Reference Palmer1986), et ce verbe sélectionne son sujet comme n'importe quel verbe; voir Bouchard Reference Bouchard2013, Reference Bouchard, Dziubalska-Kolaczyk and Weckwerth2015a pour une analyse détaillée).
Il y a quatre éléments d’évidentialité (Rooryck Reference Rooryck2001a, Reference Rooryck2001b) :
(i) l'information : une proposition;
(ii) les éléments de preuve pour l'information (de type sensoriel, intuitif, inférentiel, ouï-dire, cité de mémoire, notoriété publique, etc.);
(iii) la source de l'information (point de vue 1re, 2e, 3e personne, document écrit, etc.);
(iv) la fiabilité de l'information (fiable, probable, attendue, désirable, etc.).
En termes d’évidentialité, une phrase comme (14a) est analysée comme suit :
• information : la proposition Pierre comprend l'explication, dans la complétive de semble;
• éléments de preuve : l’événement ambiant auquel le sujet il réfère;
• source de l'information : indiquée par le complément datif me;
• fiabilité de l'information : le sens de semble suggère que l'information est probable, attendue.
L’évidentialité de (14b) se manifeste dans un schéma semblable à celui de (14a).
• information : la proposition de l'infinitive comprendre l'explication, qui est la complétive de semble;
• éléments de preuve : ils proviennent du sujet Pierre, qui réfère métonymiquement à l’état dans lequel se trouve son référent;
• source de l'information : indiquée par le complément datif me;
• fiabilité de l'information : le sens de semble suggère que l'information est probable, attendue.
Le schéma général s'applique donc aux deux types de phrases avec sembler. Dans la construction X semble Y à Z, X est l’élément de preuve pour l'information Y provenant de la source Z. Comme l’évidentialité peut provenir de différents types d’élément de preuve et que sembler est un verbe d’évidentialité très général, n'importe quoi peut sembler, donc n'importe quoi peut être le sujet de sembler. C'est pourquoi un examen cursif de phrases avec sembler donne l'impression que le sujet de sembler n'est pas sélectionné sémantiquement.
Toutes les propriétés syntaxiques des phrases avec sembler découlent de la sémantique d’évidentialité de ce verbe. En particulier, il et Pierre sont tous deux des signes normaux en (14), et non des signes défectueux, comme le supposent les analyses transformationnelles. La composante d’évidentialité du sens de sembler (et de verbes semblables) exige que Pierre en (14b) soit un argument, un signe normal dont la forme et le sens forment un tout. Cette phrase est un cas simple d'un argument nominal en position de sujet et d'un argument phrastique en position d'objet direct. En (14a), le pronom il réfère à l’événement ambiant, un emploi normal d'un signe pronominal. Les emplois à montée et explétif de verbes comme sembler sont considérés dans cette analyse comme de simples cas d’évidentialité, en conformité avec le Principe de compositionalité. La sémantique d’évidentialité de cette classe de verbes explique les fortes ressemblances et les petites différences entre (14a) et (14b).
5. Autres pronoms supposément inertes pour le sens et la référence
Il y a d'autres exemples où on postule que des pronoms ne font pas de contribution lexicale à l'interprétation d'une phrase. Les constructions existentielles en sont un cas typique (voir par exemple Chomsky Reference Chomsky and Kenstowicz2001 : 33). Ainsi, pour les équivalents en (17a) et (17b), les pronoms il et y du français et le pronom there (‘là’, en anglais) seraient inertes, explétifs.
(17)
a. Il y a un nid dans l'arbre.
b. There is a nest in the tree.
Mais pourquoi y a-t-il des explétifs dans les constructions existentielles? Pourquoi les explétifs y et there sont-ils des homonymes de pronoms locatifs? Pourquoi ces locatifs sont-ils utilisés plutôt que là, ici, here ‘ici’? Quelle est la position du syntagme nominal un nid/a nest? Pourquoi ce SN est-il indéfini? À part la question de la position du SN, on ne soulève à peu près pas ces questions dans les analyses génératives. Pour répondre à ces questions, voyons quels sont les éléments en présence et comment ils sont combinés syntaxiquement.
En (17b), there est en position de sujet de la copule be ‘être’, avec le SN a nest ‘un nid’ dans la position d'un SN prédicatif, comme dans des cas simples de prédication sujet + be + SN (Jenkins Reference Jenkins1972) :
(18)
a. That is a house.
‘Ceci est une maison.’
b. There is a Santa Claus in the play.
‘Il y a un père Noël dans la pièce (de théâtre).’
c. John is a Santa Claus in the play.
‘John est un père Noël dans la pièce (de théâtre).’
Guéron (Reference Guéron1998) suggère une structure semblable pour le français : le locatif y et le SN forment une ‘petite proposition’ où y est le sujet et le SN est le prédicat. Il faut donc comprendre pourquoi le fait de prédiquer des SN indéfinis à there et y donne une interprétation existentielle (Bouchard Reference Bouchard1998a). Dans une construction où un SN indéfini est le prédicat comme en (19), le sujet Jean réfère à un individu ayant un ensemble de propriétés, et la phrase est vraie si la propriété dénotée par le SN prédicatif un bon médecin fait partie des propriétés de Jean, c'est-à-dire s'il est correct d'attribuer à Jean la propriété d’être bon médecin.
(19) Jean est un bon médecin.
Si une construction existentielle comme (17b) est une simple prédication, alors la phrase est vraie si la propriété dénotée par le SN a nest fait partie de l'ensemble des propriétés du référent de there. Pour juger, il faut déterminer ce que sont les propriétés de a nest et there. Un SN défini comme the nest réfère à une entité dont l'existence dans le monde du discours fait partie des présupposés, tandis qu'un SN indéfini comme a nest crée un nouveau référent (Heim Reference Heim1982). Quant à there, c'est l'anticentre déictique (en opposition à here); en emploi spatial, there réfère à quelque chose qui est hors de l'espace immédiat du locuteur; dans des emplois autres que l'emploi spatial, le point de référence est une propriété du locuteur pertinente au domaine sémantique.
La plupart des expressions référentielles varient quant aux domaines sémantiques où elles peuvent s'appliquer. Ceci vaut aussi pour there et y qui peuvent référer à des éléments dans divers domaines sémantiques, comme dans les exemples suivants :
(20)
a. We're getting there. (en additionnant, en écrivant un article, etc.)
‘On y arrive.’
b. There I agree with you.
‘Là je suis d'accord avec vous.’
c. So there it is and nothing can be done about it.
‘Alors voilà et nous n'y pouvons rien.’
d. Il y va de votre vie.
e. J'y compte bien.
Dans les constructions existentielles, au lieu d'un espace physique, c'est un espace mental qui est en jeu (sur la notion d'espace mental, voir Fauconnier Reference Fauconnier1984) : there réfère à un monde possible donné (Mn), une notion mentale. En emploi mental, le centre déictique est le locuteur en tant que sujet de conscience. Comme there est l'anticentre déictique, il réfère à un point dans l'espace mental du locuteur, son contenu de conscience, mais qui est autre que le locuteur. Quant au y du français, c'est un locatif très général, non déictique. En emploi mental, y réfère à l'espace mental en général, donc à tout le contenu de conscience.
Si on met ensemble les informations fournies par la nature du pronom locatif et du SN indéfini, ainsi que leur relation de sujet et de prédicat, on obtient une explication de l'effet existentiel. Dans une phrase, le sujet est l'actualiseur de l’événement (van Voorst Reference van Voorst1988), et sera donc typiquement du matériel connu, alors que ce qui en est prédiqué est du matériel nouveau. Ainsi, en (17b), there, qui réfère à un point dans le contenu de conscience, est en position sujet, donc de matériel connu, et le SN indéfini a nest, un nouveau référent, est en position de prédicat, donc de matériel nouveau. En prédiquant un SN à there (ou à y), j'affirme comme locuteur que ce SN est une propriété de l'ensemble auquel there (ou y) réfère, comme un monde possible Mn dans mon contenu de conscience. Quand le SN est indéfini, comme dans les constructions existentielles, j'introduis un nouveau référent comme propriété d'un monde possible Mn. En somme, on attribue la propriété un nid/a nest à ce point Mn de l'espace mental du locuteur. C'est cette forme d'existence que j'affirme, comme locuteur. J'affirme que quelque chose de nouveau fait partie de mon contenu de conscience, c'est-à-dire « existe ». Il n'y a nul besoin de déplacement intangible, d'opérateur existentiel intangible ou autres artifices. L'interprétation existentielle découle de propriétés simples, et motivées indépendamment, de la syntaxe et de la sémantique de la prédication, de la nature des SN indéfinis et de la référence en espace mentalFootnote 7.
6. Conditions sur le liage des pronoms
Depuis le travail pionnier de Langacker (Reference Langacker, Reibel and Schane1969), de très nombreux linguistes ont étudié les conditions structurales qui semblent régir les relations référentielles entre un pronom et un SN dans une phrase. Par exemple, l'impossibilité d'une relation référentielle entre il et Rumsfeld en (21) serait due à la condition en (22) (la condition C de la théorie du liage).
(21) Il cache les armes de Rumsfeld dans son sous-sol.
(22) Condition C :
Une expression référentielle doit être libre (non c-commandée par un élément coïndicé).
On considère généralement qu'une variante de la condition (22) doit être inscrite comme loi dans la GU; voir Lasnik (Reference Lasnik and Lasnik1989) pour un plaidoyer à cet effet. Comme il s'agit de données portant sur le phénomène sémantique/pragmatique de la référence, il est totalement fortuit qu'une condition sur la dépendance référentielle comporte une notion strictement structurale comme la c-commande. Il n'y a pas non plus de raison indépendante d'avoir cette configuration structurale dans la condition plutôt qu'une autre, ni que la condition opère dans cette direction, c'est–à-dire entre un pronom et une expression référentielle plutôt que l'inverse. Bref, la condition en (22) relève de la description plutôt que de l'explication.
Toutefois, si on regarde le processus cognitif à l’œuvre, il n'y a rien là d'aléatoire. Déjà en 1979, Thomas Wasow observait que la condition C semblait découler d'une condition plus générale à l'effet qu'un élément ne peut dépendre pour son interprétation d'un élément moins informatif, comme l'exprime la condition en (23) (voir des observations semblables dans Keenan Reference Keenan1975 : 451, Ruwet Reference Ruwet1982 : 253, Levinson Reference Levinson2000 : 181, entre autres).
(23) Condition de nouveauté (Wasow Reference Wasow1979) :
Un élément dépendant anaphoriquement ne peut avoir une référence plus déterminée que son antécédent.
Un élément est plus ou moins déterminé référentiellement selon la quantité d'information qu'il fournit permettant d'identifier les référents potentiels. La condition de Wasow rend compte de faits comme ceux en (24), où doctor ‘médecin’ construit un SN qui est plus déterminé que celui construit par man ‘homme’.
(24)
a. A doctori walked into the room. The mani at first said nothing.
‘Un médecin entra dans la pièce. L'homme au début ne dit rien.’
b. * A mani walked into the room. The doctori at first said nothing.
Un homme entra dans la pièce. Le médecin au début ne dit rien.’
La condition de nouveauté offre une explication solide des faits, puisqu'elle découle de propriétés cognitives externes reliées au contenu informatif. Voyons comment elle s'applique à un exemple comme (21). Les pronoms dépendent d'un autre élément pour leur référence, typiquement d'une expression référentielle. La condition capte l'intuition voulant qu'une expression référentielle ne peut dépendre d'un pronom coréférentiel pour son interprétation. Mais de quelle manière l'expression référentielle dépend-elle du pronom pour son interprétation référentielle en (21)? Dans cet exemple, le pronom est le sujet de la phrase. Le sujet est impliqué dans une autre relation sémantique : la prédication du syntagme verbal. La validité de cette prédication dépend de l'identité du sujet : la prédication sera valide si le référent du pronom il a effectivement la propriété exprimée par le syntagme verbal cache les armes de Rumsfeld dans son sous-sol. Comme le SN Rumsfeld fait partie de ce syntagme prédicatif, son interprétation dépend de l'identité du sujet. Mais en même temps, l'identité du sujet pronominal il dépend du SN Rumsfeld, s'ils sont coréférentiels. Ces dépendances croisées entre le sujet pronominal il et le SN Rumsfeld sont contradictoires, incohérentes, ce qui fait que la lecture coréférentielle est impossible.
Comme l'indique Bouchard (Reference Bouchard2013 : 261−267), ceci suggère une façon plus éclairée d'exprimer la condition de liage, comme un théorème qui découle d'autres aspects de la grammaire et de la condition de nouveauté de Wasow :
(25) Théorème sur la dépendance référentielle :
Un élément référentiel dépendant E (comme un pronom) ne peut dépendre d'une expression référentielle interne au constituant X qui est combiné à E (parce que cette combinaison implique que la propriété complexe de X est prédiquée de E, ce qui rend l'interprétation référentielle incohérente).
Moins un pronom fournit d'information concernant l'identité du référent du sujet, plus ce pronom peut dépendre référentiellement d'un SN faisant partie du prédicat, parce que l'incohérence entre l'interprétation du sujet pronominal et l'interprétation du syntagme prédicatif est réduite. Ainsi, les pronoms il et sa enchâssés dans le sujet en (26) fournissent beaucoup moins d'information quant à l'identité du référent du sujet, et la phrase ne contrevient pas à la condition de nouveauté, ni à son théorème en (25).
(26)
a. Qu’il ait gagné la course a surpris Jean.
b. Sa mère a donné une grosse bise à Jean.
Bien entendu, cette ébauche ne fait qu'effleurer la surface des dépendances référentielles, et il y a de nombreuses autres constructions à prendre en compte pour évaluer l'analyse proposée. Toutefois, ce type d'analyse ouvre la voie à une explication des faits qui soit fondée. Une condition générale comme (23) et son théorème en (25) expliquent une plus grande variété de dépendances référentielles que la condition structurale, et restreignent tout autant l'acquisition du langage qu'une condition spécifique aléatoirement listée dans la GU.
Bien qu'il ne s'agisse que d'une ébauche, l'analyse est mieux fondée du point de vue conceptuel, comme l'avancent Rooryck et Vanden Wyngaerd (Reference Rooryck and Vanden Wyngaerd2011) (voir aussi les analyses dans Coppieters Reference Coppieters1982, van Voorst Reference van Voorst1992, Bouchard Reference Bouchard1995). La grammaire n'a pas besoin de contenir de règles ou de principes portant spécifiquement sur les anaphores ou les pronoms, et on peut s'éloigner ainsi des analyses taxonomiques habituelles. De plus, il y a de nombreuses indications qu'il vaut mieux baser la théorie du liage sur une analyse cognitive. On le voit par exemple dans l'emploi que font Culicover et Jackendoff (Reference Culicover and Jackendoff2005: chapitre 11) de principes cognitifs pour rendre compte du liage obviatif de X-else ‘autre, autrement’ en anglais; de même, Ruwet (Reference Ruwet1991) montre que l'alternance entre infinitif et subjonctif en français en (27) dépend de la relation entre le sujet de la phrase et celui de l'enchâssée: une relation de soi-à-soi en (a) et de soi-à-autre en (b).
(27)
a. Je veux amuser ces enfants.
b. ? Je veux que j'amuse ces enfants.
7. Pourquoi y a-t-il des relations à distance? Pourquoi y trouve-t-on des effets de localité?
Les dépendances à distance sont importantes dans l'argumentation générative. Un exemple typique se trouve dans les interrogatives Qu- comme en (28b), où à qui a la même fonction que à Marcel en (28a), soit l'objet indirect de donnera, mais à qui se trouve très loin de la position habituellement considérée comme normale pour cet élément.
(28)
a. Je sais que tu penses que Marie croit que Paul donnera le livre à Marcel.
b. Je sais à qui tu penses que Marie croit que Paul donnera le livre [t].
L'analyse classique propose une opération de déplacement qui relie à qui à la position naturelle d'objet indirect, indiquée par la trace en (28b).
Dans sa remarquable thèse, Ross (Reference Ross1967) montre que, même si un syntagme peut être déplacé potentiellement infiniment loin de sa position naturelle, il y a plusieurs constructions où la transformation est sujette à des contraintes de localité très précises, contraintes que Chomsky (Reference Chomsky, Anderson and Kiparsky1973, Reference Chomsky, Culicover, Wasow and Akmajian1977) a regroupées en partie sous la notion de sous-jacence. C'est un sujet toujours d'actualité, et de nombreux travaux qui tentent de raffiner ces contraintes paraissent chaque année. Par exemple, Chomsky (Reference Chomsky and Kenstowicz2001) a proposé que le domaine déterminant la localité d'extraction est la phase, qui comprend les éléments en mémoire active et donc accessibles à un point donné de la dérivation : cette phase correspond à la contrepartie syntaxique d'une proposition. Cette délimitation du domaine local est inscrite dans la GU. La phase ne saurait être entièrement inerte, sinon aucun élément ne pourrait en sortir par déplacement. Chomsky propose une porte de sortie – la tête et sa bordure (edge) – dans la condition d'impénétrabilité de phase (29), également inscrite dans la GU :
(29) Condition d'impénétrabilité de phase
Dans une phase φ avec une tête H, le domaine de H n'est pas accessible aux opérations hors de φ, mais seulement H et sa bordure.
Des opérations peuvent donc relier un élément dans un domaine φ à un élément hors de ce domaine, et leur application successive permet des dépendances à distance comme en (28b). Plusieurs propositions semblables ont été faites au cours des ans pour essayer de cerner les conditions de déverrouillage de domaine, c'est-à-dire les conditions qui, comme la Projection par percolation (Percolation Projection) de Kayne (Reference Kayne1983) et le Marquage-L de Chomsky (Reference Chomsky1985), permettent à un élément de sortir de son domaine local.
(30) Projection par percolation :
A est une projection par percolation de B si et seulement si A est une projection de B, ou A est une projection de C, où C porte le même exposant que B et gouverne une projection de B, ou une projection par percolation de B.
(31) Marquage-L :
α L-marque β si et seulement si α est une catégorie lexicale qui θ-gouverne β.
(α θ-gouverne β si et seulement si α est une catégorie de niveau zéro qui θ-marque β, et que α, β sont adjacents.)
Toutes les propositions de ce genre ont ceci en commun : la délimitation du domaine local et les conditions de son déverrouillage sont inscrites dans la GU; donc, en l’état actuel des choses, elle demeurent sans explication. On a donc progressé dans la description – le domaine local et les conditions de son déverouillage s'étant précisés – mais le niveau d'explication de ces éléments est demeuré essentiellement le même, soit un inventaire de propriétés contingentes.
Il y a une redondance dans ce type d'analyse qui nous met sur la voie d'une explication (Bouchard Reference Bouchard1984, Reference Bouchard2002, Reference Bouchard2013). D'une part, une phrase comme (28b) comprend une série de relations locales transformationnelles qui résultent de l'application cyclique du déplacement, tel que représenté par les traces en (32).
(32) Je sais à qui tu penses [t] que Marie croit [t] que Paul donnera le livre [t].
D'autre part, les domaines locaux et les conditions de déverrouillage dépendent d'une série de relations locales syntagmatiques entre têtes et nœuds adjacents. La relation de sélection entre tête et complément joue un rôle central dans ces analyses : ainsi, elle est exprimée par l'exposant en (30) et par le marquage-θ en (31). Est-il nécessaire d'avoir deux séries de relations locales, transformationnelles et syntagmatiques? Les relations syntagmatiques sont nécessaires. Ne pourraient-elles pas être suffisantes, puisque les relations transformationnelles leur sont parallèles et dépendent d'elles? Bouchard (Reference Bouchard1979, Reference Bouchard1984, Reference Bouchard2002, Reference Bouchard2013) montre que c'est effectivement le cas.
Considérons d'abord les relations syntagmatiques. L'approche minimale est de n'avoir comme primitive syntagmatique que la règle très générale de Fusion qui combine deux éléments syntaxiques pour en former un nouveau (Bouchard Reference Bouchard1979, Chomsky Reference Chomsky1995). Quant aux éléments qui sont combinés, on les restreint aussi au strict nécessaire : au minimum, il faut des éléments lexicaux. L'approche idéale s'en tiendrait donc à ces éléments et ne comprendrait pas d’étiquettes de niveaux comme N′/V′ ou N″/V″, puisque ces éléments sont redondants : comme nous l'avons vu dans la section 2, il est suffisant de dire que, lorsque deux éléments sont mis en relation par Fusion, l'un ou l'autre des éléments fournit l’étiquette de la structure résultante. L’étiquetage syntaxique découle de l'insertion lexicale.
Comme l'indique Bouchard (Reference Bouchard2013), l'idée de dériver l'endocentricité a une très longue histoire qui remonte au moins aux modistes. Voir entre autres Sweet (Reference Sweet1891), Jespersen (Reference Jespersen1924), Bloomfield (Reference Bloomfield1933 : 195), Zwicky (Reference Zwicky1985, Reference Zwicky, Corbett, Fraser and McGlashan1993), Croft (Reference Croft, Rooryck and Zaring1996). On retrouve l'idée dans des travaux plus récents comme Collins (Reference Collins, Epstein and Seely2002), Seely (Reference Seely and Boeckx2006), Boeckx (Reference Boeckx2008), Chomsky (Reference Chomsky, Freidin, Otero and Zubizarreta2008) et Pietroski (Reference Pietroski2008). Ces derniers auteurs ont recours à une règle spécifique d’étiquetage, alors que l'idée que je poursuis est de dériver l’étiquetage à partir de propriétés antérieures au langage. L'endocentricité découle de notre façon d'attribuer une propriété à un objet : l'objet demeure le même, même s'il est changé considérablement (une constatation qui remonte au moins à Hume [1739–40] (1978, I : 257). Ainsi, dans le langage, un nom auquel on ajoute un adjectif demeure un objet nominal, un verbe auquel on ajoute un argument demeure un objet verbal, etc. (Bouchard Reference Bouchard2013, Reference Bouchard2015b).
Minimalement donc, un syntagme verbal comme vois Paul reçoit la structure en (33), où le vois supérieur détermine entre autres que le syntagme est de la catégorie verbale :
(33)
Or ce syntagmatisme minimal permet d’établir directement une relation entre à qui et donnera en (28b), sans recourir à un outil additionnel comme un déplacement. Deux caractéristiques de l'approche expliquent le phénomène des dépendances à distance et leurs contraintes. Premièrement, la Fusion définit une localité très stricte, essentiellement la relation de sœurs syntagmatiques. La localité de domaine n'a donc pas à être inscrite dans une liste au contenu inexpliqué comme la GU.
Deuxièmement, l’étiquetage par les éléments lexicaux rend toutes les propriétés de la tête accessibles au niveau du syntagme. Par exemple, considérons le schéma en (34), où la tête C prend le constituant [A B] comme dépendant.
(34) C [A A B]
Si A fournit l’étiquette du constituant [A B], tous les traits de A sont projetés au nœud adjacent de C, et A est donc un nœud adjacent « étendu » de C, en ce sens que les spécifications de A sont accessibles à C. Le domaine de A est étendu de façon très précise : les spécifications lexicales de la tête sont rendues accessibles au niveau du syntagme, soit les propriétés permanentes comme les spécifications de sélection. Les effets de cette extension de relation expliquent qu'on puisse avoir des dépendances à distance comme celle en (28b). Le syntagme à qui est en relation avec son nœud adjacent, c'est-à-dire le syntagme tu penses que Marie croit que Paul donnera le livre. Le verbe penses projette et étiquette le nœud adjacent à à qui Footnote 8, de sorte que à qui a accès aux spécifications de penses, et en particulier à ses spécifications de sélection. Le verbe penses a à son tour un complément, et les spécifications de la tête de ce complément lui sont accessibles. En poursuivant ainsi, on atteint le constituant avec donnera à sa tête, ce qui fait que à qui a accès aux spécifications de sélection de donnera par transitivité des relations tête-complément. C'est ce processus qui sous-tend les intuitions derrière les notions de projection par percolation et marquage-L. De sa position en début de phrase, le syntagme interrogatif peut donc établir directement un lien syntaxique avec le verbe avec lequel il entretient une relation sémantique. Il y a donc une série de relations syntagmatiques locales qui sont établies entre l'interrogatif à qui et le verbe donnera, sans que le recours à des relations transformationnelles soit requis. Le strict minimum est suffisant pour établir un lien syntaxique entre les deux, et les conditions de déverrouillage de domaine n'ont pas à être inscrites dans une liste au contenu inexpliqué comme la GU, puisque l'extension de domaine découle de la minimalité des éléments en jeu : d'une part la Fusion, et d'autre part les éléments lexicaux avec leurs spécifications de sélection sémantique.
On peut voir clairement que c'est une dépendance sémantique qui est en jeu, par le fait que des facteurs sémantiques et pragmatico-sémantiques affectent les possibilités d'extension. Par exemple, l'effet de dominance (Erteschik-Shir Reference Erteschik-Shir1981) rend compte du contraste entre (35a) et (35b), entre (35c) et (35d), et du fait que (35d) devient acceptable dans un contexte où John déteste systématiquement tout ce qui concerne Nixon, ce qui rend le contenu du livre dominant (Bouchard Reference Bouchard1995 : 375).
(35)
a. John wrote a book about Nixon.
‘John a écrit un livre à propos de Nixon.’
b. Who did John write a book about?
‘À propos de qui John a-t-il écrit un livre?’
c. John destroyed a book about Nixon.
‘John a détruit un livre à propos de Nixon.’
d. #Who did John destroy a book about?
‘À propos de qui John a-t-il détruit un livre?
Comme l'extension de domaine se fait de façon bien spécifique – soit lorsque les relations tête-dépendant en jeu impliquent de la sélection obligatoire – il y a des constructions qui ne permettent pas cette extension, d'où les contraintes observées depuis Ross (Reference Ross1967). Ainsi, on ne peut extraire un élément hors d'une phrase relative (36b) ou hors du sujet d'une phrase (36d).
(36)
a. Jean connaît un étudiant [qui a lu ce livre].
b. * Quel livre est-ce que Jean connaît un étudiant [qui a lu t]?
c. [La sœur de Paul] a visité le Taj Mahal.
d. * De qui est-ce que [la sœur t ] a visité le Taj Mahal?
Les relations à distance en (36b) et (36d) sont illicites parce qu'elles ne peuvent pas être établies uniquement à partir des primitives que sont la Fusion et les éléments lexicaux. Comme l'apprenant est conservateur, il s'en tient aux dépendances qui découlent de ces primitives : il n’étendrait les domaines d'une autre façon que s'il avait des données positives indiquant qu'il doive aller au-delà de ces primitives. Mais l'apprenant n'est jamais exposé à de telles données, et il n'y a donc aucune raison pour qu'il fasse l'erreur d’étendre le domaine comme en (36b) ou en (36d). Aucune donnée négative n'est requise pour ceci, et ces phrases agrammaticales ne créent pas un problème d'induction abordé dans plusieurs travaux en acquisition du langage, de sorte qu'il n'est pas nécessaire d'inscrire des contraintes spécifiques au langage dans une GU.
8. Des effets phonologiques des catégories vides? La contraction en wanna
Selkirk (Reference Selkirk1972) a émis l'hypothèse que les traces syntaxiques peuvent avoir des effets sur certains phénomènes phonologiques. Jaeggli (Reference Jaeggli1980) a proposé d’étendre cette analyse à la contraction de want to en wanna ‘vouloir’ (aussi going to en gonna ‘aller’, ought to en oughta ‘devoir’). Cette contraction est bloquée quand la trace d'un sujet intervient entre want et to, comme en (37).
(37) Who do you want [S′ t2 [S t1 to come to the talk]]?
* Who do you wanna come to the talk?
‘Qui veux-tu qui vienne à la conférence?’
Par contre, d'autres catégories vides, comme PRO, une trace de SN ou des traces intermédiaires de Qu- ne bloquent pas la contraction.
(38)
a. I want [PRO to leave]. I wanna leave
‘Je veux partir.’
b. I'm going [t to stay]. I'm gonna stay.
‘Je vais rester.’
c. Who do you want [t [PRO to see t]]? Who do you wanna see?
‘Qui veux-tu voir?’
d. How do you want [t [PRO to do it t]]? How do you wanna do it?
‘Comment veux-tu le faire?’
Jaeggli en conclut que la grammaire fait une distinction entre les catégories vides selon qu'elles portent un cas abstrait et bloquent la contraction, et les autres, qui la permettent. Mais comme nous l'avons vu dans la section 3, l'ajout de propriétés particulières aux catégories vides risque de diminuer leur pouvoir explicatif. De plus, dans cet exemple particulier, il faut supposer qu'un cas abstrait, sans aucun trait phonologique, affecte l'adjacence linéaire lors d'un processus morphophonologique, ce qui semble incohérent. Il y a aussi un problème empirique. Postal et Pullum (Reference Postal and Pullum1978, Reference Postal and Pullum1982) présentent des exemples où aucune trace porteuse de cas abstrait n'intervient entre want et to, et pourtant la contraction est impossible (voir Bouchard (Reference Bouchard1986) pour d'autres constructions qui ont cet effet).
(39) I don't want [[to1 undress oneself in public] to2 become standard practice].
*I don't wanna undress oneself in public to become standard practice.
‘Je ne veux pas que se déshabiller en public devienne une pratique courante.’
Ils ont montré que la contraction est bloquée de cette façon dans différentes constructions à cause d'une condition structurale : to doit être la tête du complément infinitif de want pour que la contraction soit possible. Ainsi, en (39), c'est to 2 et non to 1 qui est la tête de la complétive, et le matériel lexical entre want et to 2 bloque la contraction.
Il y a donc deux conditions portant sur la contraction : une basée sur le cas abstrait, l'autre uniquement sur la structure. Le principe de simplicité nous amène à nous demander si on peut généraliser une des deux conditions pour rendre compte de tous les faits. Il est assez clair qu'on ne peut généraliser la condition basée sur le cas aux exemples comme (39). Par contre, il semble plus prometteur de tenter de généraliser la condition structurale à tous les exemples de contraction (Bouchard Reference Bouchard1986, contra Aoun et Lightfoot Reference Aoun and Lightfoot1984 et Boeckx Reference Boeckx2000).
On peut même renverser la condition en s'appuyant sur certaines propriétés connues du sujet grammatical. Un sujet entretient deux relations, l'une avec le syntagme verbal et l'autre avec le temps grammatical de la phrase. En (37), le sujet who est en relation étendue avec le SV come to the talk (voir la section 7 sur les relations à distance), et aussi avec to, qui porte le trait grammatical irrealis (un temps grammatical hors du temps; Stowell Reference Stowell1981). Ce qui achoppe, dans *who do you wanna come, c'est que wanna rend le to inaccessible à who ‘qui’, détruisant ainsi une partie de l'environnement requis pour que who joue son rôle de sujet. Le problème alors n'est pas que questionner who a pour effet de bloquer la contraction, mais plutôt que la contraction rend l'interprétation de who impossible en rapport au marqueur de temps. Comme l'indique Bouchard (Reference Bouchard2013 : 313), ceci est vraisemblablement relié au fait que l'anglais n'a pas l'option porte-manteau : le composant to du mot wanna ne peut fonctionner indépendamment du composant want, contrairement au français, où les composants préposition et déterminant de au et du peuvent fonctionner indépendamment; voir Bouchard (Reference Bouchard2002 : 44–45, 127–128) à propos d'autres effets porte-manteau.
Qu'on adopte ce point de vue ou une analyse plus structurale comme celle proposée par Postal et Pullum (Reference Postal and Pullum1982) et Bouchard (Reference Bouchard1986), il ressort qu'une généralisation de la condition sur la contraction devrait éviter de faire appel à un cas abstrait, ce qui serait plus cohérent pour un phénomène morphophonologique.
9. L'inversion dans les interrogatives
Depuis Chomsky [1957] (Reference Chomsky and Braudeau1969) jusqu'aux ouvrages de vulgarisation comme Pinker (Reference Pinker1994), l'inversion dans les interrogatives comme en (40) a servi d'illustration classique qui sert à montrer que les langues humaines comportent des opérations transformationnelles et sont sujettes à des conditions impossibles à apprendre sur la base des données linguistiques primairesFootnote 9, justifiant ainsi une composante très spécifique au langage encodée dans le cerveau humain, la GU.
(40)
a. The man who is tall is happy.
‘L'homme qui est grand est heureux.’
b. Is the man who is tall __ happy?
‘L'homme qui est grand est-il heureux ?’
c. * Is the man who __ tall is happy?
‘L'homme qui est-il grand est heureux?’
L'analyse standard en grammaire générative suppose qu'on forme une interrogative en anglais en déplaçant le temps de la phrase principale vers la position du comp en tête de phrase, plus haut dans la structure.
Si on regarde les données en (40a) et (40b) d'une façon très neutre, on observe que le verbe principal is ‘est’, qui porte le temps déictique, apparaît dans des positions différentes dans ces deux phrases et que ceci correspond à deux sens différents. Ceci soulève les questions suivantes :
(i) Pourquoi le temps est-il au cœur de ce contraste interprétatif?
(ii) Pourquoi l’élément porteur du temps se retrouve-t-il dans une position particulière, hors de la phrase de base?
(iii) Pourquoi l'ordre spécial est-il corrélé à une interprétation interrogative?
Étonnamment, après six décennies de travail par de brillants linguistes, le modèle générativiste ne fournit toujours pas de réponses à ces questions élémentaires. Tout ce qu'on offre comme réponse, ce sont des stipulations du genre : dans les interrogatives, un trait Q (pour Question) est présent dans comp et il attire le temps. De telles affirmations ad hoc ne font que redire en termes techniques ce que sont les faits et n'ajoutent rien à notre compréhension du phénomène : on nous dit seulement que ces faits sont en corrélation avec des traits du système descriptif.
Comme le montre Bouchard (Reference Bouchard2012, Reference Bouchard2013), on peut échapper à ce descriptivisme en tenant compte du fait que les enfants ne sont pas exposés uniquement à une différence d'ordre en (40), mais qu'en contexte d'emploi, ils sont aussi exposés à la différence de sens entre les deux phrases (voir le travail de Slobin Reference Slobin, Lenneberg and Lenneberg1975 sur le rôle du sens dans l'acquisition du langage). On peut décrire les alternances de sens et de forme en (40a) et (40b) en utilisant la notion de point (issue).
S'inspirant d'idées de Frege (Reference Frege1923) et de Davidson (Reference Davidson1984), Ladusaw (Reference Ladusaw and Wansing1996) pose qu'une prédication est une description d'une classe d’événements et que cette description est le point à propos duquel il faut émettre un jugement. Le point concerne l'ensemble de la phrase. On peut appliquer la notion aux exemples étudiés ci-dessus de la façon suivante. Dans une phrase affirmative, le locuteur exprime un jugement positif en plaçant le point sous la portée immédiate du temps déictique, soit le temps de la principale qui situe directement l’événement par rapport au moment d’énonciation (le ‘S' de Reichenbach Reference Reichenbach1947; voir aussi Bouchard Reference Bouchard, Forget, Hirschbühler, Martineau and Rivero1998b). Dans les interrogatives, le temps déictique est exprimé dans une position externe. Le point est alors présenté comme étant séparé du temps, comme n’étant pas établi : ceci donne l'interprétation interrogative, une requête pour savoir si le point devrait être considéré comme établi ou non. De ce point de vue, ce n'est pas un hasard que le temps dans comp soit l'expression d'interrogation. En générant le temps déictique hors de la structure de la phrase de base, on modifie sa relation avec le point, ce qui donne l'interprétation d'interrogation (Bouchard Reference Bouchard, Forget, Hirschbühler, Martineau and Rivero1998b, Reference Bouchard2002, Reference Bouchard2013). Il n'y a aucune raison pour que les enfants fassent une erreur comme en (40c) par analogie, puisque ceci n'est pas du tout analogue à ce qu'ils font.
10. Conclusion
Par cet échantillonnage d'analyses (et celles des auteurs d'autres articles dans ce numéro), on voit que la simplicité est loin d’être « simple ». Il ne s'agit pas seulement de déterminer ce que veut dire « simplicité ». Pour déterminer le coût d'une analyse, il faut aussi prendre en compte la nature des notions utilisées. Si ces notions sont motivées parce que logiquement antérieures, il y a parcimonie et explication.
Quand on applique rigoureusement cette méthodologie à des constructions étudiées depuis des décennies, on découvre de nouvelles pistes d'explication qui permettent de débloquer certaines analyses qui étaient figées dans un descriptivisme récurrent. Sous cet autre éclairage, même les faits, les propositions observationnelles, sont changés : il se produit un renversement de gestalt et notre perception de ce qui se passe dans les constructions s'en trouve transformée.
Cet exposé très sommaire de chacune des constructions peut sembler utopiste, voire simpliste. En plus, la plupart des références remontent à des décennies : ceci est intentionnel, pour souligner que les approches aux constructions présentées sont restées essentiellement les mêmes et que les problèmes fondamentaux demeurent. Mais la méthodologie est loin d’être un simple exercice de variantes notionnelles. Dans de nombreux autres travaux, j'ai analysé chacune de ces constructions dans le menu détail en employant la méthodologie de la simplicité qualitative (voir toutes les références ci-dessous). Dans chaque cas, les résultats sont probants. On comprend pourquoi un certain ensemble de propriétés structurales et sémantiques sont causalement reliées entre elles, et on peut ainsi prédire le résultat d'autres relations semblables. De plus, les analyses sont qualitativement parcimonieuses et explicatives parce que basées sur des éléments logiquement antérieurs au langage. Ceci permet de découvrir des généralisations qui correspondent à des propriétés profondes des langues, et donc du langage en tant que faculté humaine.
Abstract
The explanatory value of a scientific theory rests not only upon the quantity of primitive elements adopted (principle of simplicity), but also upon the quality of these elements. In linguistics, the properties of the perceptual and conceptual substances of the signs provide a solid explanatory basis because they are logically prior to the object under study. This is particularly important because language is a neurological, biological phenomenon. The less language-specific the elements of a linguistic theory are, the more likely they are to have the granularity required to be biologically plausible (Poeppel and Embick Reference Poeppel, Embick and Cutler2005).
This perspective has been guiding my research for decades. I illustrate it by an analysis of several constructions now classic in syntactic studies, to give a global view of its consequences. This methodological approach renews the notion of explanatory adequacy and answers questions that have been left pending in linguistic argumentation for the past six decades.
Résumé
La valeur explicative d'une théorie scientifique repose non seulement sur la quantité des éléments primitifs adoptés (principe de simplicité), mais aussi sur la qualité de ces éléments. En linguistique, les propriétés des substances perceptuelles et conceptuelles des signes offrent une base explicative solide parce qu'elles sont logiquement antérieures à l'objet qui est à l’étude. Ceci est particulièrement important parce que le langage est un phénomène neurologique, voire biologique. Moins les éléments d'une théorie linguistique sont spécifiques au domaine langagier, plus ils sont susceptibles d'avoir la granularité nécessaire pour être biologiquement plausibles (Poeppel et Embick Reference Poeppel, Embick and Cutler2005).
Cette perspective est celle qui guide mes travaux depuis des décennies. Je l'illustre par l'analyse de plusieurs constructions maintenant classiques dans les études en syntaxe, pour donner une vision globale des conséquences de cette approche. Cette approche méthodologique renouvelle la notion d'adéquation explicative et répond à des questions laissées en suspens dans l'argumentation linguistique des six dernières décennies.
Keywords
syntax
semantics
explanatory power
qualitative simplicity
language substances
Mots clés
syntaxe
sémantique
pouvoir explicatif
simplicité qualitative
substances langagières
1. Introduction
Linguistics, like any science, is subject to certain basic principles. First, a linguistic theory must explain data (from a corpus or speaker judgments), that is, it must account for why data have certain properties, and it must make consistent predictions.Footnote 1 Then, the theory must be expressed in the simplest, the most compact way possible, which allows us to discover generalizations that correspond to deep properties of languages, and hence of language as a human faculty. This second principle corresponds roughly to what Chomsky called explanatory adequacy, which he has instrumentalized by the evaluation metric in The logical structure of linguistic theory [1955] (Reference Chomsky1975) and Syntactic structures (Reference Chomsky1957). The idea is clearly formulated in Chomsky (Reference Chomsky1965: 43):
We have a generalization when a set of rules about distinct items can be replaced by a single rule (or more generally, partially identical rules) about the whole set, or when it can be shown that a “natural class” of items undergoes a certain process or set of similar processes. Thus, choice of an evaluation measure constitutes a decision as to what are “similar processes” and “natural classes” – in short, what are significant generalizations.
In sum, a simpler system of rules is better, and we make a system simpler by reducing the number of symbols (and also the length of derivations). For Chomsky, the evaluation metric helped solve the problem of the acquisition of language by imposing restrictions on the class of possible grammars.
More generally, in science, theories are subjected to the principle of simplicity (economy, parsimony), often attributed to William of Occam, which is expressed as follows: Pluralitas non est ponenda sine necessitate. ‘Multiplicity is not to be posited without necessity.’
However, this fundamental principle is not simple to apply, either in its overall design or in the particular way we apply it in linguistics. I will therefore try to clarify its modalities.Footnote 2 Sometimes, its application consists simply in counting the terms of two theories that are compared and retaining only those that are necessary, as the evaluation metric implies. However, this elementary case occurs very rarely.
The application of the principle is more complicated, because all elements are not equal. There are qualitative considerations that must be taken into account. Some elements have a lower, or even a zero cost, because they are motivated independently of the theory under consideration. For example, Tesnière (Reference Tesnière1959), based on the principle of linearity of Ferdinand de Saussure [1916] (Reference de Saussure1967), shows that several structural properties of syntactic constituents derive from the fact that the sounds produced by the vocal apparatus are sequential, and therefore the words must appear in a temporal order; see also Kayne (Reference Kayne1994).Footnote 3 These authors thus base their analyses on a property motivated independently of linguistics, a property logically prior to language and which is explained by other sciences. Such a theory is highly explanatory, since it is based on a property that is necessary independently of language (what Chomsky (Reference Chomsky2005) calls the third factor).
More generally, some necessary components are essentially observational propositions that are considered obvious by a community of scientists. An observational proposition is made nonfalsifiable by fiat, and anyone who has learned a relevant technique can verify that the assertion is acceptable (Lakatos Reference Lakatos, Lakatos and Musgrave1970: 106, quoting Popper Reference Popper1963), hence the consensus in the scientific community. The community therefore considers that these propositions are valid in general, axiomatic: the sciences to which they could be submitted are considered to be logically prior to the domain of the scientific community. An observational status is attributed to the more established theories of these anterior sciences and they are used as extensions of our senses. These theories are not considered as theories under test, but as basic knowledge, by convention (see Lakatos Reference Lakatos, Lakatos and Musgrave1970: 106−107, about the frequent use of such conventions in hard sciences).
We must however be wary of arguments from authority, and need not accept that an element is independently motivated simply because it was put forward by a well-known linguist or a popular group. By focusing on elements independently motivated by sciences logically prior to the domain of linguistics, we avoid this pitfall. In particular, the properties of the perceptual and conceptual substances of language offer a solid explanatory basis, because one can relate the explanandum (phenomenon to be explained) to an explanans (source of explanation) which is motivated independently of the domain of linguistics. This approach also offers a possible solution to the deep problem created by the hypothesis of Universal Grammar (UG), the part of the human brain said to be prewired for language. As pointed out by Chomsky (Reference Chomsky2005, Reference Chomsky2007), UG contains the unexplained elements of the initial state of the speakers. The larger this component of unexplained elements is, the more difficult it is to account for its biological evolution, and therefore the less plausible the model is. Yet, the use of features and categories specific to language, without cognitive or biological foundations, is constantly increasing (Bouchard Reference Bouchard2005a), to the point where Cedric Boeckx, who had harshly criticized my observation on this point (Bouchard Reference Bouchard2013), now speaks of featuritis (Boeckx Reference Boeckx2014).
The UG component is postulated because several generalizations expressed by generativist principles seem impossible to learn on the basis of the primary linguistic data. Scholars conclude that innate linguistic principles constrain the acquisition path and that children do not have to learn these principles since they are part of their genetic make-up. They consider that these UG principles are not costly, since they are innate. But as Bouchard (Reference Bouchard2005b: 123) points out, “c'est là une interprétation abusive de l'approche biolinguistique qui l'assimile dangereusement à un saut vers une insaisissable cause finale” [this is an abusive interpretation of the biolinguistic approach, bringing it dangerously close to a leap to an elusive final cause].
Very early on, I was uncomfortable with the methodology based on the notion of UG. First, a list of features, conditions and operations is a taxonomy that is neither enlightening nor explanatory. But above all, I find odd the reasoning that views the inability of some analytical tools to explain the facts as a confirmation of a highly developed UG. The fact that UG is justified by a lack of explanation should instead alert scientists that the theoretical framework is problematic, that we need to find what is causing these problems and to propose an alternative that would ideally allow UG to be reduced to zero. The most effective way to get there is to adopt a methodology based on elements that are independently motivated, logically prior to language. The less the elements of a linguistic theory are language-specific, the more likely they are to have the granularity necessary to be biologically plausible (Poeppel and Embick Reference Poeppel, Embick and Cutler2005). This methodology has been guiding my work for decades.
When we rigorously apply the principle of simplicity, taking into account qualitative aspects like the properties of the perceptual and conceptual substances of language, we are led to consider the data from a different angle, and we discover new generalizations and natural classes. Where the theoretical model currently in vogue shows a degree of paralysis, this other approach gives more enlightening results. Instead of showing this by discussing a single example in detail, I will present the effects of this approach by discussing the analysis of several now-classic constructions in syntax, in order to provide a more holistic view. Readers interested in the details of the analyses are invited to consult the works to which I refer. We will see that this methodological approach renews the notion of explanatory adequacy and answers questions that have remained unanswered in the linguistic argumentation of the last six decades.
2. How many X-bar projections are there?
A question often raised in the 70s and 80s concerns the number of X-bar projections (see the detailed discussion in Jackendoff Reference Jackendoff1977). The problem consists in having a sufficient number of projections to accommodate the different types of complements and modifiers, without overloading the system. After numerous attempts, the most generally adopted number is two, to make a minimal distinction between complements and specifiers.
But as soon as we adopt a fixed number of projections, whatever it is, we must “cheat”. On the one hand, there are often heads that appear alone in their projection, like the nouns and adjectives in (1), or heads that appear with a complement but no specifier as in (2), or heads that appear with a specifier only, as in (3).
(1)
a. Paul est heureux.
‘Paul is happy.’
b. Beavers are eager.
(2)
a. C'est un homme heureux de son sort.
‘He is a man happy with his fate.’
b. He is proud of his daughter.
(3)
a. Il est très heureux.
b. He is very happy.
To maintain the two-level projection, we have to posit levels with no detectable effect. Conversely, there are cases where there is too much material, such as the two complements in (4) and the numerous specifiers in (5).
(4)
a. Pierre a donné un coup de main à sa mère.
‘Pierre gave his mother a helping hand.’
b. John gave the ball to his dog.
(5)
a. une bonne vieille solution
‘a good old solution’
b. a big red American car
Scholars propose to split the nodes to accommodate the structure when there are more elements combined with the head, or to artificially add functional heads; all of this with no effect in language and serving only to avoid refutation of the hypothesis.
Bouchard (Reference Bouchard1979: 22−24) shows that, by using lexical information to the maximum (without enriching it), we can significantly reduce the syntactic component without resorting to tricks. With a simple general Merge rule, two constituents that we combine produce a constituent that is a projection of the category of one or the other constituent, depending on the interpretability of the result.
(6)
$ [{}_{{\rm X}^{{\rm n}+1}}{\rm X}{}^{\rm n}{\rm Y}{}^{\rm m}]\; {\rm or}\; [{}_{{\rm Y}^{{\rm m}+1}}{\rm X}{}^{\rm n}{\rm Y}{}^{\rm m}]$
We need not postulate an absolute minimal or maximal level of projection: the structure projects as many times as the semantics requires. If no element is added to a head, this head is an X0 that is simultaneously an Xmax. If four items are added, there are four levels of projection and Xmax is an X4. Xmax is the topmost projection, regardless of the number of bars. Moreover, syntax does not have to filter out cases such as those in (7), because they are filtered automatically by semantics, regardless of how we combine the words syntactically.
(7)
a. # Jean enseignait la [vertement linguistique]
‘Jean taught the greenly linguistics'
b. # Sont de séduits pas chiens chats
‘Are of seduced not dogs cats'
In short, merging constituents is free, but if the resulting constituents are not functionally interpretable, then the sentence is filtered out. The syntactic component can therefore be simplified dramatically. Chomsky (Reference Chomsky1995) has also proposed a “Bare Phrase Structure” with a relational definition of the projections. In fact, however, because he maintains a distinction between specifiers and complements, his system retains some of the defects of the classic X-bar system. Among other things, he uses split nodes and adds functional categories to maintain a [Spec [head complement]] system.
3. How many empty categories are there, with which properties?
Selkirk (Reference Selkirk1972) was the first to propose traces for constituents moved in syntax, to explain phonological phenomena, such as the impossibility of liaison in French in contexts where it would otherwise be expected. Fiengo (Reference Fiengo1974) suggested that traces are anaphors, and therefore fall under the locality constraints of lexical anaphors, thus explaining certain locality conditions on sentences with “gaps” (Ross Reference Ross1967). The derivation of these sentences with “gaps” is reduced to the derivation of sentences with concrete elements. The unknown is thus explained by the known, since the locality conditions of anaphors are independently motivated.
After Selkirk (Reference Selkirk1972) and Fiengo (Reference Fiengo1974), new empty categories were rapidly added to the theory: the PRO of infinitives, the pro of sentences with an empty subject, and the division of traces into NP and Wh-traces.Footnote 4 The number of empty categories is not necessarily a problem in itself. But each new empty category has been endowed with properties of its own, so the derivation of sentences with gaps no longer reduces to the derivation of sentences with concrete elements, contrary to what Fiengo originally proposed. To illustrate this, I discuss the typical case of PRO, the subject of infinitives. Two specific conditions apply to PRO. Concerning its distribution, PRO is subject to the no-government condition. As for its interpretation, PRO has its own binding theory: control theory. When the number of special conditions multiplies with the addition of new empty categories, the theory loses some of its explanatory power.
But we can easily avoid this pitfall by aiming for a more generalizing approach (Bouchard Reference Bouchard1984). First, the distribution of empty categories follows from a Principle of Lexicalization.
(8) Principle of Lexicalization:
An NP is lexicalized if and only if ψ-features are present in the entry of N in Phonological Form, where ψ = person, number, gender, case.
This principle applies to all nominals, whether lexical or empty.Footnote 5 It follows that (i) a lexical N must have all ψ−features in Phonological Form, and (ii) a non-lexical N must have none of the ψ−features in Phonological Form. A nominal category is empty if it has no ψ−features in Phonological Form and it can receive interpretive features in Logical Form (pronounced categories check their features in Logical Form by agreement; empty categories obtain their features in Logical Form by agreement). This is exactly what is expected in a linguistic model where the syntactic base feeds two components by independent channels, one which interfaces with the form and the other with the meaning.
A principle of lexicalization therefore accounts for the distribution of empty categories like PRO. Interpretively, PRO behaves sometimes like an anaphor, as in (9a), and sometimes like a pronoun, as in (9b–c).
(9)
a. Je veux PRO partir.
‘I want to leave.’
b. PRO partir, c'est PRO mourir un peu.
‘To leave is to die a little.’
c. Jean a parlé à Marie de PRO se marier à l’église.
Jean talked to Marie about getting married in church.’
This does not mean that PRO is a pronominal anaphor. In fact, it is the hypothesis that PRO is a pronominal anaphor that has caused all the theoretical problems concerning its interpretation and its distribution. PRO is either an anaphor or a pronoun, depending on the relation established with its antecedent (Bouchard Reference Bouchard1985). This is confirmed by an independent language property that distinguishes anaphors and lexical pronouns. As Ross (Reference Ross1967) noted, when there is “deletion” of the verb phrase, an anaphor in the “reconstructed” verb phrase gets a referential interpretation different from that of the anaphor in the original verb phrase. Thus, in (10), the first anaphor refers to John, whereas the “reconstructed” anaphor refers to Bill. On the other hand, a pronoun in a “reconstructed” verb phrase as in (11) has two possible interpretations: its referent is either identical with the referent of the pronoun in the original verb phrase, or its referent differs from it.
(10) John likes himself, and Bill does too. (i.e., Bill likes Bill.)
(11) Johni thought that hei would win, and Bill did too. (i.e., Bill thought that John/Bill would win.)
If we apply the test to constructions with PRO, we see that the local, hence anaphoric, PRO only gets a referential interpretation different from that of the PRO in the original verb phrase, as in (12), while a non-local, hence pronominal PRO has a referent either identical with the reference of the PRO in the original verb phrase, or different from it, as in (13).
(12) John tried PRO to leave early, and Bill did too. (i.e., Bill tried for Bill leave early.)
(13) John thinks that it will be difficult PRO to see the President, and Bill does too.
(i.e., Bill thinks that it will be difficult for Bill/John/someone to see the President.)
In sum, we don't need special conditions to account for the distribution of PRO (Principle of Lexicalization) or for its status (anaphor or pronoun).
4. Subject raising
In standard transformational analyses, the pronoun il ‘it’ in (14a) is a defective sign, which has a form but no meaning or reference. In (14b), Pierre is a split sign: its form is in the subject position of semble ‘seems', but it is interpreted only as an argument of comprendre l'explication ‘understand the explanation’, the predicate of the embedded sentence.
(14)
a. Il me semble que Pierre comprend l'explication.
‘It seems to me that Pierre understands the explanation.’
b. Pierre me semble comprendre l'explication.
‘Pierre seems to me to understand the explanation.’
These two hypotheses are problematic for the Principle of Compositionality.Footnote 6
(15) Principle of Compositionality:
The meaning of an expression depends upon the meaning of its constituents and the way they are combined.
As indicated by Hintikka (Reference Hintikka1983), Hausser (Reference Hausser1984), Partee and Hendriks (Reference Partee, Hendriks, van Benthem and ter Meulen1997), and Clark and Lappin (Reference Clark and Lappin2011), the principle operates only with properties that are directly linked to tangible elements of the interfaces. If a theory admits covert elements, a speaker can never be sure that a sentence does not contain a covert element that was previously unknown and which affects its interpretation. As a result, compositionality loses its ability to explain how we understand new sentences. It is therefore very important to solve this problem, since it undermines the explanatory foundations of language, even more so today because there is now a proliferation of covert elements in generative grammar: covert levels, empty categories (in particular, a profusion of functional categories), covert features, covert operations. Covert elements are also a problem for explanatory adequacy and acquisition. Hearing a sentence, a learner can assume various covert elements that this sentence could contain and which would modify its structure and its interpretation, making acquisition very difficult, if not impossible, depending on the degree of analogical invention we attribute to the speaker. To constrain covert elements, it must be assumed that UG contains a precise inventory of such elements and that the speaker cannot deviate from it. But a model based on such a fixed and unchanging repertoire is then subject to the criticism that Chomsky addresses with respect to Ferdinand de Saussure's model: “[…he] regards langue as basically a store of signs with their grammatical properties, that is, a store of word-like elements, fixed phrases, and, perhaps, certain limited phrase types” (Chomsky Reference Chomsky, Fodor and Katz1964: 59). In a classifying UG (such as the cartographic model), each syntactic construction, and even each of its instantiations, reduces to a list of covert features: each case of Merge or Move is licensed by the presence of a feature listed in the lexicon that must be checked. Here I present a solution to the problem for compositionality as it arises in the constructions in (14), but the methodology extends to other analyses overloaded with covert elements.
The standard analysis is based on the impression that the position of the subject of verbs like sembler ‘seem’ is not a thematic position, that these verbs are not normal and that their verb phrase does not semantically select the subject. However, this impression is false. In fact, sembler imposes subtle yet detectable restrictions on its grammatical subject. Thus, the causative verb faire ‘make’ requires that the affected entity have some control over the event of the embedded phrase: we can make someone do something only if that person has the capacity to do it. That is why (16a) is not felicitous: we don't have control over our size. But if we insert the verb sembler as in (16b), the result becomes acceptable.
(16)
a. # Ce costume te fait être énorme.
‘That suit makes you be huge.’
b. Ce costume te fait sembler énorme.
‘That suit makes you seem to be huge.’
In fact, sembler is a verb of evidentiality, as suggested by Rooryck (Reference Rooryck2000) (following Jakobson Reference Jakobson and Jakobson1971, Anderson Reference Anderson, Chafe and Nichols1986, Chafe and Nichols Reference Chafe and Nichols1986, Palmer Reference Palmer1986), and the verb selects its subject like any other verb; see Bouchard Reference Bouchard2013, Reference Bouchard, Dziubalska-Kolaczyk and Weckwerth2015a for a detailed analysis).
There are four elements of evidentiality (Rooryck Reference Rooryck2001a, Reference Rooryck2001b):
(i) information: a proposition;
(ii) evidence for information (type: intuitive, sensory, inferential, hearsay, quoted from memory, public awareness, etc.);
(iii) source of information (point of view 1st, 2nd, 3rd person, written document, etc.);
(iv) reliability of the information (reliable, likely, expected, desirable, etc.).
In terms of evidentiality, a sentence like (14a) is analyzed as follows:
• information: the proposition Pierre comprend l'explication ‘Pierre understands the explanation’, in the complement of semble ‘seems';
• evidence: the ambient event to which the subject il ‘it’ refers;
• source of information: indicated by the dative complement me ‘to me’;
• reliability of information: the meaning of semble suggests that the information is likely, or expected.
The evidentiality of (14b) is realized in a similar pattern:
• information: the proposition of the infinitive comprendre l'explication ‘understand the explanation’, which is the complement of semble ‘seems';
• evidence: it comes from the subject Pierre, which refers metonymically to the state in which the referent is;
• source of information: indicated by the dative complement me ‘to me’;
• reliability of information: the meaning of semble suggests that the information is likely, or expected.
The same general pattern therefore applies to the two types of sentences with semble. In the construction X semble Y à Z ‘X seems Y to Z’, X is the evidence for the information Y coming from the source Z. Since evidentiality can come from different types of evidence and semble is a very general verb of evidentiality, anything can seem, so anything can be the subject of semble. This is why a casual look at sentences with sembler gives the impression that the subject of sembler is not selected semantically.
All the syntactic properties of sentences with sembler derive from the semantics of evidentiality of this verb. In particular, il and Pierre are both normal signs in (14), and not defective signs as assumed in transformational analyses. The evidentiality component of the meaning of sembler (and similar verbs) requires that Pierre be an argument in (14b), a normal sign whose form and meaning constitute a whole. This sentence is a simple case of a nominal argument in subject position and a sentential argument in direct object position. In (14a), the pronoun il refers to the ambient event, a normal use of a pronominal sign. The raising and expletive uses of verbs like sembler are considered in this analysis as simple cases of evidentiality, in compliance with the Principle of Compositionality. The semantics of evidentiality of this class of verbs explains the strong similarities and the slight differences between (14a) and (14b).
5. Other pronouns supposedly lacking meaning and reference
There are other cases where some assume that pronouns make no lexical contribution to the interpretation of a sentence. Existential constructions are a typical case (see for example Chomsky Reference Chomsky and Kenstowicz2001: 33). Thus, in the two equivalent sentences in (17), the French pronouns il ‘it’ and y ‘here, there’ and the pronoun there in English would be inert, expletive.
(17)
a. Il y a un nid dans l'arbre.
b. There is a nest in the tree.
But why are there expletives in existential constructions? Why are the expletives y and there homonyms of locative pronouns? Why are these locatives used rather than là ‘there’, ici ‘here’, here? What is the position of the noun phrase un nid/a nest? Why is this NP indefinite? Aside from the question of the position of the NP, these questions are almost never raised in generative analyses. To answer these questions, let's see what elements are involved and how they are combined syntactically.
In (17b), there is in the subject position of the copula be, with the NP a nest in the position of a predicative NP, as in simple cases of predication subject + be + NP (Jenkins Reference Jenkins1972):
(18)
a. That is a house.
b. There is a Santa Claus in the play.
c. John is a Santa Claus in the play.
Guéron (Reference Guéron1998) suggests a similar structure for French: the locative y and the NP form a small clause where y is the subject and the NP is the predicate. So we must understand why the fact of predicating indefinite NPs of there and y results in an existential interpretation (Bouchard Reference Bouchard1998a). In a construction where an indefinite NP is the predicate, such as (19), the subject Jean refers to an individual with a set of properties, and the sentence is true if the property denoted by the predicative NP un bon médecin ‘a good doctor’ is part of the properties of Jean, that is, if it is correct to attribute to Jean the property of being a good doctor.
(19) Jean est un bon médecin.
‘John is a good doctor.’
If an existential construction like (17b) is a simple predication, then the sentence is true if the property denoted by the NP a nest is part of the set of properties of the referent of there. To make this judgment, we must determine what are the properties of a nest and there. A definite NP such as the nest refers to an entity whose existence in the world of discourse is part of what is presupposed, whereas an indefinite NP such as a nest creates a new referent (Heim Reference Heim1982). As for there, it is the antideictic centre (as opposed to here); in a spatial use, there refers to something that is outside the immediate space of the speaker; in uses other than the spatial use, the reference point is a property of the speaker relevant to the semantic field.
Most referential expressions vary as to the semantic domains where they can apply. This also holds for there and y, which can refer to elements in various semantic domains, as in the following examples:
(20)
a. We're getting there (while adding, writing a paper, etc.)
b. There I agree with you.
c. So there it is and nothing can be done about it.
d. Il y va de votre vie.
‘Your life depends on it.’
e. J'y compte bien.
‘I should hope so.’
In existential constructions, instead of a physical space, it is a mental space that is involved (on the concept of mental space, see Fauconnier Reference Fauconnier1984): there refers to a possible world (Wn), a mental concept. In a mental use, the deictic center is the speaker as a subject of consciousness. Since there is the antideictic centre, it refers to a point in the mental space of the speaker, his content of consciousness, but which is other than the speaker. As for French y, it is a very general, non-deictic locative. In a mental use, y refers to mental space in general, so to all the content of consciousness.
If we put together the information provided by the nature of the locative pronoun and the indefinite NP, and their relation of subject and predicate, we get an explanation of the existential effect. In a sentence, the subject is the actualizer of the event (van Voorst Reference van Voorst1988), and therefore typically known material, whereas what is predicated is new material. Therefore in (17b), there refers to a locus in the content of consciousness and is inserted in subject position, as known material, and the indefinite NP a nest, a new referent, is inserted in a predicate position, as new material. By predicating an NP of there (or y), I assert as the speaker that this NP is a property of the set to which there (or y) refers, such as a possible world Wn in my content of consciousness. When the NP is indefinite as in existential constructions, I introduce a new referent as the property of a possible world Wn. In short, we attribute the property un nid/a nest to this point Wn in the mental space of the speaker. It is this form of existence that I assert as the speaker. I assert that something new belongs to my content of consciousness, that is to say, “exists”. There is no need of covert movement, of a covert existential operator or other devices. The existential interpretation follows from simple, independently motivated properties of the syntax and the semantics of predication, of the nature of indefinite NPs, and of reference in mental space.Footnote 7
6. Conditions on the binding of pronouns
Since the pioneering work of Langacker (Reference Langacker, Reibel and Schane1969), many linguists have studied the structural conditions that appear to govern the referential relations between a pronoun and an NP in a sentence. For example, the impossibility of a referential relation between he and Rumsfeld in (21) would be due to the condition in (22) (Condition C of the binding theory).
(21) Il cache les armes de Rumsfeld dans son sous-sol.
‘He hides Rumsfeld's weapons in his basement.’
(22) Condition C:
A referential expression must be free (not c-commanded by a coindexed element).
It is generally considered that a variant of the condition in (22) must be inscribed as a law in UG; see Lasnik (Reference Lasnik and Lasnik1989) for an argument to that effect. Since the data concern the semantic/pragmatic phenomenon of reference, it is totally fortuitous that a condition on referential dependency contains a strictly structural notion such as c-command. Moreover, there is no principled reason that the condition should refer to this structural configuration rather than any other, nor that the condition should operate in this direction, that is, between a pronoun and a referential expression, rather than the other way around. In short, the condition in (22) is more descriptive than explanatory.
However, if we look at the cognitive process at work, there is nothing random here. Already in 1979, Thomas Wasow observed that Condition C seems to stem from a more general condition to the effect that an element may not depend for its interpretation on a less informative element, as expressed in the condition in (23) (see similar observations by Keenan Reference Keenan1975: 451, Ruwet Reference Ruwet1982: 253, Levinson Reference Levinson2000: 181, among others).
(23) Novelty Condition (Wasow Reference Wasow1979):
An anaphorically dependent element cannot have more determinate reference than its antecedent.
An element is more or less referentially determined depending on the amount of information it provides to identify the potential referents. Wasow's condition accounts for facts like those in (24), where doctor heads an NP which is more determinate than the one headed by man.
(24)
a. A doctori walked into the room. The mani at first said nothing.
b. * A mani walked into the room. The doctori at first said nothing.
The Novelty Condition offers a solid explanation of the facts since it follows from external cognitive properties related to the informational content. Let's see how it applies to an example like (21). Pronouns depend on another element for their reference, typically on a referential expression. The condition captures the intuition that a referential expression cannot depend on a coreferential pronoun for its interpretation. But in what way does the referential expression depend on the pronoun for its referential interpretation in (21)? In this example, the pronoun is the subject of the sentence. The subject is involved in another semantic relation: the predication of the verb phrase. The validity of this predication depends on the identity of the subject: the predication is valid if the referent of the pronoun il ‘he’ actually has the property expressed by the verb phrase cache les armes de Rumsfeld dans son sous-sol ‘hides Rumsfeld's weapons in his basement’. Since the NP Rumsfeld is part of that predicative phrase, its interpretation depends on the identity of the subject. But at the same time, the identity of the pronominal subject il depends on the NP Rumsfeld if they are coreferential. These crossed dependencies between the pronominal subject il and the NP Rumsfeld are contradictory and incoherent, so the coreferential reading is impossible.
As Bouchard (Reference Bouchard2013: 261−267) indicates, this suggests a more insightful way to express the binding condition, as a theorem arising from other aspects of grammar and Wasow's Novelty Condition.
(25) Theorem on referential dependency:
A referentially dependent element E (such as a pronoun) cannot depend on a referential expression that is in the constituent X which combines with E (because this combination implies that the complex property of X is predicated of E, which results in an incoherent referential interpretation).
The less information a pronoun provides regarding the identity of the referent of the subject, the more this pronoun can depend referentially on an NP which is part of the predicate, because the inconsistency between the interpretation of the pronominal subject and the interpretation of the predicative phrase is reduced. Thus, the pronouns il ‘he’ and sa ‘his, her’, embedded in the subject in (26), provide much less information as to the identity of the referent of the subject, and the sentence does not violate the Novelty Condition, nor its theorem in (25).
(26)
a. Qu’il ait gagné la course a surpris Jean.
‘That he won the race surprised Jean.’
b. Sa mère a donné une grosse bise à Jean.
‘His mother gave a big kiss to Jean.’
Of course, this sketch only scratches the surface of referential dependencies, and there are many other constructions to consider in order to evaluate the proposed analysis. However, this type of analysis paves the way for a principled explanation of the facts. A general condition like (23) and its theorem in (25) explain a wider variety of referential dependencies than the structural condition, and restrict language acquisition just as much as a specific condition randomly listed in UG.
Although it is just a sketch, the analysis is better grounded from a conceptual point of view, as discussed by Rooryck and Vanden Wyngaerd (Reference Rooryck and Vanden Wyngaerd2011) (see also early proposals in Coppieters Reference Coppieters1982, van Voorst Reference van Voorst1992, Bouchard Reference Bouchard1995). Grammar need not contain rules or principles dealing specifically with anaphors or pronouns, and we can move away from the usual taxonomic analyses. In addition, there are many indications that it is better to base the binding theory on a cognitive analysis. We can see this for example in Culicover and Jackendoff (Reference Culicover and Jackendoff2005: chapter 11) where cognitive principles are used to account for the obviative binding of X-else in English. Similarly, Ruwet (Reference Ruwet1991) shows that the alternation between subjunctive and infinitive in French as in (27) depends on the relation between the subject of the main clause and the subject of the embedded clause: self-to-self relationship in (a) and self-to-other relationship in (b).
(27)
a. Je veux amuser ces enfants.
‘I want to amuse those children.’
b. ? Je veux que j'amuse ces enfants.
‘I want that I amuse those children.’
7. Why are there long distance dependencies? Why do they have locality effects?
Long distance dependencies are central to generative argumentation. A typical example is found in Wh-interrogatives like (28b), where à qui ‘to whom’ has the same function as à Marcel ‘to Marcel’ in (28a), that is the indirect object of donnera ‘will give’, although à qui is very far from the position that is usually taken to be normal for this element.
(28)
a. Je sais que tu penses que Marie croit que Paul donnera le livre à Marcel.
‘I know that you think that Marie believes that Paul will give the book to Marcel.’
b. Je sais à qui tu penses que Marie croit que Paul donnera le livre [t].
‘I know to whom you think that Marie believes that Paul will give the book [t].’
The classical analysis assumes a movement operation that connects à qui with the natural position of indirect object, indicated by the trace in (28b).
In his remarkable thesis, Ross (Reference Ross1967) shows that, even if a phrase could be moved potentially infinitely far from its natural position, there are several constructions where the transformation is subject to very precise locality constraints, constraints that Chomsky (Reference Chomsky, Anderson and Kiparsky1973, Reference Chomsky, Culicover, Wasow and Akmajian1977) subsumed in part within the notion of subjacency. It is still a much-discussed topic and many works trying to refine these constraints appear every year. For instance, Chomsky (Reference Chomsky and Kenstowicz2001) has proposed that the domain that determines the locality of extraction is the phase, which includes the elements in active memory and therefore accessible at a given point in the derivation: this phase corresponds to the syntactic counterpart of a proposition. This delimitation of the local domain is inscribed in UG. The phase cannot be completely inert, otherwise no element could get out by movement. Chomsky proposes an escape hatch – the head and its edge – in the Phase Impenetrability Condition (29), which is also attributed to UG:
(29) Phase Impenetrability Condition:
In a phase φ with a head H, the domain of H is not accessible to operations out of φ, but only H and its edge.
Operations can therefore connect an element in a domain φ with an element outside this domain, and their successive application allows long distance dependencies as in (28b). Several similar proposals have been made over the years to try to identify the conditions that unlock a domain, that allow an element to escape from its local domain, such as the Percolation Projection of Kayne (Reference Kayne1983) and Chomsky's (Reference Chomsky1985) L-marking.
(30) Percolation Projection:
A is a percolation projection of B iff A is a projection of B, or A is a projection of C, where C bears the same superscript as B and governs a projection of B, or a percolation projection of B.
(31) L-marking:
α L-marks β iff α is a lexical category that θ-governs β.
(α θ-governs β iff α is a zero-level category that θ-marks β, and α, β are sisters.)
All proposals of this kind have the following in common: the delimitation of the local domain and the conditions of its unlocking are part of UG; so as things stand, they are left unexplained. There has been progress in the description – the local domain and the conditions of its unlocking are more precise – but the level of explanation of these elements has remained essentially the same, that is, a repertory of contingent properties.
There is a redundancy in this type of analysis that puts us on a path toward an explanation (Bouchard Reference Bouchard1984, Reference Bouchard2002, Reference Bouchard2013). On the one hand, a sentence like (28b) includes a series of local transformational relations that result from the cyclic application of movement, as represented by the traces in (32).
(32) Je sais à qui tu penses [t] que Marie croit [t] que Paul donnera le livre [t].
‘I know to whom you think [t] that Marie believes [t] that Paul will give the book [t].’
On the other hand, the local domains and the conditions of their unlocking depend on a series of local syntagmatic relations between heads and adjacent nodes. The selectional relation between heads and complements plays a central role in these analyses: this is expressed by the superscript in (30) and by θ-marking in (31). Is it necessary to have two sets of local relations, transformational and syntagmatic? The syntagmatic relations are necessary. Could they not be sufficient, since the transformational relations are parallel to them and depend on them? Bouchard (Reference Bouchard1979, Reference Bouchard1984, Reference Bouchard2002, Reference Bouchard2013) shows that this is indeed the case.
Consider first the syntagmatic relations. The minimal approach is to have as a syntagmatic primitive only the very general Merge rule that combines two syntactic elements to form a new one (Bouchard Reference Bouchard1979, Chomsky Reference Chomsky1995). As to the elements being combined, we also restrict them to what is strictly necessary: at a minimum, there must be lexical elements. The ideal approach would therefore use only these elements and would not include labels of levels such as N′ /V′ or N″/V″, since these elements are redundant: as we saw in section 2, it is enough to say that when two elements are linked by Merge, one or the other will label the resulting structure. Syntactic labelling therefore results from lexical insertion.
As Bouchard (Reference Bouchard2013) remarks, the idea of deriving endocentricity has a very long history dating back at least to the Modists (see among others Sweet Reference Sweet1891; Jespersen Reference Jespersen1924; Bloomfield Reference Bloomfield1933: 195; Zwicky Reference Zwicky1985, Reference Zwicky, Corbett, Fraser and McGlashan1993; Croft Reference Croft, Rooryck and Zaring1996). The idea shows up in more recent work such as Collins (Reference Collins, Epstein and Seely2002), Seely (Reference Seely and Boeckx2006), Boeckx (Reference Boeckx2008), Chomsky (Reference Chomsky, Freidin, Otero and Zubizarreta2008), and Pietroski (Reference Pietroski2008). These latter authors use a specific labelling rule, while the idea I pursue is to derive labelling from properties that are prior to language. Endocentricity follows from the way we assign a property to an object: the object remains the same, even if it is changed significantly (a finding which goes back at least to Hume [1739−40] (Reference Hume1978, I: 257). Thus, in language, a noun to which we add an adjective remains a nominal object, a verb to which is added an argument remains a verbal object, etc. (Bouchard Reference Bouchard2013, Reference Bouchard2015b).
Minimally therefore, a verbal phrase like vois Paul ‘see Paul’ has the structure in (33), where the topmost vois determines inter alia that the phrase is a verbal category.
(33)
This minimal syntagmatism derives a direct relation between à qui and donnera in (28b), without recourse to an additional tool such as a movement. Two characteristics of this approach explain the phenomenon of long-distance dependencies and their constraints. First, Merge defines a very strict locality, essentially the relation of syntagmatic sisters. So the domain locality need not be included in a list of unexplained stipulations such as UG.
Second, labelling by the lexical elements makes all the properties of the head accessible at the level of the phrase. For example, consider the diagram in (34), where the head C takes the constituent [A B] as a dependent.
(34) C [A A B]
If A labels the constituent [A B], all the features of A are projected to the sister node of C, and A is therefore an extended sister node of C, in the sense that the specifications of A are accessible to C. The domain of A is extended very precisely: the lexical specifications of the head are made accessible at the level of the phrase, that is, the permanent properties of the head such as selectional specifications. The effects of this extension of relation explain why we can have long-distance dependencies like the one in (28b). The phrase à qui ‘to whom’ is in a relation with its sister node, namely the phrase tu penses que Marie croit que Paul donnera le livre ‘you think that Marie believes that Paul will give the book’. The verb penses ‘think’ projects and labels the node adjacent to à qui,Footnote 8 so à qui has access to the specifications of penses, and in particular to its selectional specifications. The verb penses has a complement, and the specifications of the head of this complement are accessible to penses. Eventually we reach the constituent headed by donnera, so that à qui has access to the selectional specifications of donnera by transitivity of head-complement relations. It is this process which underlies the intuitions behind the notions of Percolation Projection and L-marking. From its position at the beginning of the sentence, the interrogative phrase can therefore directly establish a syntactic link with the verb with which it has a semantic relation. There is therefore a series of local syntagmatic relations that are established between the interrogative à qui and the verb donnera without the need for transformational relations. The bare minimum is sufficient to establish a syntactic relation between the two, and the conditions of domain unlocking do not have to be inscribed in a list of stipulations such as UG since the domain extension follows from the minimality of the elements involved: Merge, on the one hand, and lexical items with their specifications of semantic selection, on the other.
We can clearly see that a semantic dependency is involved here by the fact that semantic and pragmatic factors affect the possibilities of extension. For instance, the dominance effect (Erteschik-Shir Reference Erteschik-Shir1981) accounts for the contrast between (35a) and (35b), between (35c) and (35d), and for the fact that (35d) becomes acceptable in a context where John systematically hates anything that has to do with Nixon, which makes the content of the book dominant (Bouchard Reference Bouchard1995: 375).
(35)
a. John wrote a book about Nixon.
b. Who did John write a book about?
c. John destroyed a book about Nixon.
d. # Who did John destroy a book about?
Since the domain extension is done in a very specific way – that is, when the head-dependent relations involve obligatory selection – there are constructions that do not allow this extension, hence the constraints observed since Ross (Reference Ross1967). Thus, we cannot extract an element out of a relative clause, as in (36b), nor out of the subject of a sentence, as in (36d).
(36)
a. John knows a student [who read this book].
b. * Which book does John know a student [who read t ]?
c. [The leader of the band] visited the Taj Mahal.
d. * Which band did [the leader of t ] visit the Taj Mahal?
The long distance dependencies in (36b) and (36d) are illicit because they cannot be established solely on the basis of the primitives, such as Merge and the lexical elements. Since learners are conservative, they stick to dependencies that arise from these primitives: they would extend the domains another way only if they had positive evidence indicating that they must go beyond these primitives. But learners are never exposed to such data, so there is no reason for them to make the error of extending the domain as in (36b) or (36d). No negative data is required for this, and these ungrammatical sentences do not create an induction problem of the sort discussed in several works on the acquisition of language, so that it is not necessary to inscribe language-specific constraints in an UG.
8. Phonological effects of empty categories? Wanna contraction
Selkirk (Reference Selkirk1972) hypothesized that syntactic traces can have effects on certain phonological phenomena. Jaeggli (Reference Jaeggli1980) proposed to extend this analysis to the contraction of want to into wanna (also going to into gonna, ought to into oughta). This contraction is blocked when the trace of a subject occurs between want and to, as in (37).
(37) Who do you want [S′ t2 [S t1 to come to the talk]]?
*Who do you wanna come to the talk?
However, other empty categories, like PRO, a trace of NP or the intermediate traces of Wh-phrases, do not block contraction.
(38)
a. I want [PRO to leave]. I wanna leave.
b. I'm going [t to stay]. I'm gonna stay.
c. Who do you want [t [PRO to see t ]]? Who do you wanna see?
d. How do you want [t [PRO to do it t ]]? How do you wanna do it?
Jaeggli concludes from these facts that grammar makes a distinction between empty categories according to whether they have an abstract case, which block contraction, and the others, which allow it. But as we have seen in section 3, the addition of specific properties to empty categories can decrease their explanatory power. Moreover, in this particular instance, it must be assumed that an abstract case, with no phonological feature, affects linear adjacency in a morphophonological process, which seems inconsistent. There is also an empirical problem. Postal and Pullum (Reference Postal and Pullum1978, Reference Postal and Pullum1982) give examples where no trace with abstract case occurs between want and to, and yet contraction is impossible (see Bouchard Reference Bouchard1986 for other constructions that have this effect).
(39) I don't want [[to1 undress oneself in public] to2 become standard practice].
*I don't wanna undress oneself in public to become standard practice.
They showed that contraction is blocked in this way in various constructions due to a structural condition: to must be the head of the infinitive complement of want for contraction to be possible. Thus, in (38), it is to 2 and not to 1 that is the head of the complement clause, and the lexical material between want and to 2 blocks contraction.
There are therefore two conditions bearing on contraction: one based on abstract case, the other one on the structure only. The principle of simplicity raises the question of whether we can generalize one of the two conditions to account for all the facts. It is quite clear that we cannot generalize the condition based on case to examples such as (39). On the other hand, it seems more promising to try to generalize the structural condition to all the instances of contraction (Bouchard Reference Bouchard1986, contra Aoun and Lightfoot Reference Aoun and Lightfoot1984 and Boeckx Reference Boeckx2000).
We can even reverse the condition by appealing to known properties of grammatical subjects. A subject holds two relations, one with the verbal phrase and the other with the tense of the sentence. In (37), the subject who is in an extended relation with the VP come to the talk (see section 7 on long-distance relations), and also with to, which bears the grammatical tense irrealis (a timeless grammatical tense; Stowell Reference Stowell1981). The problem with *who do you wanna come is that wanna makes to inaccessible to who, thus destroying part of the environment required for who to fill its role of subject. The problem then is not that questioning who has the effect of blocking the contraction, but rather than the contraction makes the interpretation of who impossible with respect to the Tense marker. As Bouchard (Reference Bouchard2013: 313) remarks, this is likely related to the fact that English does not have the portmanteau option: the to component of the word wanna cannot operate independently of the want component, unlike French, where the preposition and determiner components of au and du (à le ‘at the’ and de le ‘of the’) can operate independently (see Bouchard (Reference Bouchard2002: 44−45, 127−128) for other portmanteau effects).
Whether we adopt this point of view, or a more structural analysis like the one proposed by Postal and Pullum (Reference Postal and Pullum1982) and Bouchard (Reference Bouchard1986), it is clear that a generalization of the condition on contraction should avoid appealing to abstract case, which would be more coherent for a morphophonological phenomenon.
9. Inversion in interrogatives
From Chomsky (Reference Chomsky1957) to works of popularization such as Pinker (Reference Pinker1994), examples of inversion in interrogatives as in (40) have been classic illustrations that human languages involve syntactic movement and are subject to conditions that are impossible to learn based on primary linguistic data,Footnote 9 thus justifying a very specific linguistic component encoded in the human brain, UG.
(40)
a. The man who is tall is happy.
b. Is the man who is tall __ happy?
c. * Is the man who __ tall is happy?
The standard analysis in generative grammar assumes that we form an interrogative in English by moving the tense of the main clause to the position comp at the head of the sentence, higher in the structure.
If you look at the data in (40a) and (40b) in a very neutral way, you note that the main verb is, which bears deictic time, appears in different positions in these two sentences, and that this corresponds to two different meanings. This raises the following questions:
(i) Why is tense at the heart of this interpretive contrast?
(ii) Why does the element that bears tense end up in a particular position, outside the basic sentence?
(iii) Why does the special order correlate with an interrogative interpretation?
Surprisingly, after six decades of work by brilliant linguists, the generative model still doesn't provide answers to these basic questions. The answers offered are stipulations such as: in interrogatives, a Q-feature (for Question) is present in comp and it attracts Tense. Such ad hoc statements only restate in technical terms what the facts are and add nothing to our understanding of the phenomenon: we are told only that these facts are correlated with features of the descriptive system.
As shown in Bouchard (Reference Bouchard2012, Reference Bouchard2013), we can escape this descriptivism by taking into account the fact that children are not only exposed to a difference of order in (40), but because of the context of use, they are also exposed to a difference in meaning between the two sentences (see the work of Slobin Reference Slobin, Lenneberg and Lenneberg1975, on the role of meaning in language acquisition). We can describe the alternations of meaning and form in (40a) and (40b) in terms of the notion of issue.
Following ideas of Frege (Reference Frege1923) and Davidson (Reference Davidson1984), Ladusaw (Reference Ladusaw and Wansing1996) proposes that a predication is a description of a class of events and that this description is the issue about which we must make a judgment. The issue concerns the whole sentence. We can apply the notion to the examples discussed above in the following way. In an affirmative sentence, the speaker expresses a positive judgment by placing the issue under the immediate scope of the deictic tense – the tense of the main clause that directly locates the event with respect to the moment of speech (the ‘S' of Reichenbach Reference Reichenbach1947; see also Bouchard Reference Bouchard, Forget, Hirschbühler, Martineau and Rivero1998b). In interrogatives, deictic tense is expressed in an external position. The issue is then presented as being separated from tense, or in other words as not being established: this gives the interrogative interpretation, a request to find out whether the issue should be considered as established or not. From this point of view, it is not a coincidence that tense in comp is the expression of interrogation. By generating deictic tense outside of the basic sentence structure, we change its relation with the issue, which gives the interrogative interpretation (Bouchard Reference Bouchard, Forget, Hirschbühler, Martineau and Rivero1998b, Reference Bouchard2002, Reference Bouchard2013). There is no reason for children to make a mistake by analogy as in (40c), since this is not at all analogous to what they do.
10. Conclusion
With this sampling of analyses (and those of the authors of other articles in this issue), we see that simplicity is far from being simple. The issue is not just to determine what simplicity means. To determine the cost of an analysis, we must also take into account the nature of the notions used. If these notions are motivated by being logically prior, there is parsimony and explanation.
When this methodology is rigorously applied to constructions studied for decades, we discover new avenues of explanation that allow us to free certain analyses that were stuck in a persistent descriptivism. In this other light, even the facts, the observational propositions, are changed: a reversal of gestalt occurs and our perception of what is going on in the constructions is transformed.
This very brief discussion of each of the constructions may seem utopian, even simplistic. Moreover, most of the references date back decades: this is intentional, to emphasize that the approaches to those constructions have remained essentially the same and that the fundamental problems remain. But the methodology is far from being a simple exercise of notational variants. In numerous other works, I have analyzed each of these constructions in detail using the methodology of qualitative simplicity (see all the references below). In each case, the results are convincing. We understand why a certain collection of structural and semantic properties are causally connected, and we can predict the outcome of other similar relations. Moreover, the analyses are qualitatively parsimonious and explanatory because they are based on elements logically prior to language. This allows us to uncover generalizations that correspond to deep properties of languages, and hence of language as a human faculty.