1 LA STRUCTURE PHASALE DES PROCÈS
Nous considérons ‘l'aspect de phase’, sous lequel est présenté un procès (état ou événement), comme le résultat d'une opération de sélection d'une partie (phase) du temps constitutif de ce procès. Cette opération est nécessairement complémentaire du repérage temporel, car, comme l'indiquait clairement Brunot dès 1922, ce n'est pas le procès pris globalement qui se trouve temporellement localisé, mais seulement la partie qui en est sélectionnée:
[. . .] le temps ne peut être complètement indiqué que si on exprime, d'une part, à quel moment se rapporte l'action, d'autre part, à quel point de son développement elle en est à ce moment. [. . .] Supposons qu'on donne rendez-vous à quelqu'un qui vous a présenté un manuscrit: revenez lundi, je l'aurai lu, nous en causerons. Ce qu'on veut lui marquer par je l'aurai lu, c'est que ce jour-là la lecture sera terminée, le fait accompli. L'action se présentera sous l'aspect d'une action accomplie.’ (Brunot, Reference Brunot1922: 440).
Pour autant, ce temps constitutif (‘impliqué’ selon Guillaume 1964: 47, ‘présupposé par le procès’ selon Barcelo et Bres, Reference Barcelo and Bres2006: 12) ne se limite pas – contrairement à ce qu'une formulation approximative laisse généralement entendre – au temps ‘interne’ du procès (i.e. compris entre ses bornes initiale et finale), mais englobe aussi les phases préparatoire et résultante du procès, ce que Borillo (Reference Borillo, Bat-Zeev Shyldkrot and Le Querler2005: 67) nomme ‘l'aspect externe’, par opposition à ‘l'aspect interne’. Si l'on admet le découpage classique de l'aspect interne en trois phases (début, milieu, fin) auquel s'ajoutent les deux phases ‘périphériques’ de l'aspect externe, on obtient une structure méréotopologique (i.e. qui concerne la disposition des parties à l'intérieur du tout, cf. Cazatti et Varzi, Reference Cazati and Varzi1999) organisée en cinq phases virtuellement sélectionnables, et illustrée par la Figure 1 (voir aussi Dik, Reference Dik1989: 190).

Figure 1. La structure phasale des procès.
Nous admettons que les phases initiale et finale contiennent respectivement les bornes initiale et finale du procès sans pour autant s'y réduire (ce qui distingue notre analyse de celle de Vet, Reference Vet and Laca2002). Cela nous permettra d'expliquer naturellement la compatibilité de ‘commencer à Vinf’ et de ‘finir de Vinf’ avec la visée aspectuelle imperfective: l'expression ‘être en train de finir de manger’ indique précisément que la phase finale est ‘en cours’ et donc que la borne finale du procès, quoique proche, n'est pas encore atteinte (voir ci-dessous, § 6).
Cette structure phasale paraît valoir pour tout type de procès (y compris les séries itératives), à l'exception des états nécessaires (qui n'ont ni commencement ni fin), et relever de la linguistique générale. Comme l'affirme Tournadre (Reference Tournadre2004: 23):
‘Il est possible de sélectionner une phase d'un procès pour en faire l'objet de la prédication. En théorie, chaque procès offre la possibilité de choisir parmi cinq phases: pré-processuelle, initiale, médiane, finale, post-processuelle.’
Car même s'il est vrai qu'un procès ponctuel ne laisse pas observer son aspect interne, toute forme de dilatation de ces procès manifeste – en même temps qu'elle leur fait perdre leur ponctualité – leur décomposition virtuelle en trois phases internes. Hugo affectionne particulièrement ces ‘grossissements fantastiques’ (voir la dilatation du procès ‘pousser la porte’ dans Les Misérables, première partie, II, 11, cité dans Gosselin, Reference Gosselin1996: 68–69, ou celle de ‘jeter le livre à terre’ dans Quatrevingt-treize, III, 3).
Prenons garde toutefois à ne pas mettre sur le même plan cette structure phasale qui concerne le procès une fois qu'il est catégorisé, avec les figures qui rendent compte de l'opération de catégorisation à partir d'un schéma primitif (pré-conceptuel) comportant des changements et des situations intermédiaires, comme celles qui sont proposées par Moens et Steedman (Reference Moens and Steedman1988), Kamp et Reyle (Reference Kamp and Reyle1993: 558 sq.), Gosselin (Reference Gosselin1996: 50 sq.), ou encore Croft (en préparation). Car dans ce cas, la portion du schéma primitif subsumée par la catégorie de procès varie systématiquement en fonction du type de procès (état, activité, accomplissement, achèvement). Un exemple nous servira à illustrer la différence radicale de niveau d'analyse. Les états transitoires correspondent au plan du schéma primitif à une absence de changement (ils sont donc adéquatement représentés par un segment de droite, dont les bornes sont exclues, cf. Kamp et Reyle, Reference Kamp and Reyle1993: 562, Gosselin, Reference Gosselin1996: 54, Croft en prép. § 1.2.2.), mais une fois l’état catégorisé, c'est-à-dire une fois que ce segment de droite se trouve subsumé par une catégorie, (ex. être malade), la structure phasale commune s'impose: on peut alors sélectionner une phase préparatoire (‘je vois bien qu'il va être malade’), initiale (‘tomber/ commencer à être malade’), médiane (continuer d’être malade), finale (‘cesser d’être malade’), et résultante (‘on voit bien qu'il vient d’être malade’). On distinguera donc soigneusement deux niveaux d'analyse de l'aspect lexical: un niveau pré-conceptuel et un niveau conceptuel. La structure phasale commune, décrite par la Figure 1, ne vaut qu'au niveau conceptuel, i.e. une fois l'opération de catégorisation (profilage) réalisée.
2 COMMENT SÉLECTIONNER LES PHASES D'UN PROCÈS EN FRANÇAIS?
Poser la question de l'aspect de phase revient donc à se demander comment on peut rendre saillantes dans l’énoncé ces phases latente, ou encore, pour reprendre les termes de Brunot, comment on peut sélectionner une phase (‘un point de développement’) du procès, pour la mettre en relation avec un repère temporel?
A la suite d'une investigation de grande ampleur, Tournadre (Reference Tournadre2004: 23) observe que ‘la sélection [d'une phase] est susceptible d’être réalisée selon les langues ou les classes verbales par des moyens lexicaux ou grammaticaux’. Appliquée au français, la question devient alors de savoir par quels moyens, lexicaux et/ou grammaticaux, cette langue permet la sélection d'une ou plusieurs phase(s) d'un procès. Cependant cette question ne concerne pas seulement le statut morphologique (lexèmes ou grammèmes?) des marqueurs de phase, mais plus fondamentalement la nature des opérations sémantiques déclenchées par ces marqueurs.
Traditionnellement, pour un procès donné (exprimé par une prédication complète), on considère qu'il existe deux moyens principaux en français: les conjugaisons (temps simples et composés) et les périphrases verbales (constituées typiquement d'un semi-auxiliaire ou coverbe – terme utilisé par Roy, Reference Roy1976, Wilmet, 1996 et Kronning, Reference Kronning2003 – suivi d'un verbe à l'infinitif). A quoi, on peut ajouter d'une part certains préfixes, comme en qui est tenu pour inchoatif dans s'endormir ou s'envoler (Martin Reference Martin1971: 53) ainsi que les ‘verbes supports aspectuels’ (cf. Borillo Reference Borillo2006) qui permettent également de sélectionner la phase d'un procès (ex.: être en larmes → fondre en larmes, faire une recherche → entamer / poursuivre une recherche), et d'autre part le fait que la présence (sous certaines conditions) d'un circonstanciel temporel normalement incompatible avec la structure intrinsèque du procès puisse entraîner un glissement de sens consistant à retenir l'une des phases de ce dernier (celle qui est compatible avec le circonstanciel; cf. Gosselin, Reference Gosselin1996: 56–63). C'est ainsi que dans ‘dormir à huit heures’, le circonstanciel ponctuel, entraîne un glissement vers la phase initiale ponctuelle du procès qui est intrinsèquement non ponctuel (l'expression devient équivalente à ‘s'endormir à huit heures’). Et inversement, la présence d'un circonstanciel de durée portant sur un procès intrinsèquement ponctuel peut conduire à un glissement vers la phase préparatoire (ex. ‘il s'arrêta en dix secondes’) ou vers la phase résultante du procès (ex. ‘il s'arrêta pendant dix secondes’, cf. Borillo, Reference Borillo1986: 138–139). Nous nous attacherons, dans cet article à définir le statut et le rôle sémantique des périphrases verbales.
Alors que les conjugaisons relèvent de l'aspect grammatical, la question se pose du statut lexical ou grammatical des périphrases verbales. Les grammaires et ouvrages généraux sur la temporalité en français divergent fortement sur ce point. Les positions les plus communément adoptées consistent soit à considérer que toutes les périphrases verbales relèvent de l'aspect lexical, par opposition aux conjugaisons (voir par exemple Wagner et Pinchon, Reference Wagner and Pinchon1962: 298), soit à intégrer [aller Vinf] et parfois [venir de Vinf] aux conjugaisons (et donc à l'aspect grammatical), tandis que les autres périphrases seraient de nature lexicale. L'argument souvent avancé (voir, entre autres, Laca, Reference Laca2004: 90, Vet, Reference Vet, Birkelund, Mosegaard Hansen and Norén2008: 458) en faveur de cette option est que ces périphrases, à la différence des autres, ne tolèrent pas toutes les conjugaisons. Ce critère paraît cependant bien difficile à mettre en œuvre: faut-il intégrer ‘venir de’ qui accepte le futur, et ‘être en train de’ qui tolère même le passé simple et les temps composés dans certains contextes (ex. ‘Dès qu'ils furent / ont été en train de manger’)? Et par ailleurs, son application devrait logiquement conduire à refuser le statut d'auxiliaire aspectuel à être et avoir! C'est précisément pourquoi ce même critère avait conduit Martin (Reference Martin1971: 140) à exclure aller et venir du système des temps du français. Deux analyses plus radicales, ont été proposées: Wilmet (Reference Wilmet1997: 316) intègre à la fois la totalité des périphrases verbales, mais aussi les temps composés (aux + participe passé) à l'aspect lexical, qu'il oppose non plus à l'aspect grammatical, mais à l'aspect affixal, caractéristique des temps simples. A l'inverse, Leeman-Bouix (Reference Leeman-Bouix1994: 51) ainsi que Barcelo et Bres (Reference Barcelo and Bres2006: 16) paraissent considérer que toutes les périphrases verbales relèvent de l'aspect grammatical.
A l'origine de ces difficultés, il y a tout d'abord le fait que les auxiliaires et les affixes verbaux résultent d'un processus continu de grammaticalisation que l'on a pu représenter au moyen de la Figure 2.

Figure 2. Le parcours de grammaticalisation des verbes (‘The Verb-to-TAM Chain’, Heine, Reference Heine1993, Hopper et Traugott, Reference Hopper and Traugott1993, Kronning, Reference Kronning2003).
Il apparaît alors relativement arbitraire de tracer une frontière précise entre lexèmes et grammèmes sur un tel continuum et de répartir les différentes expressions aspectuelles de part et d'autre de cette frontière, ce que reconnaissent Arrivé et al. (Reference Arrivé, Gadet and Galmiche1986: 91: ‘On est ici aux confins des structures grammaticales et lexicales’), Riegel et al (Reference Riegel, Pellat and Rioul1994: 253; ‘Si certains [de ces auxiliaires] ont indiscutablement un statut comparable à celui d’avoir et être, d'autres possèdent un sens lexical qui les rapproche plutôt d'un verbe ordinaire’), et de façon plus explicite encore Lagae, Carlier et Benninger (Reference Lagae, Carlier and Benninger2002: i):
Même à l'intérieur d'une même langue, on ne peut admettre l'existence d'une réelle frontière entre grammaire et lexique. En effet, certains marqueurs temporels ou aspectuels se trouvent dans la zone frontière entre grammaire et lexique. Il en va ainsi des semi-auxiliaires d'aspect du français: leur origine étant lexicale, ils ont subi un processus de grammaticalisation qui n'a toutefois pas entièrement abouti.
La situation se complique singulièrement si l'on considère qu'en fonction des critères (syntaxiques et sémantiques) retenus, tel ou tel coverbe présentera des ‘degrés de verbalité’ différents, de sorte qu'il paraît presque impossible de les ordonner sur un même et unique continuum (comme le montre Blanche-Benveniste, Reference Blanche-Benveniste2001).
De plus, il ne semble pas que l'on puisse déduire directement la nature de la contribution sémantique d'une périphrase verbale à l’énoncé, en se fondant sur sa position sur l’échelle de grammaticalisation. Deux raisons, au moins s'y opposent:
a) Le lien entre grammaticalisation et valeur sémantique est généralement décrit en termes de perte de traits sémantiques (désémantisation, usure sémantique, ‘javellisation’). Or cette analyse suppose, pour prendre un contenu précis, une conception quantitative, quasi arithmétique, de la sémantique (de sorte qu'il soit envisageable d'effectuer des soustractions dans le domaine du sens), laquelle n'est guère compatible avec les théories actuelles du temps et de l'aspect (qui ne considèrent généralement pas le sens des marqueurs d'aspect comme de simples collections de traits sémantiques).
b) Tournadre (Reference Tournadre2004: 34) met en cause la distinction même entre aspect lexical et aspect grammatical, considérant que le choix du type de marqueur (lexical ou grammatical) ne correspond pas nécessairement à une différence sémantique profonde, car il montre, exemples à l'appui, que ‘l’aspect grammatical d'une langue peut correspondre à un aspect lexical dans une autre langue’. Au fond, il se pourrait que la question telle que nous l'avons posée (dans le cadre de la tradition de la grammaire française) relève d'une ‘approche erronée’ (Tournadre, Reference Tournadre2004: 34), qui ne fait pas nettement le départ entre la nature morpho-syntaxique des catégories utilisées et les opérations sémantiques qu'elles codent. De là, la nécessité de poser le problème de la sélection des phases d'un procès à nouveaux frais, dans un cadre théorique explicite.
3 L'ASPECT, ENTRE CATÉGORISATION ET MONSTRATION
On admet, suivant le modèle présenté dans Gosselin (Reference Gosselin1996 et Reference Gosselin2005) et nommé désormais modèle SdT (pour Sémantique de la Temporalité, cf. Person, 2004, Gosselin et Person, Reference Gosselin, Person and Enjalbert2005), que l'aspect peut résulter de deux opérations sémantico-cognitives, fondamentales et distinctes:
a) une opération de catégorisation, qui à partir d'un schéma cognitif primitif constitué de changements et de situations intermédiaires (niveau pré-conceptuel), subsume une portion de ce schéma primitif sous la détermination conceptuelle d'un procès (on parlera ‘d'aspect conceptuel’),
b) une opération de monstration, i.e. de simulation de perception, qui donne à ‘voir’ tout ou partie du procès construit par l'opération précédente (‘visée aspectuelle’).
De façon très approximative, en français, la catégorisation correspond à l'aspect lexical (les lexèmes verbaux et leurs compléments dans lesquels le choix d'un grammème comme le déterminant du nom peut cependant jouer un rôle décisif), tandis que la monstration est indiquée par l'aspect grammatical (les conjugaisons et certaines périphrases, en relation avec divers marqueurs contextuels; cf. Gosselin, Reference Gosselin2005: 129–153).
Cette double analyse présente des affinités évidentes à la fois avec la tradition aspectuelle guillaumienne, avec la perspective cognitive (voir en particulier le concept de ‘fenêtrage’, cf. Col et Victorri, Reference Col, Victorri, Achard-Bayle and Paveau2007), mais aussi avec certains courants de sémantique formelle (voir d'une part Smith, Reference Smith1991, Caudal et Vetters, Reference Caudal and Vetters2006, et d'autre part Klein Reference Klein1994, Demirdache et Uribe-Etxebarria, Reference Demirdache, Uribe-Etxebarria and Laca2002, Laca, Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005).
Le produit de ces deux opérations est représenté sous forme de structures d'intervalles disposées sur l'axe temporel. Alors que le moment d’énonciation est noté [01,02], l'opération de catégorisation produit un intervalle de procès [B1,B2], tandis que la monstration se traduit par l'ouverture d'une ‘fenêtre’, ou ‘intervalle de référence’ [I,II]. Le temps absolu se trouve défini par la relation entre l'intervalle de référence et celui de l’énonciation (conformément à la définition non standard du temps proposée par Reichenbach et argumentée par Klein, Reference Klein1994: 21–24). L'aspect résultant de la catégorisation (‘aspect conceptuel’) va correspondre à la nature des bornes du procès (bornes extrinsèques: procès atélique; bornes intrinsèques: procès télique, cf. Jackendoff Reference Jackendoff, Levin and Pinker1992) et à leur relation (procès ponctuel ou non). Quant à l'aspect produit par l'opération de monstration, ou ‘visée aspectuelle’, il se trouve représenté par la relation entre l'intervalle du procès [B1,B2] et l'intervalle de référence [I,II], qui détermine ce qui est montré / perçu du procès. On est ainsi conduit à distinguer quatre visées aspectuelles de base en français, correspondant à quatre positions de la ‘fenêtre de monstration’ par rapport au procès. Ces quatre visées aspectuelles sont illustrées par la Figure 3.

Figure 3. Les quatre visées aspectuelles de base du français.
Remarquons que, contrairement à Vet (Reference Vet and Laca2002: 184), il ne nous paraît pas exact de considérer que la visée inaccomplie (ou imperfective) porte nécessairement sur la phase médiane du procès, car il n'est pas impossible d’énoncer:
(1) (Que fais-tu?)
Je suis en train de manger. Je commence / je termine.
La visée inaccomplie indique uniquement que les bornes (et non les phases) initiale et finale ne sont pas prises en compte. Reconnaissons toutefois que Vet ne dit pas autre chose, simplement sa formulation découle du fait qu'il assimile la phase initiale à la borne initiale, et la phase finale à la borne finale (voir ci-dessus § 1). On peut donc dire que si les visées prospective et accomplie montrent respectivement les phases préparatoire et résultante du procès (constitutives de l'aspect externe), les visées aoristique et inaccomplie sélectionnent l'aspect interne, respectivement de façon globale (bornes comprises) et partielle (bornes exclues).
Dans ce cadre, la question de l'aspect de phase en français se laisse ainsi reformuler: les conjugaisons et les périphrases verbales permettent-elles de sélectionner les phases d'un procès par le biais d'une opération de catégorisation (aspect conceptuel), i.e. de construction d'un sous-procès, et/ou par la monstration (visée aspectuelle) de certaines parties du procès? (La question du statut lexical ou grammatical des marqueurs restant relativement secondaire et, en tout état de cause, pas totalement décidable).
On ne peut véritablement mesurer la portée de cette question que si l'on comprend à quel point les opérations de catégorisation et de monstration diffèrent entre elles: la catégorisation construit un (sous)procès, qui a un statut d'entité référentielle, qui possède un mode de déroulement spécifique et qui est décomposable en parties (phases). A l'inverse, la monstration ne produit aucune entité référentielle, mais une vue (visée) sur une entité préalablement construite (par la catégorisation). Cette visée est donc seconde par rapport au (sous)procès sur lequel elle porte, elle n'a évidemment pas de ‘mode de déroulement’ et n'est pas décomposable en parties.
4 COVERBES DE MOUVEMENT, DE PHASE ET DE MODALITÉ D'ACTION VERSUS AUXILIAIRES DE VISÉE ASPECTUELLE
Il se trouve que trois études récentes (Kronning, Reference Kronning2003, François, Reference François2003, et Laca, Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005), issues d'horizons théoriques différents, et sans influences entre elles, convergent pour dissocier nettement, d'un point de vue syntaxique et distributionnel, deux classes de périphrases verbales en français. Or nous considérons que cette distinction syntaxique se laisse assez naturellement expliquer et interpréter en termes d'opérations sémantico-cognitives de catégorisation et de monstration; autrement dit, l'une des classes relève de l'aspect conceptuel (et déclenche donc la construction de sous-procès), tandis que l'autre marque la visée aspectuelle (en déterminant la position de la ‘fenêtre’ par rapport au procès).
Cette analyse nous conduit à proposer une typologie des coverbes (représentée par la Figure 4) que nous allons essayer de justifier.

Figure 4. typologie des coverbes.
Nous considérons comme coverbe, à la suite Kronning (Reference Kronning2003: 232), ‘tout verbe qui se construit avec un mode impersonnel’, i.e. tout verbe qui peut être suivi d'un infinitif ou d'un participe. Parmi les coverbes, on isole ensuite la classe des auxiliaires au sens large (AUX) qui ne recouvre que les coverbes qui excluent la construction ‘(ce) que p’. Ce critère est discuté et adopté entre autres par Gross (Reference Gross1999: 8), Borillo (Reference Borillo, Bat-Zeev Shyldkrot and Le Querler2005: 71) et Lamiroy (Reference Lamiroy1999: 38), qui l’étend à l'ensemble des langues romanes:
‘La propriété formelle commune qui distingue les auxiliaires romans du reste des verbes est qu'ils se font suivre d'un infinitif tout en excluant la complétive Que P. Ce dernier trait est en même temps leur propriété syntaxique définitoire.’
Il conduit, par exemple, à écarter des verbes volitifs comme vouloir, souhaiter, décider de la classe des AUX, dans la mesure où ils acceptent d’être suivis de la complétive conjuguée, tandis que seront retenus des coverbes de mouvement comme partir, courir, rentrer de, sortir de, parce qu'ils acceptent l'infinitif (ex: ‘courir faire les courses’), mais excluent la construction en ‘(ce) que p’. Remarquons que ces coverbes de mouvement étaient traditionnellement tenus pour des verbes ‘pleins’ (prédicatifs) suivis, dans ces tours, d'une subordonnée circonstancielle de but, avec ellipse de la préposition pour. Cette analyse a été très précisément réfutée par Lamiroy (Reference Lamiroy1983), qui montre que ces constructions présentent un ensemble de caractéristiques et de contraintes spécifiques. Certains auteurs, comme Gross et Prandi (Reference Gross and Prandi2004: 126–131) considèrent cependant toujours qu'il s'agit de verbes pleins, mais suivis d'une subordonnée de destination-but à valeur d'argument (et non de circonstant). Or cette analyse (qu'ils appliquent aussi à un verbe comme ‘s'efforcer de’), outre qu'elle ne permet pas de rendre compte des contraintes très strictes qui pèsent sur ces constructions, se heurte – comme l'a montré Vet (Reference Vet, Kampers-Manhe and Vet1987) – à des exemples du type:
(2) Je cours chez le boucher acheter un rôti de veau
où deux expressions référentielles distinctes remplissent un même rôle de destination-but. Pour éviter une violation manifeste du ‘critère thématique’ des théories chomskyennes (Chomsky, Reference Chomsky1981, Pollock, Reference Pollock1997: 61) ou du ‘principe de non redondance fonctionnelle’ de Milner (Reference Milner1982: 140–179), il faudrait alors supposer (avec Gross et Prandi, Reference Gross and Prandi2004: 127) que les verbes de mouvement régissent deux places argumentales correspondant à des compléments essentiels (de destination et de but) qui ne seraient, paradoxalement, réalisés tous les deux que de façon exceptionnelle (comme dans l'exemple 2). Nous préférons adopter la position de Lamiroy (Reference Lamiroy1983: 116), qui voit dans ces verbes ‘un cas intermédiaire entre les verbes pleins régissant un complément à l'infinitif et les auxiliaires d'aspect’. Cette analyse s'inspire explicitement de celle de Damourette et Pichon (Reference Damourette and Pichon1911–1936, III, §1055) qui reprennent le concept freudien de ‘progrédience’ pour décrire le fait que ‘dans Louis vient déjeuner (. . .) l'action de déjeuner est en quelque sorte déjà entamée par les pas que fait Louis vers la maison où il doit manger’. En d'autres termes, le coverbe de mouvement venir exprime ici le mode de déroulement de la phase préparatoire du procès dénoté par déjeuner. Il contribue donc à l'expression de l'aspect de phase.
Prenons garde cependant aux verbes polysémiques, dont certains emplois peuvent relever d'un mode de fonctionnement, tandis que d'autres appartiennent à une autre classe. C'est, par exemple, le cas de ‘s'apprêter à’, qui, à première vue, paraît accepter aussi bien l'infinitif (‘s'apprêter à partir’) que la forme conjuguée au subjonctif (‘s'apprêter à ce que les prix augmentent’). Pourtant, à la différence de Borillo (Reference Borillo, Bat-Zeev Shyldkrot and Le Querler2005: 76), nous ne refuserons pas le statut d'AUX à ‘s'apprêter à’ en général, car il ne présente pas les mêmes caractéristiques syntactico-sémantiques dans les deux constructions. Suivi du subjonctif, il devient quasi-synonyme de ‘s'attendre à ce que’, et prend une valeur statique (il est incompatible avec ‘être en train de’; ex. 3a), tandis que lorsqu'il est suivi de l'infinitif, il signifie ‘faire ses préparatifs en vue de’ (il est alors dynamique; ex. 3):
(3a) ?*Il est en train de s'apprêter à ce que les prix augmentent
(3b) Il est en train de s'apprêter à partir.
Nous considérerons donc que seul le premier emploi est exclu de la classe des AUX. Autrement dit, le test de la substitution de la forme conjuguée à la forme infinitive ne vaut que s'il n'entraîne pas de changement de sens.
La classe des AUX (dont on ne retient ici que ceux qui ont une valeur aspectuelle, au sens où ils permettent de sélectionner des phases de procès) se divise à son tour en deux sous-classes: celle qui recouvre les coverbes de mouvement, de modalité d'action (‘s'efforcer de’) et de phase (‘commencer à’), et celle des auxiliaires de visée aspectuelle. Ce sont précisément les travaux évoqués, de Kronning (Reference Kronning2003), François (Reference François2003) et Laca (Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005) qui nous conduisent à opérer cette partition (déjà évoquée par François, Reference François1993: 53 et 67 n.5). Car ils mettent en évidence, au moyen de tests syntaxiques distincts mais convergents, l'existence de deux classes distributionnelles parmi les AUX d'aspect. Or comme on l'a annoncé, ces différences de fonctionnement s'expliquent assez naturellement si l'on admet que les coverbes de mouvement, de modalité d'action, et de phase (désormais ‘coV-MAP’) marquent la catégorisation d'une phase, i.e. la construction d'un sous-procès, tandis que les auxiliaires précisent la visée aspectuelle (‘aux-VA’), la monstration de tout ou partie d'un procès ou d'un sous procès.
On comprend ainsi pourquoi les aux-VA peuvent porter sur les coV-MAP, alors que la réciproque est fausse (cf. François, Reference François2003: ch. 5, Laca, Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005; signalons toutefois que ni François ni Laca ne prennent en compte les coverbes de mouvement).

Figure 5. aux-VA portant sur des coV-MAP.

Figure 6. coV-MAP ne pouvant porter sur des aux-VA.
Il est en effet concevable, selon les principes adoptés ci-dessus, que la monstration porte sur une sous-catégorie de procès, mais en aucune façon que la catégorisation puisse affecter la monstration (la catégorisation devant toujours précéder conceptuellement la monstration).
De même, Laca (Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005) montre que seuls les coV-MAP sont récursifs. Il existe certes des contraintes, fortes et complexes, sur leurs combinaisons, mais on peut dire que pour tout coV-MAP, il existe au moins une sous-classe de coV-MAP susceptibles de le prendre dans leur portée, alors qu'un aux-VA ne peut jamais être dans la portée d'un autre.

Figure 7. coV-MAP portant sur des coV-MAP.

Figure 8. aux-VA ne pouvant porter sur des aux-VA.
Il est de fait envisageable de découper un sous-procès à l'intérieur d'un autre sous-procès, alors qu'on ne peut même concevoir ce que serait une visée aspectuelle portant sur une autre visée. Remarquons que si, à première vue, ‘il va être en train de Vinf’ constitue un contre-exemple, on peut cependant montrer que, dans ce cas, aller n'est pas un auxiliaire de visée aspectuelle, mais un auxiliaire à valeur temporelle, cf. ci-dessous.
Par ailleurs, Kronning (Reference Kronning2003: 235–239) observe, dans le cadre de l'analyse stratificationnelle de la phrase, que seuls les coV-MAP, à la différence des aux-VA, sont rhématiques au sens où ils sont focalisables par focalisation simple (sans marquage intonatif particulier). Cette propriété conduit à prédire que seuls les coV-MAP pourront apparaître naturellement en fin d’énoncé, à la suite soit d'une pronominalisation, soit d'une ellipse de l'infinitif.
Remarquons que les tours ‘il est sur le point’ et ‘il est en train’ sont tout de même possibles, mais moyennant des contextes contrastifs et/ou une accentuation particulière, comme dans cet exemple:
(4) ‘Hé quoi! Elles sont parties depuis longtemps! Parties ou sur le point!’ (Kleist: Le Prince de Hombourg, I, 4, trad. R. Orthmann et E. Recoing, Actes Sud).

Figure 9. coV-MAP focalisés par focalisation simple.

Figure 10. aux-VA non focalisables par focalisation simple.
Dans la mesure où il ne s'agit pas là de focalisation simple, mais de focalisation spécialisée (au sens de Nølke 2001: 137) cela ne met pas en cause le caractère non rhématique de ces éléments. Quant aux constructions ‘il y va’ et ‘il en vient’, elles impliquent toutes deux qu'il y ait déplacement du sujet (et donc coverbe de mouvement). Quand ce déplacement est exclu la pronominalisation est impossible:
(5a) il va pleuvoir
*il y va
(5b) il vient de pleuvoir
*il en vient.
C'est pourquoi, on distinguera, au moins, deux types d'emplois d’aller et venir de lorsqu'ils sont suivis de l'infinitif: un emploi de coverbe de mouvement, rhématique, et un emploi non rhématique d'auxiliaire de visée aspectuelle (voir ci-dessous).
Selon l'analyse de Kronning (Reference Kronning2003: 235), ‘la stratification énonciative de la phrase (. . .) est la restructuration de la phrase, lors de l’énonciation, en “substrat” et “foyer”’ (on trouve une analyse comparable dans Lambrecht, Reference Lambrecht, Fernandez-Vest and Carter-Thomas2004: 33 sq.). Or le rhème est le ‘domaine de la focalisation stratificationnelle’, c'est-à-dire que c'est le domaine dans lequel l’énonciation va pouvoir sélectionner (focaliser) une valeur référentielle susceptible de saturer une variable comprise dans le substrat. On comprend dès lors comment notre hypothèse d'une correspondance entre d'une part coV-MAP et catégorisation (constitution de sous-procès), et d'autre part aux-VA et monstration, rend naturellement compte de cette opposition syntaxique: seul un sous-procès, par opposition à la visée aspectuelle, a le statut référentiel nécessaire pour pouvoir être focalisé, et venir saturer la variable du substrat.
Prenant appui sur Damourette et Pichon (Reference Damourette and Pichon1911–1940, V, §1605), Kronning (Reference Kronning2003: 241–242) montre enfin que seuls les coverbes non auxiliaires (et donc les coV-MAP) tolèrent des compléments adverbiaux ‘de manière’.

Figure 11. coV-MAP avec complément de manière.

Figure 12. aux-VA incompatibles avec des compléments de manière.
Observons, là encore, qu’aller et venir n'acceptent ces compléments que s'ils indiquent un mouvement physique (dans leur emploi de coverbe de mouvement):
(6a) Il va précipitamment acheter son journal
(6b) *Il va précipitamment pleuvoir.
Ce contraste syntaxique entre coV-MAP et aux-VA s'explique aisément selon notre hypothèse: seuls les sous-procès (construits par les coV-MAP), à la différence des visées aspectuelles, ont des modes de déroulement spécifiques, exprimables au moyen de compléments de manière.
L'application systématique de ces différents critères aux AUX à valeur aspectuelle conduit au classement représenté par la Figure 13.

Figure 13. classement des AUX à valeur aspectuelle.
Ce classement appelle plusieurs remarques:
a) La distinction entre coverbes de phase, de modalité d'action et de mouvement n'est pas de nature proprement aspectuelle: les premiers n'indiquent que la phase concernée, les autres précisent de surcroît son mode de déroulement (sur les coverbes de modalité d'action, voir François Reference François2003, chap. 5).
b) Un même élément peut présenter divers emplois en contexte, qui relèvent de différentes sous-classes. Prenons par exemple les verbes aller et venir, qui ont suscité une littérature très abondante (voir en particulier, sur le futur périphrastique, Vet Reference Vet1993 et Reference Vet and Kronning2001). Il apparaît que ces deux verbes peuvent fonctionner, entre autres, comme:
1) verbes pleins (ex.: aller à / venir de Marseille),
2) coverbes de mouvement (ex.: aller / venir (en voiture) (de) faire les courses),
3) auxiliaires de temps à valeur de futur (‘Dans cinq minutes, on va bien rigoler’, exemple attesté cité par Sundell, Reference Sundell1991 et commenté par Vet, Reference Vet1993: 79) ou de passé (ex.: ‘Nous venons récemment de perdre encore une sœur charmante’, Lamartine, cité par Gougenheim, Reference Gouhenheim1929: 127),
4) auxiliaires de visée aspectuelle prospective (‘Je vois que Pierre va se fâcher’, Vet, Reference Vet1993: 74) ou accomplie (‘Chatterton venait d'expirer depuis peu de jours lorsque parurent à la fois un poème burlesque et un pamphlet sur sa mort’, Vigny cité par Gougenheim, Reference Gouhenheim1929: 127; le circonstanciel [depuis + durée] indique précisément ce type de visée aspectuelle, cf. Gosselin Reference Gosselin1996: 27).
c) Les coV-MAP peuvent marquer:
1) la coïncidence du sous-procès avec une phase du procès (ex.: commencer à, continuer à, finir de);
2) l'inclusion du sous-procès dans une phase (ex.: s'apprêter à, hésiter à . . .); c'est ainsi que rentrer de dans ‘rentrer de faire les courses’ marque l'inclusion (et pas nécessairement la coïncidence) du sous-procès dans la phase résultante, si bien qu'une visée prospective sur ce sous-procès ne conduit pas nécessairement à la phase précédente: de (7), on ne peut inférer (8).
(7) Paul était sur le point de rentrer de faire ses courses
(8) Paul était encore en train de (finir de) faire ses courses.
Car il se peut très bien qu'en (7) Paul se trouve déjà dans la phase résultante (i.e. qu'il ait fini les courses, mais n'ait pas encore commencé à rentrer);
3) le recouvrement, éventuellement partiel, de plusieurs phases (ex.: se hâter de, s'acharner à, s'efforcer de. . .).
d) Les coverbes de modalité d'action portant sur l'aspect interne (ex.: s'acharner à, se hâter de, se dépêcher de, être long à . . .) sont conduits à exprimer la phase préparatoire du procès si ce dernier est ponctuel (i.e. si sa phase interne n'est pas accessible). Gosselin (Reference Gosselin1996: 172–176) montre que ce mode résolution de conflit par glissement vers la phase préparatoire est régulier et prédictible. Cela explique, entre autres, pourquoi ‘se dépêcher de’ devient équivalent de ‘ne pas perdre de temps avant de’ lorsque le procès est ponctuel:
(9) Il s'est dépêché de sortir (≈ il n'a pas perdu de temps avant de sortir).
Nous allons voir maintenant comment représenter et interpréter ces phénomènes dans le cadre du modèle SdT.
5 VISÉES ASPECTUELLES ET SOUS-PROCÈS DANS LE MODÈLE SDT
Les sous-procès, construits sur la base des instructions codées par les coV-MAP vont être représentés par des intervalles notés [B′1,B′2], [B″1,B″2], etc. Par souci de lisibilité, nous dupliquons les axes temporels (en fait, il ne s'agit ici que de représentations iconiques de structures qui doivent être conçues comme des réseaux de contraintes sur des variables d'intervalles). La Figure 14 en illustre un exemple:

Figure 14. représentation iconique de ‘hésiter à commencer à manger’.
Le sous-procès marqué par commencer à coïncide avec la phase initiale du procès manger, tandis que celui qu'exprime hésiter à est inclus dans la phase préparatoire du sous-procès, laquelle correspond également à la phase préparatoire du procès manger. Cette structure rend donc compte à la fois du fait que ‘hésiter à commencer à manger’ est quasi-synonyme de ‘hésiter à manger’, et de ce que ‘avoir hésité à commencer à manger’ n'implique pas ‘commencer à manger’, dans la mesure où B″2 ne coïncide pas nécessairement avec B′1 (la phase résultante du sous-procès hésiter peut commencer avant le début du sous-procès commencer, lequel coïncide avec celui du procès manger).
Quant à la visée aspectuelle, marquée par l'interaction de divers éléments dont la conjugaison et d’éventuels aux-VA, elle se traduit par l'ouverture d'une ‘fenêtre de monstration’, indiquée par l'intervalle de référence ([I,II]), qui se positionne à la fois vis-à-vis du sous-procès le plus enchâssé (i.e. celui qui correspond au stade le plus élevé de décomposition des (sous-)procès), et relativement aux autres procès et sous-procès éventuels de la structure. On parlera de visée aspectuelle directe dans le premier cas, et de visée indirecte dans le second. Si l'on reprend les quatre types de visée aspectuelle présentés au § 3, on constate que le type de visée peut être différent pour les divers (sous-)procès d'une même construction. Ainsi, dans l’énoncé
(10) ‘Au château d'Edimbourg, John Benstede, clerc et émissaire spécial d'Edouard d'Angleterre, s'apprêtait également à conclure sa mission.’ (P.C. Doherty, La couronne dans les ténèbres, 10/18, éd., 1996: 211)
la visée directe, marquée par l'imparfait, est inaccomplie sur la phase préparatoire catégorisée par s'apprêter (B′1 < I < II < B′2), mais prospective sur le procès (II < B1), comme le montre la Figure 15.

Figure 15. représentation iconique de ‘(il) s'apprêtait à conclure sa mission’.
Soit un autre exemple, construit:
(11) (Quand je l'ai rencontré) il venait de commencer à écrire son chapitre
A vrai dire, la Figure 16 n'illustre qu'une des interprétations possibles de l'exemple (11), car ‘venir de’ ne contraint pas directement la position de l'intervalle de référence relativement au procès ‘écrire son chapitre’: on pourrait enchaîner par ‘et il l'avait déjà (presque) terminé’.

Figure 16. représentation iconique de ‘il venait de commencer à écrire son chapitre’.
6 INTERPRÉTATION TEMPORELLE ET MODALE DES STRUCTURES D'INTERVALLES
Le temps absolu étant défini par la relation entre l'intervalle de référence ([I,II]) et l'intervalle d’énonciation ([01,02]), il suit que, dans des exemples comme (10) et (11), on comprend, à cause de l'instruction temporelle associée à l'imparfait, que l'intervalle de référence est antérieur au moment de l’énonciation (II < 01), mais aucune contrainte ne pèse sur la position des diverses bornes situées à droite de II relativement à [01,02] (c'est pourquoi nous avons préféré ne pas faire figurer cet intervalle d’énonciation dans les représentations iconiques). Cela revient à dire, par exemple, que dans l'exemple (11), le fait de finir d’écrire son chapitre peut aussi bien être envisagé dans le passé que dans le présent ou l'avenir.
Par ailleurs, Gosselin (Reference Gosselin2005: 88–96) a montré qu’à l'indicatif, la borne finale de l'intervalle de référence (II) constituait une ‘coupure modale’ entre l'irrévocable (à gauche) et le possible (à droite). C'est pourquoi tout ce qui, dans ces exemples, est situé à droite de II est simplement possible, au sens où tout procès ou partie de procès qui se trouve à droite de II peut ne pas se réaliser. C'est ainsi que, dans le roman d'où est extrait l'exemple 10, le personnage est assassiné avant de pouvoir conclure sa mission.
Ces caractéristiques temporelles et modales des structures d'intervalles sont évidemment essentielles dans une perspective d'analyse sémantique automatique et d'extraction d'information, car elles permettent de prédire certaines des inférences que l'on peut légitimement tirer de l’énoncé. En effet, contrairement à ce qu'affirment Reyle, Rossdeutscher et Kamp (Reference Reyle, Rossdeutscher and Kamp2007: 630), la visée aspectuelle, bien que n'ayant pas de statut référentiel, joue un rôle décisif au plan vériconditionnel. Comparons, à cet égard, les exemples:
(12a) Il descendit faire les courses
(12b) Il allait descendre faire les courses
(12c) Il était en train de descendre faire les courses
(12d) Il venait de descendre faire les courses.
La structure associée à (12a) correspond à la Figure 17.

Figure 17. représentation iconique de ‘il descendit faire les courses’.
On comprend que le sous-procès descendre est réalisé dans sa totalité, mais que le procès ‘faire les courses’, vu de façon prospective, reste dans le domaine du possible, comme le montre le fait que l'on puisse enchaîner sur
(13) quand il prit conscience qu'il n'avait plus d'argent
qui annule uniquement le procès faire les courses (et non le sous-procès).
Les exemples (12b–d) ne diffèrent de (12a) que par la visée aspectuelle et donc par la position de l'intervalle de référence ([I,II]). Or les inférences qu'on peut en tirer sont très différentes. En (12b) le sous-procès lui-même, présenté prospectivement, est simplement possible, de sorte que l'enchaînement (13) annule les deux (sous-)procès.
En revanche, (12c) illustre le ‘paradoxe imperfectif’, appliqué au sous-procès descendre, dont le début relève de l'irrévocable, et la fin du possible: l'enchaînement (13) ne peut annuler le début du sous-procès.
L'exemple (12d) est virtuellement ambigu. La visée accomplie, marquée par ‘venir de’, situe l'intégralité du sous-procès dans l'irrévocable (il n'est plus annulable). Mais la position de l'intervalle de référence relativement au procès ‘faire les courses’ n'est pas contrainte. Si bien que l'on pourrait accepter, à la suite de (12d), les enchaînements suivants:
(14a) Il n'avait pas commencé ses achats quand il prit conscience qu'il n'avait plus d'argent
(14b) Il avait à peine commencé ses achats qu'il prit conscience que . . .
(14c) Il avait à peine terminé ses achats qu'il prit conscience que . . .
7 LA QUESTION DE LA RÉCURSIVITÉ
C'est, selon Laca (Reference Laca2004 et Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005), la propriété de récursivité qui distingue fondamentalement ce que nous appelons coV-MAP et aux-VA, car seuls les premiers sont récursifs. La valeur sémantique qu'elle confère à ces deux classes d'AUX est comparable à la nôtre (elle s'inspire explicitement des modèles de Smith, Reference Smith1991 et de Klein, Reference Klein1994). Mais son traitement de la récursivité est tout différent. Dans le cadre chomskyen de l'analyse de la temporalité, défini par Demirdache et Uribe Etxebarria (Reference Demirdache, Uribe-Etxebarria and Laca2002), elle propose de traiter la récursivité des coverbes au moyen d'une règle syntagmatique, illustrée par la Figure 18.

Figure 18. récursivité du VP (le verbe modificateur, Vmodf, correspond au coverbe non auxiliaire).
En revanche, elle considère que la visée aspectuelle correspond à un nœud ASP-P, qui n'est pas récursif. Or, comme, dans ce cadre théorique, on représente par un même dispositif des relations sémantiques et les marqueurs qui les expriment, ces hypothèses deviennent lourdes de conséquences difficiles à défendre. Ainsi la non-récursivité du nœud ASP-P oblige à admettre que les temps simples comme le présent, le futur ou même l'imparfait sont dépourvus de valeur aspectuelle, sans quoi cette non-récursivité serait prise en défaut dans un tour comme ‘il venait de manger’, dans lequel l'aspect serait doublement marqué par l'auxiliaire et par l'imparfait. Et s'il l'on envisage la possibilité d’énoncer ‘dès qu'ils furent / on été / avaient été en train de manger’(cf. Gosselin, Reference Gosselin1996: 250–251), ou ‘ils furent / ont été / avaient été sur le point de partir’, il apparaît nécessaire d’étendre encore cette analyse au passé simple et aux temps composés, c'est-à-dire à l'ensemble des conjugaisons du français (curieusement, Laca, Reference Laca2004 et Reference Laca, Bat-Zeev Shyldkrot and Le Querler2005 considère que ‘être en train de’ est incompatible avec le passé simple, le passé composé, ainsi qu'avec le passif; par ailleurs, elle ne classe pas ‘être sur le point de’ parmi les auxiliaires de visée aspectuelle, mais dans les modificateurs d’éventualité).
La conception mise en œuvre dans le modèle SdT des relations entre marqueurs (lexèmes, grammèmes et constructions syntaxiques) et valeurs sémantiques est toute différente. On considère en effet que les valeurs temporelles, aspectuelles et modales résultent le plus souvent d'interactions complexes entre divers marqueurs, ainsi que de la prise en compte de contraintes pragmatico-référentielles. On admet, par principe, que la visée aspectuelle n'est pas récursive, dans la mesure où il n'est simplement pas concevable qu'une visée porte sur une autre visée. En revanche, il se peut très bien qu'une visée soit construite à partir d'instructions codées par des marqueurs différents (aux-VA, flexions verbales, circonstanciels de durée . . .). On se limitera ici à observer qu'il est cependant impossible de combiner, pour l'expression d'une même visée aspectuelle, deux marqueurs de visée aspectuelle du même type morpho-syntaxique (deux aux-VA, deux flexions verbales, ou deux circonstanciels de durée). Les relations de compatibilité entre les différents aux-VA et les conjugaisons demanderaient un examen approfondi.
Quant à la récursivité des coV-MAP, elle repose sur une propriété singulière des procès envisagés du point de vue de leur structure phasale: toute phase de procès, dès lors qu'elle est catégorisée comme sous-procès, peut à son tour être décomposée en phases, selon la même structure méréotopologique, représentée par la Figure 1. On aura reconnu là la propriété d'autosimilitude, caractéristique des objets fractals: la partie et le tout, de même que la partie de la partie, possèdent une structure identique. Et l'on pourrait aller plus loin en observant que s'il est possible de construire des macroprocès, entre autres par l'itération d'un même procès modèle, ces macroprocès exhibent encore la même structure méréotopologique, et leurs phases sont également catégorisables au moyen des coverbes que nous avons décrits:
(15) Il hésitait à/commença à/continuait de/cessa de prendre sa leçon de piano le lundi après-midi.
Comme il est encore possible d'itérer des phases:
(16) A chaque leçon, il se mettait très rapidement à jouer
et donc de construire des phases d'itérations de phases:
(17) Il continuait de se mettre très rapidement à jouer, à chaque leçon.
On finit par obtenir des structures d'une grande complexité, mais qui reposent toujours sur une combinatoire d'occurrences de la même structure phasale.
8 CONCLUSION
L'aspect de phase repose sur une même structure phasale (comprenant deux phases externes et trois phases internes), que l'on retrouve, au niveau de l'aspect conceptuel, aussi bien dans les procès que dans les parties de procès (propriété d'autosimilitude), et sur l'existence de deux opérations sémantico-cognitives complémentaires qui permettent, chacune à sa façon, de rendre les phases saillantes:
a) une opération de catégorisation qui construit des sous-procès (lesquels sont coïncidents, inclus, ou englobants vis-à-vis des phases),
b) une opération de monstration qui donne à voir tout ou partie du procès ou du sous-procès (visée aspectuelle).
En français, les conjugaisons indiquent (en relation avec d'autres marqueurs) la visée aspectuelle, tandis que les périphrases verbales se laissent répartir en deux classes sur la base de critères syntaxiques et distributionnels: celles qui mettent en œuvre des coverbes déclenchant la construction (par catégorisation) de sous-procès, et celles qui, au moyen d'auxiliaires de visée aspectuelle, permettent la monstration de certaines phases de procès ou de sous-procès.
En somme, alors que des études ont montré l'impossibilité de distinguer nettement deux classes de périphrases verbales sur la seule base de l'opposition entre lexique et grammaire, une telle distinction s'avère néanmoins possible et pertinente si l'on prend appui sur les opérations sémantico-cognitives fondamentales codées par ces périphrases. Il en résulte un nouveau classement des auxiliaires (au sens large) à valeur aspectuelle (i.e. permettant de sélectionner des phases), qui oppose, d'une part, les coverbes de mouvement, de modalité d'action et de phase (qui construisent des sous-procès), et d'autre part, des auxiliaires de visée aspectuelle (qui servent à situer la ‘fenêtre de monstration’ relativement au (sous-)procès).
Intégrée au modèle SdT, cette analyse permet enfin de calculer les inférences que l'on peut tirer des énoncés, à propos de la réalisation des procès et sous-procès présentés. On montre ainsi que, bien que dépourvue de statut référentiel, la visée aspectuelle n'en est pas moins déterminante pour l'interprétation vériconditionnelle des énoncés.