Thomas Baudel(c)
Thèse de Doctorat en Informatique
sous la direction de Michel Beaudouin-Lafon
soutenue le 15 décembre 1995
à l'Université de Paris Sud
There's more to interaction than meets the eye
W. Buxton
Cette thèse a pour objectif de proposer une approche de l'interaction plus adaptée à des domaines d'applications mettant en oeuvre des données complexes ou des tâches créatives, pour lesquelles il n'existe pas de modèle de tâche directement exploitable (le modèle opérationnel ne se déduit pas du modèle dénotationnel). Les modèles d'interaction que nous avons proposés permettent soit d'améliorer les interfaces d'applications existantes (Hypermarks, Toolglass), soit ouvrent le champ à de nouvelles applications de l'informatique (Ligne Claire et Charade). Nous n'avons pas pu ou pas voulu adopter une démarche formelle offrant une synthèse générale mais seulement présenter le cadre que pourrait prendre une telle démarche, reposant sur une représentation orientée objets du modèle conceptuel et prenant comme priorité la définition de modèles d'interaction directe, concise et naturelle.
Ce travail mets en valeur certaines raisons pour lesquelles la création de modèles d'interaction est difficile et que des efforts importants sont nécessaires dans ce domaine. Nous avons proposé certaines règles de conception permettant la réalisation de modèles d'interaction efficaces et naturels. Nous souhaitons que les exemples que nous avons proposé suscitent un attrait et une motivation pour engager une réflexion plus importante sur la morphologie de l'interaction humain-ordinateur.
Dans ce chapitre, nous exposons tout d'abord les problèmes ouverts que nous n'avons pu aborder ou qui ne relevaient pas de notre intention. Nous résumons ensuite ce que nous considérons comme les principaux apports de notre étude, avant de montrer quelques directions de recherche qui permettraient d'approfondir notre réflexion.
Certaines applications commencent à utiliser des informations contextuelles indiquant l'état de l'utilisateur : Sun propose des écrans incorporant un détecteur à infrarouge activant ou désactivant l'économiseur d'écran automatiquement. Des informations plus complètes sur l'activité de l'utilisateur peuvent être utilisées pour en déduire les mécanismes de notification ou d'écho plus appropriés. Par exemple un système de fenêtrage pourrait établir une mesure de l'intensité du travail effectué par l'utilisateur (son activité est-elle intensive ou non, semble-t-il très concentré ?), afin de différer ou d'adapter des notifications éventuelles de processus (arrivée de courrier électronique, détournement des appels téléphoniques...). Michel Beaudouin-Lafon [Beaudouin-Lafon 1993] expose plus en détails les applications de cette forme d'interaction et leurs implications éventuelles sur les modèles d'interaction qui pourraient les utiliser. Les exemples que nous avons étudiés ne nous fournissent pas de matière nous permettant d'incorporer de tels dispositifs à notre étude.
On peut considérer l'interaction vocale suivant deux paradigmes : en utilisant un langage opératif, dont le vocabulaire est orienté par le modèle conceptuel considéré et qui utilise une syntaxe simple, ou en se rapprochant de la structure de communication humaine et en structurant l'interaction comme un dialogue entre l'utilisateur et un interlocuteur virtuel effectuant les manipulations d'objets du modèle conceptuel.
Dans le cas d'un langage opératif, notre démarche de construction de modèle d'interaction que nous proposons reste valide : construction d'un vocabulaire d'actions, définition du langage et liaison avec le modèle conceptuel. Bien sûr, les actions proposées doivent permettre d'assurer la conformité avec le modèle conceptuel. Le canal vocal possède des caractéristiques différentes du canal haptique ; il n'est notamment pas possible de permettre la manipulation de tâche "intégrales" aisément. Par exemple, dans un éditeur de dessin, la manipulation d'objets graphiques par la parole paraît peu adaptée (dans le contexte d'un langage opératif). D'autres applications, comme la formulation de requêtes dans des bases de données textuelles paraissent plus adaptées et plus directes, si la reconnaissance des mots du vocabulaire est efficace.
Nous voyons cependant deux difficultés à résoudre, similaires aux inconvénients des interfaces gestuelles : la difficulté de documentation et d'apprentissage par l'utilisateur des mots et de la syntaxe autorisée, et la détection de l'intention. Comme le geste, la parole a une composante dynamique qu'on ne peut présenter aisément visuellement et statiquement. Il est certes possible d'utiliser une système à base de menus et d'écrans de saisie, mais les modèles d'interaction générés souffriront dans ce cas des mêmes limites que les systèmes à base de menus actuels. De plus, il reste à prouver que dans ce cas l'interaction vocale est plus concise que la sélection d'éléments dans un menu. En ce qui concerne la détection de l'intention, comme dans l'interaction gestuelle pure, les dimensions interprétées sont en fait une reconstitution des actions de l'utilisateur, et non une interprétation des signaux bruts captés par le système. Dans ce cas, il convient de fournir à l'utilisateur des moyens d'éviter le syndrome d'immersion. Alors que nous avons pu utiliser dans Charade une détection implicite de la tension, et donc de l'intention d'action de l'utilisateur, il paraît encore difficile d'analyser l'intonation de la voix pour détecter l'intention. Des dispositifs externes (interrupteur manuel ou utilisation de mot clés) sont pour l'instant les solutions les plus couramment proposées.
Avec l'utilisation d'un paradigme de "communication" homme-machine, le but est de créer un intermédiaire virtuel entre l'utilisateur et la machine, qui se chargerait de comprendre les intentions de l'utilisateur pour les traduire en actions. Il est nécessaire pour cela que le système possède un modèle des buts de l'utilisateur ainsi qu'un modèle de la tâche à accomplir, afin de savoir traduire les échanges en actions sur les objets. Il est nécessaire que l'intermédiaire puisse prendre en compte l'implicite toujours présent dans la communication humaine, et sache l'analyser comme il convient.
Nous avons précisé en introduction que dans le cas de tâches créatives, nous ne savions définir de modèle de la tâche suffisamment précis pour être exploitable directement. Cette difficulté est à notre avis le problème le plus important à résoudre de l'interaction vocale. Aussi les efforts de recherche dans ce domaine se concentrent depuis vingt ans sur les stratégies de modélisation de l'intention de l'utilisateur et de définition de la tâche d'une façon exploitable informatiquement. Ces recherches couvrent des domaines linguistiques, sémiotiques et cognitifs qui dépassent le cadre de l'interaction humain-ordinateur tel que nous nous sommes proposés de l'étudier.
Nous ne nous sommes donc pas engagés dans cette voix qui dépassait les intentions de notre étude : la principale originalité de l'interaction vocale tient à la possibilité d'utiliser un paradigme de communication, mais celui-ci requiert des outils complexes et sortant de la morphologie de l'interaction proprement dite.
Nous aurions souhaité pouvoir fournir des exemples de modèles d'interaction dans la modélisation et l'animation d'objets en trois dimensions, qui présente sans doute l'une des plus grande difficultés en matière de morphologie de l'interaction : les dispositifs de présentation et d'interaction dont nous disposons sont limités, aussi est-il difficile de fournir une interaction directe, les degrés de liberté offerts par les dispositifs étant moins nombreux que les degrés de libertés des objets du modèle conceptuel. Il convient également de noter que le système perceptuel n'a que des moyens limités d'appréhension des objets en trois dimensions, ce qui rend la création de modèles d'interaction naturels également plus délicate.
Enfin, nous n'avons proposé de modèle d'interaction exploitant activement les capacités tactilo-proprio-kinésthésiques de l'utilisateur. Ces dispositifs sont encore peu répandus, mais fournissent des possibilités de développements intéressantes, en particulier dans les tâches artistiques où l'utilisateur possède une grande maîtrise de ses capacités d'actions, et peut tirer largement profit d'un environnement sensoriel riche. Le clavier rétroactif modulaire de Claude Cadoz [Cadoz 1994] est un exemple de dispositif offrant des possibilités de contrôle très fin d'objets informatiques complexes que sont par exemples les sons musicaux synthétisés.
Dans une large mesure, la représentation des informations guide la création du modèle d'interaction, aussi peut-on considérer comme une étape préalable à notre démarche la création d'une présentation du modèle conceptuel adaptée, et vérifiant les critères de conformité, de naturel et de concision.
Cette généralisation de notre démarche nous permettrait de mieux prendre en compte l'écho, sur lequel nous avons insuffisamment insisté.
Bien des difficultés se posent avant de déboucher sur une méthode utilisable, et nous avons seulement essayé de structurer un domaine qui prend de l'ampleur et d'en distinguer un certain nombre de particularités.
* proposer de nouvelles méthodes d'interaction dans des domaines d'applications précis, en particulier lorsque la tâche est créative, et donc difficilement modélisable,
* fournir une démarche générale, qui à défaut d'être précise fournisse au moins des directions de recherches pour la formalisation de la morphologie de l'interaction homme-machine,
* et enfin mettre l'accent sur certains aspects importants de l'interaction, comme l'analyse des modèles d'interaction et leur relation avec les critères fondamentaux de l'ergonomie des systèmes informatiques.
La conception de modèles d'interaction est encore un domaine dans lequel une bonne idée ou une observation des utilisateurs en action permet seule de concevoir des techniques d'interaction adaptées. Par exemple, la construction d'interfaces gestuelles résulte le plus souvent d'une démarche informelle, validée à posteriori par la pratique. Aussi est-il difficile de faire passer de nouvelles techniques d'interaction du stade de la recherche à celui de l'industrialisation : nous ne disposons pas de moyens d'exprimer comment adapter un modèle d'interaction particulier, étudié dans un contexte de recherche, pour l'intégrer dans une application courante.
Les progiciels actuels se limitent trop souvent à des interfaces à bases de menus et écrans de saisie, se contentant de n'intégrer de manipulation directe que lorsque le modèle est bien déjà bien connu : à part les traitement de texte, les logiciels de dessin et les tableurs, on ne rencontre que rarement de manipulation directe véritable. Encore n'y a-t-il pas eu de véritable progrès technologique dans ces domaines depuis l'invention du "Wysiwyg" : les progiciels commerciaux se contentent la plupart du temps d'accumuler les outils et les fonctionnalités offertes, sans tenter de proposer de nouveaux paradigmes d'édition plus adaptés à des tâches particulières.
Aussi notre premier objectif de recherche a été de montrer qu'il existe des alternatives à l'interaction graphique stéréotypée que l'on rencontre le plus souvent. Nous nous inscrivons pour cela dans une démarche de recherche prospective que justifie Jock Mackinlay [Mackinlay 1993]. Notre objectif n'est pas d'expliquer des phénomènes ou de les formaliser dans un cadre exploitable scientifiquement, mais de tenter de repousser les limites de nos pratiques et de nos modèles et de montrer qu'il existe des domaines de l'interaction humain-ordinateur loin d'être exploités à leur juste mesure.
La démarche de recherche prospective est encore peu formalisée et son besoin est souvent mal reconnu. Il est difficile de chercher à sortir des limites des formalisations actuelles en conservant une méthode rigoureuse et scientifique. Pourtant, cette approche de la recherche a déjà fait ses preuves : l'interaction graphique répandue à l'heure actuelle en est issue. Les travaux menés au Xerox Parc dans les années 1970 ont anticipé presque tous les domaines de l'informatique actuelle : les stations de travail, les réseaux locaux, la programmation orientée objets intégrée au système, les interfaces 'WIMP' ont toutes étés inventées au même endroit, par des chercheurs se souciant souvent plus de dépasser les modèles qui leur étaient proposés, en dehors souvent de toute démarche formelle, plutôt que de conceptualiser leur travaux. On peut citer à ce sujet la réponse de Alan Kay à une question sur un point de sémantique du langage Smalltalk : "regardez le code".
Nous ne souhaitons pas pour autant abandonner une démarche objective et scientifique, mais la placer après la phase d'exploration qui permet de repousser les limites de ce que nous tenions pour acquis. Nous ne souhaitons pas également tenter de formaliser ce qui ne peut l'être : il demeure une part de savoir-faire dans la conception de modèles d'interaction et nous préférons la reconnaître plutôt que de proposer une modélisation restrictive. Cependant, nous avons pu dans une certaine mesure extraire une démarche générale de conception, qui, si elle conserve un aspect informel, n'en constitue pas moins un élément d'étude et de compréhension de la morphologie de l'interaction humain-ordinateur.
Nous pouvons extraire de notre démarche les aspects importants suivants :
* La distinction du modèle d'interaction, séparé du modèle conceptuel, et définissant la structure (ou morphologie) de l'interaction indépendamment d'une application considérée
* La décomposition d'un modèle d'interaction en trois éléments :
- un vocabulaire d'actions effectuables, d'où est extrait un sous-ensemble d'actions "naturelles", correspondant aux actions connues de l'utilisateur, ou déductibles intuitivement du contexte. Ces actions sont définies en fonction des capacités d'action de l'utilisateur, de l'espace "perceptuel" (nimbus) du système, et des attributs manipulables du modèle conceptuel.
- un langage défini à partir des actions de base, dont la structure permet de déterminer en grande partie la concision du modèle d'interaction. Plus le langage est sommaire plus l'interaction est a priori concise.
- une relation de sémantique entre les phrases du langage et les attributs du modèle conceptuel, dont les propriétés déterminent la conformité et l'aspect direct de l'interaction
* L'application de critères ergonomiques aux composantes du modèle d'interaction, et des règles générales concernant la construction du vocabulaire d'action, du langage et de la relation de sémantique. Ces règles ne fournissent pas un modèle complet de l'interaction, mais permettent de s'assurer que certaines propriétés ergonomiques du modèle d'interaction conçu sont vérifiées et aident à la démarche de conception.
Dans une perspective pragmatique, nous avons déjà mentionné que les innovations en matière de méthodes d'interaction ne sortaient pas rapidement du cadre du laboratoire. La création de méthodes d'interaction spécifiques sans extraction d'une méthode d'intégration et sans exposer une démarche pose en effet un problème de diffusion des connaissances extraites. Ainsi, les guides de conception, qui sont l'un des support des concepteurs d'application, ne proposent pas de démarche pour la conception de modèles d'interaction novateurs. Par exemple, [Marcus, et al. 1995] insiste clairement sur la nécessité de fournir des méthodes d'interaction et de présentation adaptées, inspirées de la manipulation directe. En revanche, cet ouvrage ne donne d'indication sur le processus de conception que pour les interfaces utilisant les composants standards et largement répandus (menus, fenêtres, zones de dialogues...). Dans ces conditions, il n'est pas étonnant que peu de nouveaux paradigmes d'édition et de manipulation apparaissent dans les progiciels courant. Les prototypes de la recherche ne sont pas destinés à sortir tels quels du contexte dans lequel ils ont étés créés. Seules les méthodes employées, la démarche qui a permis de les concevoir peut être utile aux concepteurs d'applications réelles, qui doivent prendre en compte des impératifs différents de ceux du monde de la recherche.
Aussi est-il nécessaire de formaliser les connaissances extraites de la recherche prospective, à la fois dans une perspective scientifique et pour des raisons pratiques, pour permettre aux découvertes réalisées de fournir des réponses pragmatiques aux problèmes actuels. Nous n'avons fourni qu'une réponse partielle, puisque notre cadre n'est pas totalement formel. Nous souhaitons cependant que notre démarche de conception et les méthodes que nous avons employées pour réaliser nos exemples puissent servir de base à la création de modèles d'interaction plus novateurs, particulièrement dans le cadre des tâches non-procédurales, ou créatives, pour lesquelles l'informatique présente un potentiel sous-exploité.
Pour permettre à la main de plonger dans les octets...
Enabling the hand to grasp the bytes...