Troisième étude2.3.- Un exemple d'utilisation des concepts de l'ethnométhodologie : les descriptions indexicales du domaine des industries de la langue
Dans ce troisième sous-ensemble de la partie expérimentale de ma thèse, je m'efforcerai de montrer par l'exemple que les concepts de base de l'ethnométhodologie dépassent largement la branche des sciences qui a vu leur naissance. Yves Lecerf avec ses travaux d'analyse politique et industrielle [Lecerf 1987-1], [Lecerf 1987-2] avait déjà fourni des exemples d'applications des concepts de l'ethnométhodologie à d'autres champs de connaissances.
Les considérations théoriques et l'explicitation des concepts de base de l'ethnométhodologie qui sont l'objet de la première partie de cette thèse ont clairement montré, me semble-t'il, la vanité d'une prétention à l'universalité et à l'objectivité d'un discours qui aurait pour objet de fournir, en langage naturel, une classification des éléments d'un morceau quelconque du monde qui nous entoure. Ceci est tout particulièrement vérifiable à l'occasion de tentatives de descriptions classificatoires, par exemple à des fins de documentation, de domaines dans lesquels est en train de se produire une rapide évolution technologique. La tentative faite ici n'a pour objet que de rendre visible des images d'un domaine des sciences et des techniques, images partagées par des petits groupes de chercheurs, de salariés de l'industrie, de fonctionnaires. Elle n'a aucune prétention à l'objectivité ni à l'universalité. Bien au contraire, comme on pourra le constater, elle est conçue de façon proprement indexicale afin de conserver et exhiber la multiplicité des points de vues que pourraient avoir des groupes sociaux différents d'un même morceau pratique et concret du monde. Il en est de même pour le programme de recherche et développement d'un vérificateur orthographique professionnel multilingue qui est ensuite proposé. Ce programme, destiné à être lu par des fonctionnaires européens est présenté de façon à entrer en cohérence avec ce qui me parait être la rationalité du groupe destinataire. La description, pour sa part, répond à un but pratique très précis puisqu'elle a pour objet :
1.- de permettre à des décideurs en train d'élaborer une politique d'innovation technologique d'appréhender l'ensemble du domaine d'une façon organisée.
2.- de fournir un programme de travail destiné à collecter des informations directement utilisables pour définir des secteurs et des modes d'intervention qui permettent de développer les activités dans le domaine.
3.- de permettre la mise en place d'un dispositif de veille technologique sur ce secteur.
4.- de permettre la mise en place d'un dispositif d'évaluation des résultats des interventions en matière de politique de la recherche et de politique d'innovation technologique dans le domaine.
Le terme d'organisation implique habituellement des relations de type génériques et spécifiques, avec des représentations arborescentes des différents concepts. Il n'est évidemment pas possible d'utiliser ce mode de représentation pour décrire, en un seul arbre, un domaine où s'entrecroisent des sciences, des technologies, des secteurs industriels aussi variés. Ainsi, si l'on fait simplement la liste des domaines scientifiques qui produisent des connaissances directement utilisables par les industries de la langue, on rencontre déjà un problème d'ordonnancement. Par ailleurs, la langue dans laquelle va être donnée l'ordonnancement joue un rôle de premier ordre puisque les concepts couverts par les termes usuellement utilisés par les traducteurs ne se recouvrent pad'une langue à l'autre. Et, l'intérieur d'une même aire linguistique, les structures des dispositifs de recherche d'Etats voisins peuvent amener à classifier les sous-domaines des sciences de façons très diverses et toutes également valides, chacune dans son contexte. Enfin, l'utilisation du langage naturel pour décrire les sciences impose de ne pouvoir faire que des descriptions disjointes des branches des sciences, chacune dans le cadre de son paradigme de départ.
On est ainsi confronté au problème classique en documentation : soit on reste à un niveau de généralité élevé et la hiérarchisation peut être acceptée par de nombreux lecteurs, y compris dans des langues différentes, mais cette classification n'apporte que peu d'information. Soit l'on tente une description fine et, immédiatement, la subjectivité du classificateur s'exprime de façon tellement importante, à cause de sa langue, de son contexte professionnel particulier de son activité, du paradigme scientifique qu'il a choisi pour point de départ, que la description devient difficile à accepter par tout lecteur qui n'est pas exactement dans le même contexte que le classificateur. Ce phénomène est clairement illustré, pour ce qui est du paradigme scientifique de départ, par l'historique opposition entre Noam Chomsky et Richard Montague. Ces deux chercheurs se sont efforcés de mettre en évidence les spécifications formelles des propriétés du langage naturel en tentant la construction de grammaires complètement explicites. A ce titre, une première approche pourrait classer leurs activités dans une même sous-domaine des sciences. Cependant, ce classement serait considéré immédiatement comme une trahison intellectuelle (et en serait, par certains côtés, certainement une) par l'une ou l'autre des deux écoles. En effet, la similarité entre les deux lignes de pensées s'arrête à la forme de leur production :
- Montague voyait la description des langues naturelles comme une branche des mathématiques. En conséquence, les langues naturelles sont supposées pouvoir être manipulées en utilisant les mêmes techniques de description que les langages artificiels (par exemple, celles du formalisme mathématique). Dans ce paradigme, le problème principal est de mettre en place un outillage suffisamment puissant pour décrire les significations couvertes par le langage naturel. Et, plus généralement, aucune attention n'est accordée à la façon dont les humains manipulent la langue naturelle ou dont les enfants l'acquièrent. Dans le paradigme de Montague, La seule façon raisonnable de décrire les significations associées aux phrases de la langue naturelle est de fournir une description des règles en vertu desquelles nous pouvons utiliser tel ou tel élément du langage pour décrire tel ou tel élément. Cette description constitue l'aspect sémantique de la grammaire.
- En opposition avec ce paradigme, Chomsky considère que la linguistique est un sous-domaine de la psychologie et que toutes les descriptions des langues naturelles doivent amener à expliquer comment l'humain peut posséder une telle capacité. En particulier, ses travaux théoriques en linguistique sont directement orientés vers la réponse aux questions suivantes : Comment les humains peuvent-t'ils avoir la connaissance d'une seule langue alors même que chaque langue est un système d'une complexité potentiellement infinie ? Comment font les enfants pour acquérir une langue alors que leurs autres capacités sont simultanément relativement pauvres ? Comment se fait-il que l'on retrouve des caractéristiques communes dans des langues qui couvrent des univers culturels totalement différents ? Associé au paradigme de Chomsky, il y a la supposition que tout humain voit et interprète le monde autours de lui pour se construire, en permanence une représentation interne de ce monde. La signification des expressions du langage naturel n'est donc pas ici obtenue en caractérisant directement la relation entre ces expressions et les objets réels du monde. Le contenu sémantique d'une expression est obtenu en donnant la relation qui existe entre l'expression et la représentation interne du monde.
L'une des conséquences importantes de ces deux paradigmes opposés est que deux systèmes conceptuellement très différents doivent être utilisés pour décrire les activités de recherche dans le domaine. Décrire les activités de la branche "Montague" en se plaçant dans le paradigme "Chomsky" ou vice et versa n'a pas grand sens, outre le fait que cela nécessite de la part du lecteur une capacité de réinterprétation peu commune. Dans le domaine des industries de la langue se pose, en plus un problème lié au fait que les frontières entre les sous-domaines (dans le cadre d'un même paradigme) sont extrêmement floues. L'un des exemples possibles est celui du morceau d'arbre qui décrirait la morphologie et la syntaxe comme deux sous-domaines de la linguistique, telle que la conçoit Chomsky. Tant que l'on reste dans un arbre à deux feuilles et une racine, l'accord est, à peu près, unanime. Dès que l'on commence à détailler ce qui fait partie de la morphologie et ce qui fait partie de la syntaxe, le brouillard s'installe. C'est à cause de ce flou que, de plus en plus souvent, les chercheurs limitent la distinction entre leurs activités en recherches sur la syntaxe et leurs activités en recherches sur la morphologie. Ainsi, les dictionnaires électroniques destinés à l'usage par des automates sont souvent appelés lexiques-grammaires électroniques, exprimant non seulement le fait qu'ils contiennent à la fois des traits syntaxiques et des traits morphologiques pour décrire les entrées, mais aussi qu'il n'est pas possible de distinguer réellement les uns des autres. Lorsqu'on examine ces lexiques-grammaires il apparaît d'ailleurs qu'ils contiennent également des traits que l'on pourrait également considérer comme relevant directement de la sémantique. Ainsi en est-il par exemple du trait animé-inanimé qui est fort utile pour distinguer les structures métaphoriques (tuer le temps/ tuer la mouche) qui interdisent certaines transformations syntaxiques (le temps est tué/la mouche est tuée). On pourrait penser que cette unification conceptuelle, impossible lorsqu'il s'agit de décrire des activités et des projets de recherche, devient possible lorsqu'on se projette plus en aval, dans l'activité de développement industriel. Les objets, ici du moins, semblent concrets et donc plus descriptibles. Il n'en est rien. Prenons l'exemple des automates de traduction qui existent vraiment (et non pas les projections pseudo-concrètes, car dans l'avenir et non dans la réalité immédiate, de théories actuellement en cours d'élaboration).
On peut tenter de faire une distinction, d'ordre très général, entre :
- d'une part les automates qui contiennent un module qui réalise, sans intervention humaine, un transfert d'une langue à une autre d'un texte source vers un texte cible. Ces automates fabriquent donc un texte brut susceptible ensuite d'être révisé par l'humain (c'est, pour reprendre une dénomination un peu ancienne, la TAAH, traduction automatique assistée par l'homme) ;
- d'autre part les automates qui ne contienneÐent pas un tel module (c'est, pour reprendre la dénomination ancienne, la THAO, traduction humaine assistée par ordinateur). Ces automates contiennent au moins un module de gestion de dictionnaire de transfert bilingue auquel l'homme a accès pendant qu'il traduit (sinon ce sont de simples machines de traitement de texte monolingues). Et ce module contient, le plus souvent un sous-module, dit de préparation lexicographique, qui parcourt le texte source à la recherche des mots non contenus dans le dictionnaire.
Quelle différence, du point de vue de ce début de classification, peut-on faire entre SYSTRAN et ce petit sous-module qui parcourt le texte et, pour chaque mot du texte source, fournit un équivalent dans la langue cible ou, a contrario, prévient qu'il faut faire une recherche lexicographique ? Fondamentalement aucune car la seule différence est une profondeur d'analyse qui serait plus grande dans SYSTRAN, profondeur dont l'évaluation est éminemment subjective. On voit, sur ce même exemple, qu'une autre distinction traditionnelle montre ses limites : celle qui était sensée exister entre les automates qui contiennent des dictionnaires utilisés exclusivement par la machine et les automates qui contiennent des dictionnaires utilisés exclusivement par l'humain. Dans la pratique, si des différences de codages peuvent exister entre les dictionnaires de telle ou telle machine, à un moment ou à un autre, l'humain comme la machine utilisent ces dictionnaires pour tenter de réaliser une forme de transfert. Ainsi donc, la séparation entre systèmes de THAO et systèmes de TAAH, qui était traditionnellement utilisée dans la littérature commerciale et industrielle tient difficilement dès que l'on entre un peu dans le détail.
Prenons un autre exemple. On distingue habituellement les vérificateurs orthographiques (spell checkers) de correcteurs orthographiques (spell correctors). La distinction entre les deux réside, en première approche, dans le fait que les premiers détectent les erreurs et les signalent alors que les seconds, de plus, les corrigent. Dans la pratique, il n'y a aucune distinction possible dès que l'on regarde les fonctions réelles de ces logiciels :
Un vérificateur orthographique (comme celui de Word, par exemple) contient, en plus de son dictionnaire "général" un dictionnaire dit "personnel". Lorsque le logiciel vérificateur vous signale une erreur sur un mot non contenu dans le dictionnaire général et que vous la corrigez, la forme correcte est introduite dans le dictionnaire "personnel". A la prochaine occurrence de cette erreur, le vérificateur vous donne automatiquement la forme correcte. Par ailleurs, comment qualifier les nombreux vérificateurs qui contiennent une fonction de Recherche et Remplace automatique ? Réciproquement, les correcteurs orthographiques actuellement disponibles, ne font jamais leur travail de remplacement d'une façon totalement automatique. En réalité, tous, lorsqu'une erreur possible est détectée, fabriquent une liste de corrections possibles triée par probabilités décroissantes et la proposent à l'usager. Ainsi donc, si l'on applique à la lettre le critère de distinction, tous les produits actuels sont dans la même catégorie, le pur correcteur orthographique n'existant pas sur le marché.
On pourrait être tenté de distinguer les produits par leurs fonctions. Il y aurait alors d'une part les automates de traitement de texte, d'autre part, les automates de correction/vérification orthographique, par ailleurs les automates de TAO/THAO, enfin les automates d'aide à l'indexation/ interrogation de bases de données, etc. Mais ici, encore, dès que l'on quitte la catégorisation générale pour examiner les fonctions réelles de ces automates, on constate que tous contiennent un module appelable du nom d'analyseur syntaxique/morphologique, que tous contiennent un dictionnaire, que tous prennent un texte en entrée pour fournir un texte en sortie, etc. Et donc on en est réduit, à nouveau, à rester dans des catégorisations très générales et non disjointes : tel système sera plutôt un vérificateur, tel autre, plutôt un automate d'indexation de texte, les différences entre ces systèmes ne résistant que très mal à une analyse poussée. Cette démarche de hiérarchisation par fonctions nous semble cependant la seule possible dans la mesure ou elle peut fonctionner, comme nous le verrons plus loin, dans des cadres contextuels variés.
Quant à donner les relations existantes entre des champs de la recherche et les produits réellement existants ou à venir, l'analyse des divers exercices auxquels les prospectivistes se livrent en fin de prestation dans les multiples colloques en informatique-linguistique montrent que, pratiquement, tous les champs de la recherche peuvent intervenir dans tous les produits. Ici encore, on peut seulement dire qu'aujourd'hui, c'est plutôt le traitement du signal et la reconnaissance des formes qui permettent de fabriquer des circuits intégrés de reconnaissance de la parole discontinue et plutôt les grammaires formelles qui permettent de fabriquer des systèmes de TAO. Rien ne permet d'affirmer que cela continuera dans l'avenir : les ingénieurs qui travaillent sur la prochaine génération de systèmes de synthèse de la parole font, actuellement, plutôt des grands lexiques-grammaires avec marqueurs prosodiques que de la synthèse de Fourrier.
Comment donc appréhender le domaine des industries de la langue, alors même que, de façon irrémédiable, il n'existe pas de concept unificateur, que ce soit sur le plan des recherches de base, de la recherche appliquée ou des produits ? Il m'a semblé qu'il était possible, ici, de résoudre le problème posé en utilisant les outils fournis par l'ethnométhodologie. Et, ainsi, de disposer de multiples visions partielles, chacune d'entre elles étant contextualisée dans le temps, dans l'espace et dans un système de paradigmes à l'avance aussi clairement explicité que possible. En donnant au lecteur un ensemble de visions locales contextualisées, on peut attendre de lui qu'il se construise, par accumulations et inférences successives, sa propre vision du monde des industries de la langue car, dans sa vie pratique, quotidienne, il pratique sans cesse cet exercice.
La liste de ces visions locales est énorme. Aussi, on n'en donnera ici que quelques unes. Aucune ne prétendra ni à l'exhaustivité ni à l'universalité. Leur caractéristique commune est de reposer sur des faits et de s'interdire toute interprétation non contextualisée. Le simple fait de contextualiser les informations permet de ne pas fournir une description finie car le lecteur, prévenu, sait alors que la définition de l'image projetée devant lui est lié directement au nombre et à la variété de contextes différents. Et donc, il n'attend plus une définition idéale d'une description partielle. Il n'est pas utile de contextualiser explicitement l'ensemble des informations fournies (c'est à dire d'expliquer que ces informations sont destinées, en 1988, à être utilisées par des fonctionnaires français parisiens qui ont pour objectif d'élaborer et mettre en oeuvre,... etc.) car le lecteur fait se travail sans même y penser, puisqu'il est, lors de la lecture, dans cette même situation pratique d'élaboration et de mise en oeuvre,...etc.
Commençons d'abord par donner une première liste de faits. Il nous semble que, pour appréhender le domaine des industries de la langue, on a besoin, entre autres, de trois types de données de base :
- des données sur la science en train de se faire (la recherche fondamentale) ;
- des données sur les produits en train de se faire (la recherche et développement) ;
- des données sur les produits et services en train de se vendre (le marché).