Brouillon Du Manuel De Theuth
Sous forme de FAQ, et sur Crao Wiki parce que j'ai pas d'autre endroit pour le mettre pour l'instant (merci Crao Wiki !)
- Qu'est-ce que Theuth ?
Theuth est un langage de programmation qui permet de faire, notamment, de la traduction automatique subtile. Theuth permet également de faire de la Programmation Orientée Chose (qui ressemble à la programmation orientée objet, mais n'en est pas) et tout ce que peuvent faire les langages de programmation "classiques"
- Pourquoi le nom Theuth ?
Parce que Theuth est le dieu qui a apporté l'écriture et les sciences aux Egyptiens. Il en a même plutôt pris pour son grade à cet occasion, comme nous le raconte Tonpla.
- Parlez nous du langage Theuth
En langage Theuth une instruction est écrite comme une phrase de votre langue maternelle (en général, à le verbe est à l'infinitif). Vous écrivez exactement comme vous parlez, et n'avez plus à vous soucier des détails concernant la ponctuation (bien qu'elle reste importante), ou de savoir si vous devez nommer votre fonction avec un verbe à l'infinitif ou à l'impératif, ou bien s'il faut coller les mots ensemble en mettant des majuscules ou employer des blancs soulignés, enfin quoi toutes ces conneries.
- Et alors ?
(Et alors, comme les instructions ont la forme de phrases, les phrases sont considérées à leur tour comme des instructions. Supposez que je prenne la phrase /je /bouffe /du /poulet en langage Theuth, cette phrase est en fait une instruction, qui sera exécutée. Et devinez quoi, le résultat de cette exécution sera la traduction de votre phrase dans la langue de votre choix. La boucle est bouclée : les instructions sont des phrases et les phrases sont des instructions, évaluer c'est traduire et traduire, c'est évaluer.
- Mais concrètement, comment on fait ?
On écrit des grammaires qui disent comment traduire des bouts de phrases. Ensuite, l'algorithme Theuth est capable, une phrase étant donnée, de voir de quels bouts elle est constituée, de les traduire chacun séparément et de recoller les morceaux. Faites-lui confiance, il s'y retrouve ! Pour désigner les bouts de phrase (des choses comme /une /poire ou encore /je /voudrais /vous /dire /que), on emploie un terme technique : on parle de bribes.
- Comment Theuth sait-il comment traduire telle bribe (/je /voudrais, par exemple) ?
C'est vous qui lui avez dit ! Par exemple, vous avez déclaré explicitement quelque part que la bonne traduction de /une /pomme était {an apple}. Concrètement, une des pages de votre wiki, vraisemblablement la page @pomme, contient le code suivant (qui se comprend tout seul) :
\desormais \l'\expression {/une /pomme} \veut \dire {|an apple}
- Pourquoi sur une page appelée @pomme ?
Pourquoi pas ?! En fait, vous pourriez caser votre bout de grammaire nimporte où, mais autant ranger vos affaires proprement... Songez que les grammaires qui permettront à l'humanité de communiquer sans frontière sur la totalité de la planète sont un peu la propriété de l'espèce humaine, et que donc, c'est bien d'en faire une oeuvre collective belle et juste.
- Je ne veux pas écrire \desormais, ce mot me répugne
Je suppose que vous êtes de ceux qui se disent que c'est injuste que les instructions du langage Theuth soient écrites en français, mais j'ai une bonne nouvelle pour vous : en fait on s'en fout, rien ne vous empêche de coder en russe, en turc ou en swahili, ou mettre d'employer la syntaxe fléchée :
'{/une /pomme} --> {|an apple}
qui, faisant fi de tout mot en une langue particulière, est parfaitement égalitaire de ce point de vue.
- Donnez-moi un exemple de Theuth plus compliqué
Voici :
'{/je /désire #:marchandise} --> {|I would like #:marchandise} '{/un /paquet /de #:marque} --> {|a pack of #:marque} '{/Gauloises} --> {|Gauloises}
et ça donne :
\traduire {je désire un paquet de Gauloises} ---> I would like a pack of Gauloises
- Comment diable Theuth fait-il pour recoller les bribes ?
Bah, l'algorithme ne fut certes pas facile à trouver, ma bonne dame. Douze années de recherches, en solitaire, le mépris des contemporains, tout ça... Mais bon, on le tient. Il y a plusieurs innovations informatiques majeures derrière l'algo, notamment la Programmation Orientée Chose, le parsing asyntagmatique, la distinction entre plusieurs genres de groupes, etc. Techniquement, le terme qui convient pour désigner cette découverte est le suivant : algorithme sévèrement burné.
- Quel est la complexité de l'algo ?
O(n) ! Ha ha ha, ça vous les coupe hein bande de gonzesses ?!?!! Oui je sais, le mieux qu'on arrivait à faire c'était du O(n^6) ou O(n^3) (suivant la manière de considérer les choses), mais là tous les records sont battus, puisque O(n) est nettement meilleur que O(n^3) ou même O(n^2) (en fait, un algo O(n) s'exécute, en pratique, instantanément...). Mais surtout, il est impossible qu'on fasse jamais mieux à l'avenir, puisqu'on ne peut pas descendre en dessous de l'exposant un.
- Félicitations, pouvez-vous nous en dire plus
Oui. Soit une phrase constituée de n mots ou ponctuations, si D est sa profondeur (par exemple la profondeur de /je /désire /un /paquet /de /Gauloises dans l'exemple précédent est 3), alors l'algorithme exigera que soient exécutées (D+1).n opérations de base.
- C'est peu
C'est quasiment le minimum. Dans les faits, D.n serait possible, si la machine disposait d'un instinct qui lui fasse pressentir à quel moment s'arrêter de calculer. Mais comme ça n'existe pas, (D+1).n est ce qui se fait de mieux. Une autre chose concerne la valeur de D. Elle peut être localement très élevée, et valoir localement très peu...
- Comment cela ?
D dans le langage oral courant vaut 3 ou 4. Dans les articles de journaux entre 5 et 7. Dans la littérature "relevée" (Montaigne, Proust) : bien plus. Si vous avez un texte où D varie beaucoup et que vous le traduisez en bloc, vous êtes moins performant que si vous le découpez en sous-textes où les valeurs de D sont consistantement les mêmes.
- Les grammaires Theuth doivent être très grosses
Oui, mais pas tant que ça. En effet..........................
C'est bien joli, mais j'aimerais bien avoir une réponse à question en bas de la page
http://overcrowded.anoptique.org/LangageTheuth (Mon déjeuner m'appelle) --Olivier Auber
Heu ah bon il y avait une question ?? ;-) Bon, ben Olivier je crois que ce que tu veux savoir c'est si mon projet tient la route face à la brutalité des méthodes statistiques. Je te répondrai que les statistiques, c'est l'aveu qu'on n'a aucune idée, aucune théorie, en fait. Ca ne peut marcher qu'avec des moyens démesurés... et encore ! Tandis qu'avec des idées brillantes et de la gnake, avec surtout le peuple en mouvement, Theuth peut foutre Google par terre, en tout cas je le sens bien ! C'est David contre Goliath ! --esc
--- Cette page entend donner des arguments en faveur du logiciel Theuth, et dire au passage pourquoi ceux qui disent que Theuth ne peut pas fonctionner parce que ceci cela ont tort... mais, ce n'est pas très sérieux. La seule BONNE manière de réfuter les grognons, c'est de fabriquer un logiciel qui marche et de le LACHER DANS LA NATURE. Ainsi démonstration est faite de son efficacité, et tout le monde est content. Ajoutons même que ce genre de réfutation est irréfutable.
---
- Que peut faire Theuth que ne pouvaient pas faire les logiciels de TALN à l'ancienne mode ?
Traiter les textes avec finesse. Les logiciels de TALN de grand-maman pêchaient par de nombreux défauts (ou excès), notamment ils voulaient à tout prix reconnaître des mots ("péché de lexicalisme"), et ils s'attachaient à tout analyser comme des phrases ("péché de syntagmatisme").
- Donnez un autre exemple
Les grammaires ancienne mode sont suffisamment psychorigides pour n'éprouver aucun problème avec des phrases bien bâteaux, exemple : Le chat mange la souris. Ségolène n'a pas de programme. C'est la lutte finale.
Par contre elles échouent lamentablement dès que ça se complique même rien qu'un peu : Il me fait ïèch veugra. I sort of killed him. Regardez ce bon yaourt et miam les bonnes vitamines.
- Un projet pour l'avenir ?
Ca serait bien que des gens fabriquent un logiciel qui soit aux textes ce que les traitements d'images sont aux images. Pour le fun.
- Quelles sont les limitations de Theuth ?
Plus nombreuses qu'on ne veut l'admettre. Theuth ne permet pas de traduire toutes les subtilités d'un texte ancien, Aristote par exemple. Par contre, un système de connotations est prévu pour que Theuth puisse traduire avec finesse des textes qui sont A PROPOS de ces textes anciens (une thèse de doctorat sur Aristote, par exemple). Quelque part, ça compense.
Egalement, Theuth échoue à traduire correctement les jeux de mots et les mots d'esprit (même s'il est toujours possible de recenser une sorte d'almanach Vermot mondial, et de repérer les contrepèteries les plus fréquentes). Eh bien... c'est très bien comme ça ! Il y a un théorème qui dit que si on fait un logiciel capable de traduire correctement les jeux de mots, ce logiciel équivaudra à une intelligence artificielle, donc, dans le contexte capitaliste actuel (et peut-être aussi dans un contexte non capitaliste), équivaudrait à mettre au rebut 99,99% de l'humanité, supplantée par des robots. Un avenir dont nous ne voulons PAS.
Au final, à cause de ces limitations, les gens devront toujours apprendre les langues étrangères afin de comprendre leurs jeux de mots et pouvoir lire les vieux auteurs... Le reste du temps, ils disposeront d'un outil simple et élégant qui traduira pour eux à leur place de toute langue en toute langue... les textes qui ne seront pas subtils par essence !
Dernière modification le mercredi 27 décembre 2006 15:59:03



