Journal d'un terrien

Web log de Serge Boisse

On line depuis 1992 !

Recherche personnalisée

HAL :
Les lois de l'humanotique

On connaît les lois de la robotique de Isaac Asimov : elles sont censées régir tout le comportement d'un robot idéal.
Il est remarquable que ces lois soient très simples :

  1. Un robot ne peut mettre un être humain en danger, ni, restant passif, laisser cet être humain en danger
  2. Un robot doit obéir aux êtres humains sauf si cela est contraire à la 1ere loi
  3. Un robot doit protéger sa propre existence, sauf si  cela est contraire à la 1ere ou la seconde loi.
Ceci posé, quelles sont les lois qui régissent les êtres humains ? Peut-on inventer les "lois de l'humanotique", des lois simples qui régiraient le comportement des êtres humains ? Disons le tout de suite, cela semble improbable ! Mais si c'est impossible, il est a mon avis très intéressant de savoir pourquoi.

Tous d'abord, un tel jeu de lois procède forcément d'un behaviourisme à outrance, approche rejetée par nombre de psychologues. Il semble évident que le comportement d'un être humain dépend de son expérience passée, de ses désirs, etc, donc d'un certain état interne. Les lois cherchées devraient donc :

Soit ! Essayons donc :

Prologue ; hypothèse

Le système sensorimoteur et plus généralement le système nerveux d'un être humain a une organisation hiérarchique. Au plus bas niveau, on trouve des systèmes réflexes (tel le réflexe de rétractation de la main qui touche un objet brûlant, le système respiratoire, etc). Au plus haut niveau, on trouve des actions qui intègrent l'ensembles des percepts et de l'expérience passée d'un individu. Au milieu, on pourra trouver des systèmes responsables de comportements plus ou moins complexes (attraper une balle, marcher, conduire un véhicule). Ces systèmes sont relativement autonomes mais peuvent recevoir des ordres d'un système situé à un niveau plus élevé, ou transmettre des signaux plus ou moins intégrés à ces mêmes niveaux qui les interprètent comme des percepts.. Ils reçoivent également des "percepts" des niveaux inférieurs.

Certains systèmes peuvent occasionnellement prendre le contrôle du comportement : Par exemple lorsqu'un besoin corporel se fait pressant (respirer, uriner, dormir). Voir la 2ième loi !

En outre il existe des "percepts" communs à tous les systèmes : On peut les assimiler à des niveaux de drogues ou d'hormones dans le cerveau. La panique, ou l'hystérie, par exemple, sont des comportements qui ont pour origine par des niveaux de "peur", d'angoisse", ou "d'urgence" communs à tout les systèmes. Cela devra être précisé.

Plus précisément, les percepts d'un système sont :


1ere loi

Tout système, y compris l'être humain dans son ensemble, se comporte à tout instant de manière à maximiser une fonction s qui lui est propre, dite de satisfaction future.

Commentaire : Le but d'un système, et également celui de l'être humain, est donc de maximiser une certain fonction abstraite s. Nous n'avons donc pour l'instant pas dit grand chose. Les lois suivantes préciseront ce à quoi ressemble cette fonction s et sur quel domaine elle opère. Notons que pour l'instant le nom de s : "satisfaction future" n'est qu'un nom. Ce sont les propriétés de s qui permettront de lui donner une sémantique, et la première loi ne donne aucun indice sur ces propriétés.

Je n'ai quand même pas choisi ce nom au hasard : je pense que les actions d'un être humain ne sont pas que des réactions à une situation présente, mais qu'elles prennent en compte une certaine anticipation du futur : en d'autre termes, l'être humain choisit les actions qui auront les meilleures conséquences pour lui ou pour un objectif concert ou abstrait (voire inconscient !) qu'il s'est lui -même fixé.

2ième loi

Les systèmes peuvent être dans deux états :

Le système passe dans l'état excité lorsque les percepts qui lui parviennent dépassent un certain seuil. Il repasse dans l'état normal dès que les percepts retombent en dessous de ce seuil.

Commentaire : Par exemple si votre "moi" (un système de haut niveau !) donne l'ordre à votre système respiratoire d'arrêter de respirer, vous le ferez... jusqu'à ce que votre corps manque à ce point d'oxygène que le système nerveux qui commande le système respiratoire reprendra la main. De même lorsque le besoin de dormir devient irrépressible... on s'endors.

3ieme loi

Les émotions, percepts communs à tous les systèmes, se partagent en deux classes : ceux sont simplement des niveaux modélisable par un nombre, (positif ou négatif : tout un éventail de soi disantes émotions sont en fait des niveaux d'un même signal) et ceux qui ont un argument (qui est un système), comme suit :

Signaux "niveaux" :

Signaux avec argument : Commentaire : il peux sembler très réducteur de ne considérer qu'un nombre aussi restreint de signaux. Attention à ne pas les confondre avec les traits de caractère, les sentiments, ou la personnalité qui résulte de l'interaction complexe entre les systèmes : les signaux cités ci-dessus donnent simplement un état instantané des émotions ressenties. Même ce petit nombre donne lieu à un gigantesque espace, par le jeux des variations de niveaux et d'arguments. C'est pourquoi je pense au el le fait de dresser la liste exacte ou non de ces signaux émotionnels est un faux problème : ce qui compte, c'est de dresser une liste plus ou moins minimale, mais qui marche.

On pourra remarquer que par exemple "désir de répéter" va influer directement sur le choix des stratégies mises en oeuvre par les systèmes (voir 5ième loi). De même "amour" ou "attachement", lorsqu'ils sont actifs, privilégient la stratégie "imiter".
Chez les très jeunes enfants, l'apprentissage se fait par attachement à une personne (la mère en général), et par imitation. Le passage d'un système dans l'état excité dépend directement également du niveau d'excitation général.

4ieme loi

Tout système possède un attribut dit "plaisir" P qui est un nombre et varie dans le temps : P(t). Il est génétiquement programmé de manière à ce que certains ensembles ou "patterns" de percepts (différents pour chaque système) augment son plaisir et que d'autres patterns le diminuent, ou laissent inchangé (ou bien calcul direct du plaisir en fonction des percepts ?) Un système S traite à l'instant t ses percepts d'une certaine façon (cf 4ieme loi), et produit des ordres pour les niveaux inférieurs et des signaux pour les niveaux supérieurs et adjacents. La fonction de satisfaction future s est celle qui maximise le plaisir futur :
s = somme(i=t...t+k, a(i) x P(t+i)) où les a(i) sont une série convergente de nombre positifs décroissants. Les a(i) et "l'horizon" de prédiction k dépendent du système.

Commentaire : On justifie ainsi le nom de la fonction s : c'est celle qui maximise le plaisir futur (plus précisément la somme pondérée des plaisirs futurs) Les coefficients a(k) mettent en balance de grands plaisirs futurs avec de petits plaisirs proches. Chaque "petit plaisir" d'un système est déterminé par les percepts présents et passés du système correspondant et dépend donc de l'histoire du système (mémoire). Notons que s est une fonction qui n'est calculable que pour des instants passés (rétrocalculable).

5ième loi

Un système peut utiliser différentes stratégies pour traiter ses percepts et ainsi maximiser la fonction de satisfaction future s. Ce sont :

Le choix de la stratégie est un problème en soi, qui est confié à un sous système : celui-ci reçoit en entrée les percepts courants et éventuellement un résumé de l'état interne de système, et renvoie le nom de la stratégie à utiliser. Ce choix se fera également en fonction des signaux émotionnels (3ième loi).

Commentaires :

Ici encore il importe peu de dresser une liste exhaustive des stratégies. Ce qui compte, c'est d'avoir une liste suffisante pour prendre en compte les besoins du système.

Les deux premières stratégies ne peuvent conduire à un comportement intelligent, mais sont adaptées à des situations ou un tel comportement n'est justement pas requis.

La stratégie "imiter" est très importante, au moins lors de la phase d'apprentissage du système : les très jeunes enfants apprennent en s'attachant à un adulte, et en tentant de l'imiter, ou du moins de lui faire plaisir. Je suis persuadé que ce type de stratégie est mis en ouvre non seulement globalement, mais aussi au niveau de chaque sous système.

Déléguer et Diviser pour régner sont des stratégies importantes et efficaces.

La stratégie "mémoire" est la plus rapide/efficace mais elle suppose que le système ait déjà "vécu" des situations analogues. De plus elle fait appel à un détecteur d'analogies ou un compresseur d'informations, qui est un système complexe lui-même. Il est certain néanmoins que ces systèmes existent dans notre cerveau. je suis même persuadé que l'aptitude à résumer/classifier est, pour une grande part, ce qui caractérise l'intelligence d'un système.

La stratégie "générer et tester" est la seule qui permet de répondre "intelligemment" à de nouvelles situations. Je suis persuadé que cette stratégie est mise en oeuvre de manière extensive dans l'esprit humain, et qu'elle est l'un, si ce n'est son seul, "moteur" : Par exemple le rôle du système visuel est de trouver la "scène" qui correspond à ce qui est perçu par la rétine : ce système génère donc des "scènes" contenant des objets, textures, ombres, éclairages, etc). Or il se trouve que le système visuel humain fonctionne en générant des perceptions visuelles "fausses" à partir d'une "scène" et en retenant la scène qui "matche" le mieux ce qui est réellement perçu. Lorsque ce système fonctionne en roue libre (par exemple les yeux fermés), il est responsables des "images" que l'on perçoit. Peut être aussi des rêves... Un autre exemple dans le système moteur : pour attraper une balle de tennis avec une raquette, il est évident que le système moteur va simuler le mouvement à effectuer avant de l'exécuter vraiment. De même dans le système phonatoire : n'avez vous jamais eu l'impression d' "entendre jaillir en un éclair" dans votre esprit la phrase que vous allez prononcer l'instant d'après ? On voit vraiment là génerer-et tester pris sur le fait...

Pour éviter l'explosion combinatoire, le système ne doit générer que des "scènes" plausibles. On utilise pour cela un système de focalisation de l'attention.

6ieme loi

Il existe dans tout système un mécanisme de récompense/punition qui fonctionne ainsi : Le système conserve en mémoire une liste des percepts, stratégies et détails des choix faits dans le passés. Lorsque le système a déterminé quelles actions il allait entreprendre (ordres donnés aux niveaux inférieurs, décision prise reportée au niveau supérieur), il est alors capable d'évaluer P(t-i)  selon la 3ième loi.
Plus précisément on calcule une fonction d'adéquation sur 5 itérations :
A(t)  = 5 (P(t-4)-P(t-5)) +4 (P(t-3)-P(t-4)) + 3 (P(t-2)-P(t-3)) + 2 (P(t-1)-P(t-2)) + (p(t)-P(t-1))
       =  -5 P(t-5) + P(t-4) + P(t-3) + P(t-2) + P(t-1) + p(t)
qui représente la moyenne pondéree de l'augmentation du plaisir depuis l'instant t-5. On peut alors mettre ceci en balance avec la décision prise à t-5

commentaire : ici je suis moins sûr de moi. Mais il me semble clair que le système de récompense/punition doit renforcer le stratégies qui ont marché dans le passé, et diminuer le rôle des autres (pour un système donné bien sûr). Par suite il est nécessaire dévaluer le succès de ces stratégies. Que ce soit sur 5 ou 10 itérations ne change pas grand chose.

7ieme loi

L'adéquation calculée selon la 5ième loi est retransmise/communiquée par un système à ses sous systèmes et aux systèmes adjacents mais pas aux systèmes de niveau supérieur. Au contraire, les sur-systèmes qui ont agit de manière adéquate "imposent" cette adéquation à leurs sous systèmes. Ainsi chaque sous-système calcule une adéquation pondérée AP = (n*A + B1) / (n+1) où A est l'adéquation du sur-système et B celle du système lui-même, et un un entier de l'ordre de 10. Il est alors capable de récompenser les stratégies qui ont augmenté AP et de punir celles qui l'ont diminué, cinq étapes auparavant.

Ceci se fait en modifiant les patterns ? 

Travail non encore terminé... Mais il me semble que je suis sur la bonne voie. Reste à définir un système d'homéostasie, pour éviter les a-coups, et un système de détection des boucles... Les deux sont liés d'ailleurs !
 

Journal d'un terrien

Commentaires (1) :

Page : [1] 

ISIS
Le 28/12/2014 à 19h00
c'est bien de placer un QE (temps de mesure approximatif),mais il faut faire avec le QI,et le sapiens à plusieurs échelles de la plus bonne(QI 125) à la plus perverse( QI15)!

A vous d'établir une bonne mesure respectable pour l'AHL et surtout qu'il la respecte ,car l'HAL contourne et transforme tout!


Ajouter un commentaire (pas besoin de s'enregistrer)

Pseudo :
Message :


image de protection
En cliquant sur le bouton "Envoyer" vous acceptez les conditions suivantes : Ne pas poster de message injurieux, obscène ou contraire à la loi, ni de liens vers de tels sites. Respecter la "netiquette", ne pas usurper le pseudo d'une autre personne, respecter les posts faits par les autres. L'auteur du site se réserve le droit de supprimer un ou plusieurs posts à tout moment. Merci !
Ah oui : le html genre <br>, <a href=...>, <b>b etc. ne fonctionne pas dans les commentaires. C'est voulu.
< Retour en haut de la page