Le codage des caractères

Peut-être trouvez-vous évident qu'une machine informatique soit capable de gérer efficacement vos données, quelles qu'elles soient, y compris le texte ?

Avez-vous pensé un seul instant que, pour puissant qu'il soit, votre merveilleux ordinateur n'a qu'un doigt pour compter ?

Et pourtant, ça marche. Nous allons voir comment.

Par la même occasion, nous verrons aussi pourquoi, quelquefois, il y a des petites « curiosités » dans l'affichage du texte, principalement sur les lettres accentuées et certains symboles.

Le codage des données

S'il est assez naturel de transformer un nombre « humain » (en base 10) dans n'importe quelle autre base de calcul, y compris la base 2 (et réciproquement), c'est un peu plus compliqué de coder en binaire les symboles d'écriture.

Pourquoi ?

Parce qu'il n'y a pas réellement d'algorithme mathématique pour le faire et qu'il faudra donc travailler sur des conventions. Vous savez ce que valent les conventions, elles sont adoptées jusqu'à ce qu'elles ne le soient plus. De plus, les limites d'une convention sont bien connues :

  • une convention est attachée à un contexte. Lorsque le contexte change, la convention doit être modifiée. Un exemple simple dans le domaine qui nous intéresse ici : l'adoption par la Communauté Européenne du symbole de sa monnaie unique, l'euro. Changement de contexte, ce symbole doit être ajouté à la liste des symboles d'écriture utilisée dans tous les pays de l'UE ;
  • une convention doit satisfaire toutes les parties concernées. Les dites parties cherchant chacune à faire prévaloir leur point de vue, les conventions sont généralement adoptées trop tard.

Nous allons ici essayer de passer en revue les principales conventions adoptées pour le codage des symboles d'écriture, en ayant à l'esprit que nous sommes dans un contexte mondial, avec plusieurs langues, plusieurs alphabets et, pour compliquer encore le problème, plusieurs systèmes d'information.