Unicode, UTF-8

Me estoy dando cuenta en el mundo de ignorancia que vivía antes de conocer estos estándares para codificación de caracteres. El ASCII no es la codificación definitiva, hay que tener en cuenta que existen miles de lenguas en el mundo con diferentes símbolos y que ellos también quieren utilizar ordenadores.

Básicamente con Unicode podemos representar símbolos de cualquier lengua, símbolos matemáticos, científicos etc. Mientras que UTF-8 es simplemente una transformación sencilla de los carácteres Unicode para que puedan ser soportados en entornos Unix, el cual fue diseñado como no por Ken Thomson .

El estándar básico no define un tamaño para la representación de carácteres, pero lo normal es utilizar 2 bytes. Por ejemplo para definir el símbolo griego alfa, tenemos la codificación U+03B1. Normalmente en lenguajes como Java y C# los carácteres Unicode se representan desde \u0000 hasta u\FFFF