En cumplimiento del Real Decreto-ley 13/2012 te avisamos de que esta página usa cookies. Si continúas navegando consideramos que aceptas su uso. ¿El qué? Más info
!articulo
MOVIDAS
movidas - UTF y la madre que lo par?? · 11/03/2010
La comunicación es una herramienta creada por el hombre hace muchos años. No tengo datos, pero más de cien fijo. En algún momento determinado algún cavernícola tuvo la necesidad de enviarle información a otro, ya fuese alguna advertencia sobre algún peligro inminente, alguna señal de paz, o una invitación a Spotify.

Comunicar piezas vitales de información entre dos individuos es lo que nos diferencia de los animales (Salvo de los loros,los delfines,los monos, los perros, las amebas y demás animales, así como algún tipo de planta) Y esa comunicación se ha disparado en las últimas décadas gracias a la invención de internet. Una herramienta capaz ponernos en contacto con alguien en Japón en cuestión de segundos, o leer lo que ha dicho algún sueco sobre un comentario que has dejado en el blog de algún australiano.Y sin embargo, a veces nos encontramos con un pequeño problema.

?Por qu®e co©?o no se lee bien mi p?gina?

Más de una vez os habréis encontrado con caracteres raros, sobre todo a la hora de escribir en vuestra web eñes, interrogaciones o tildes. Mucha gente, hoy en día, adopta el método de no poner acentos, quiero creer que como solución a este problema. Pero si no queréis que vuestro antiguo profesor de lengua se retuerza en su tumba (esté muerto o no) lo mejor es aprender qué es la:

Codificación de caracteres.

No es un invento nuevo, la codificación de caracteres no es más que traducir un código predefinido por su equivalente en texto. Esto se lleva usando en varios campos desde mucho antes de internet.

Las banderas de señales de los barcos, el Morse, el lenguaje Braille... son ejemplos de codificación más o menos cotidianas ¿Quién no ha usado el lenguaje de código radio en su día a día? En todos estos códigos, cada letra equivale a una bandera, una disposición de puntos, una combinación de pitidos o a la postura de alguna animadora.

Y en el lenguaje informático, lo mismo. Cada letra equivale a un número. Cuando recibe texto, un ordenador realmente recibe números que él mismo traduce como letras.

El sistema era sencillo, usando ASCII, cada número del 32 al 126 equivalía a una letra, o a un carácter fijo. El ordenador recibía esa información, y a la hora de mostrarlo en pantalla, mostraba la letra en vez de el número. Pero había un problema.

Si sois un poco observadores, os habréis dado cuenta que los chinos escriben cuanto menos raro. Cuando vais a un restaurante japonés y veis símbolos extraños en la pared deducís que son letras, aunque parezcan el resultado de un pintor puesto de éxtasis que intenta apuñalar el papel con un pincel. Y esas letras no están contempladas en el código ASCII.

[caption id="attachment_302" align="aligncenter" width="271" caption="Idéfix y Kampfdølvarsa, sin problemas de codificación"][/caption]

Pero no hace falta ir tan lejos. El ASCII lo inventaron los americanos, que se ve que tenían estudios, y cuando lo inventaron no pensaron en, por ejemplo, los españoles y su manía de poner una especie de patata frita encima de la n y llamarlo letra. En la tabla que traduce números a letras, faltan letras.

Así que se inventaron tablas más grandes, como por ejemplo, el UNICODE o el ISO 8859

El problema que tenemos hoy en día es que hay varias tablas, y hay que especificar cuál de ella estamos usando. Por ejemplo, en las páginas web podéis ver esta línea en la cabecera:


meta http-equiv="Content-Type" content="text/html; charset=UTF-8" 

Ese charset=UTF-8 (Uat the fuck?) es el que indica al ordenador cuál de esas tablas debe de usar. Y ahí es donde tenemos que tener cuidado.

Si estamos editando la página con un programa que usa ISO y le decimos que la página están en UTF-8, la página se verá mal, y dios matará un gatito.

Si estamos obteniendo información de una base de datos que usa UTF-8, y la página se muestra en ISO, otra página mal, otro gatito muerto.

Si nos han hecho una página web, y nos da por cambiar simplemente la dirección de correo, con un programa que tenga una codificación diferente, otro gatito morirá.

Por eso es aconsejable usar programas que permitan escoger la codificación en la que trabajamos, y trabajar siempre que nos sea posible en la misma, si no queremos que dios empiece a matar gatitos.

Æ%Que se jØ?n los gati?os! ¥