Unicode UTF-8 y ASCII en oposiciones de informática
Diferencia entre Unicode (UTF-8), ASCII y EBCDIC como estándares de codificación de caracteres.
Idea clave para el examen
En los sistemas operativos modernos el estándar de codificación más utilizado es UTF-8 (Unicode), que representa casi todos los idiomas, símbolos y emojis con longitud variable de bits. ASCII es el estándar histórico en inglés (7 bits, 128 caracteres) y EBCDIC es el estándar propietario de IBM mainframes.
Definición sencilla
Unicode es un estándar de codificación que asigna un código único a cada carácter de la mayoría de los idiomas del mundo. Su implementación más usada en sistemas operativos modernos es UTF-8.
UTF-8 usa longitud variable: 1 byte para ASCII (128 caracteres), 2 bytes para alfabetos latinos extendidos, 3 bytes para el resto de planos y 4 bytes para emojis y símbolos poco frecuentes.
ASCII (American Standard Code for Information Interchange) es un estándar de 7 bits con 128 caracteres: letras inglesas, dígitos, signos de puntuación y caracteres de control. Es la base de UTF-8.
EBCDIC (Extended Binary Coded Decimal Interchange Code) es un estándar de 8 bits propietario de IBM, usado en mainframes. No es compatible con ASCII ni con UTF-8.
Ejemplo práctico
La letra A mayúscula se representa en ASCII como 65 (01000001) y en UTF-8 exactamente igual; el carácter ñ ocupa 2 bytes en UTF-8 pero no existe en ASCII.
A (letra A): ASCII = 65 = 01000001
UTF-8 = 65 = 01000001
ñ: ASCII = NO EXISTE
UTF-8 = 2 bytes: 11000011 10110001 Errores habituales
- Confundir Unicode con UTF-8: Unicode es el estándar, UTF-8 es una de sus implementaciones.
- Pensar que UTF-8 siempre usa 2 bytes: usa longitud variable, 1 byte para ASCII.
- Asumir que todos los sistemas usan ASCII: los modernos usan UTF-8, y los mainframes de IBM usan EBCDIC.
Pregunta real de examen
Fuente: INAP Cuestionario AUX-L MODELO A (2025) — pregunta 15, pagina 10 del PDF | Plantilla definitiva
Pregunta oficial del examen INAP AUX-L 2025, numero 15 (pagina 10 del PDF), clave A validada contra la plantilla definitiva.
¿Cuál de los siguientes estándares de codificación es el más utilizado en los sistemas operativos modernos debido a su capacidad para representar casi todos los idiomas, símbolos y emojis mediante una longitud de bits variable?
- UTF-8 (Unicode)
- ASCII
- EBCDIC
- Sistema Binario Puro
Respuesta correcta: A
Explicación: La respuesta correcta (A) es UTF-8 (Unicode), el estándar dominante en sistemas operativos modernos. UTF-8 usa longitud variable de 1 a 4 bytes: 1 byte para ASCII (los 128 caracteres básicos en inglés), 2 bytes para alfabetos latinos extendidos (incluida la ñ y las tildes), 3 bytes para la mayoría de alfabetos del mundo y 4 bytes para emojis y símbolos raros. Esto permite que un mismo archivo contenga caracteres de cualquier idioma sin incompatibilidades. Por qué las otras son incorrectas: B) ASCII es el estándar histórico limitado a 7 bits y 128 caracteres, sin tildes, ni eñes, ni símbolos no ingleses; C) EBCDIC es un estándar propietario de IBM, usado solo en mainframes antiguos, no en sistemas operativos modernos; D) Sistema Binario Puro no es un estándar de codificación de caracteres, es la representación numérica de 0 y 1 en hardware. Clave validada contra la plantilla definitiva de INAP AUX-L 2025, pregunta 15, fila 15 de la segunda parte, pagina 10 del cuestionario.
También debes conocer
Siguiente paso útil
Si quieres preparar estos conceptos con explicaciones guiadas, ejercicios y tests, puedes pedirme información del curso de informática para oposiciones.