Glosario Unicode
150 términos esenciales de Unicode explicados — desde los fundamentos de codificación de caracteres hasta conceptos de seguridad.
Codificación (17)
Código Estándar Americano para el Intercambio de Información. Codificación de 7 bits que cubre 128 caracteres (0–127): caracteres de control, …
Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …
Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …
Codificación de caracteres chinos tradicionales utilizada principalmente en Taiwán y Hong Kong, que codifica aproximadamente 13.000 caracteres CJK.
Sistema que asigna caracteres a secuencias de bytes para su almacenamiento y transmisión digital. Cada archivo de texto tiene una …
Registro oficial de nombres de codificaciones de caracteres mantenido por la IANA, utilizado en cabeceras HTTP Content-Type y MIME (por …
Código Extendido de Intercambio Decimal Codificado en Binario. Codificación de mainframes IBM con rangos de letras no contiguos, aún usada …
Codificación de caracteres coreanos basada en KS X 1001, que mapea sílabas Hangul y Hanja a secuencias de doble byte.
Familia de codificaciones de caracteres chinos simplificados: GB2312 (6.763 caracteres) evolucionó a GBK y luego a GB18030, el estándar nacional …
Familia de codificaciones de un solo byte de 8 bits para diferentes grupos de idiomas. ISO 8859-1 (Latin-1) fue la …
U+FEFF colocado al inicio de un flujo de texto para indicar el orden de bytes y la codificación. Esencial para …
Codificación de caracteres japoneses que combina ASCII/JIS Roman de un solo byte con kanji JIS X 0208 de doble byte. …
Codificación obsoleta de longitud fija de 2 bytes que cubre solo el BMP (U+0000–U+FFFF). Predecesor de UTF-16 que no puede …
Codificación Unicode de longitud variable que usa 2 o 4 bytes (1 o 2 unidades de código de 16 bits). …
Codificación Unicode de longitud fija que usa exactamente 4 bytes por carácter. Simple pero poco eficiente en espacio; usada internamente …
Codificación Unicode de longitud variable que usa de 1 a 4 bytes por carácter. Es la codificación dominante en la …
Superconjunto de ISO 8859-1 de Microsoft, que añade comillas tipográficas, guión largo y signo del euro en el rango 0x80–0x9F. …
Estándar Unicode (25)
Plano 0 (U+0000–U+FFFF), que contiene los caracteres más utilizados: Latin, Griego, Cirílico, CJK, Árabe y la mayoría de símbolos. Los …
Unidad de información usada para organizar, controlar o representar datos textuales — la entidad conceptual antes de recibir un punto …
Punto de código al que se le ha asignado un carácter en una versión de Unicode. A partir de Unicode …
Chino, Japonés y Coreano — el término colectivo para el bloque de ideogramas Han unificados y los alfabetos relacionados en …
Organización sin fines de lucro que desarrolla y mantiene el Estándar Unicode. Sus miembros incluyen Apple, Google, Microsoft, Meta y …
El rango completo de posibles puntos de código Unicode: U+0000 a U+10FFFF (1.114.112 en total), dividido en 17 planos de …
The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …
The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …
Estándar internacional (ISO/IEC 10646) sincronizado con Unicode, que define el mismo repertorio de caracteres y puntos de código, pero sin …
Puntos de código reservados permanentemente para uso interno (66 en total): U+FDD0–U+FDEF y U+nFFFE/U+nFFFF para cada plano. Válidos en texto …
Un bloque contiguo de 65.536 puntos de código. Unicode tiene 17 planos (0–16): el Plano 0 es el BMP, el …
Planos 1–16 (U+10000–U+10FFFF), que contienen emoji, escrituras históricas, extensiones CJK y notación musical. Requiere pares sustitutos en UTF-16.
Garantía de que una vez asignado un carácter, su punto de código y nombre nunca cambian. Las propiedades pueden refinarse, …
Valor numérico en el espacio de código Unicode (U+0000 a U+10FFFF), escrito como U+XXXX. No todos los puntos de código …
Punto de código aún no asignado a ningún carácter en ninguna versión de Unicode, categorizado como Cn (No asignado). Puede …
Punto de código reservado para futura estandarización, distinto de los no-caracteres (reservados permanentemente) y las áreas de uso privado (asignables …
Puntos de código U+D800–U+DFFF reservados exclusivamente para pares sustitutos en UTF-16. No son valores escalares Unicode válidos y nunca deben …
Estándar universal de codificación de caracteres que asigna un número único (punto de código) a cada carácter de todos los …
Colección legible por máquina de archivos de datos que define todas las propiedades de los caracteres Unicode, incluidos UnicodeData.txt, Blocks.txt, …
Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …
Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …
La unidad mínima de codificación: un byte de 8 bits en UTF-8, una palabra de 16 bits en UTF-16, una …
Cualquier punto de código excepto los sustitutos (U+D800–U+DFFF). El conjunto válido de valores que pueden representar caracteres reales, con un …
Versiones principales del Estándar Unicode, cada una añade nuevos caracteres, escrituras y características. La versión actual es Unicode 16.0 (septiembre …
Rangos reservados donde las organizaciones pueden asignar sus propios caracteres: PUA del BMP (U+E000–U+F8FF) más PUAs suplementarias en los Planos …
Propiedades (19)
Nombres alternativos para los caracteres, ya que los nombres de Unicode no pueden cambiar según la política de estabilidad. Se …
Rango contiguo de puntos de código con nombre (por ejemplo, Basic Latin = U+0000–U+007F). Unicode 16.0 define 336 bloques; cada …
Propiedad que determina cómo se comporta un carácter en texto bidireccional (LTR, RTL, débil, neutro). Utilizada por el Algoritmo Bidireccional …
Clasificación de cada punto de código en una de 30 categorías (Lu, Ll, Nd, So, etc.) agrupadas en 7 clases …
Valor numérico (0–254) que controla el orden de los signos combinantes durante la descomposición canónica, determinando qué signos combinantes pueden …
El «carácter» percibido por el usuario: lo que parece una sola unidad. Puede constar de varios puntos de código (base …
Reglas para convertir caracteres entre mayúsculas, minúsculas y versalitas. Puede depender del idioma (problema de la I turca) y ser …
La descomposición de un carácter en sus partes componentes. La descomposición canónica preserva el significado (é → e + ́); …
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …
Dos secuencias de caracteres que son semánticamente idénticas y deben tratarse como iguales. Ejemplo: é (U+00E9) ≡ e + ◌́ …
Dos secuencias de caracteres con el mismo contenido abstracto que pueden diferir en apariencia. Más amplio que la equivalencia canónica. …
Caracteres que no deben tener ningún efecto visible y pueden ser ignorados por los procesos que no los admiten, incluidos …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.
Caracteres cuyo glifo debe reflejarse horizontalmente en contexto RTL. Ejemplos: ( → ), [ → ], { → }, « …
La versión de Unicode en la que se asignó un carácter por primera vez. Útil para determinar la compatibilidad de …
Caracteres utilizados para organizar y aclarar el lenguaje escrito: puntos, comas, guiones, comillas y más. La categoría general P de …
Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …
El sistema de escritura al que pertenece un carácter (por ejemplo, Latin, Cyrillic, Han). Unicode 16.0 define 168 scripts; la …
La interpretación numérica de un carácter, si existe: valor de dígito (0–9), valor decimal o valor numérico general (por ejemplo, …
Algoritmos (15)
Algoritmo que determina el orden de visualización de los caracteres en texto con dirección mixta (por ejemplo, inglés + árabe), …
Algoritmo estándar para comparar y ordenar cadenas Unicode mediante comparación multinivel: carácter base → tildes → mayúsculas/minúsculas → desempate. Personalizable …
Reglas para determinar dónde puede dividirse el texto para pasar a la siguiente línea, teniendo en cuenta las propiedades de …
Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …
Caracteres excluidos de la composición canónica (NFC) para evitar la descomposición no inicial y garantizar la estabilidad algorítmica. Listados en …
Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …
La posición entre oraciones según las reglas de Unicode. Más complejo que dividir por puntos — maneja abreviaturas (Sr.), puntos …
La posición entre palabras según las reglas de separación de palabras de Unicode. No es una simple división por espacios …
Forma de Normalización C: descomponer y luego recomponer canónicamente, produciendo la forma más corta. Recomendada para almacenamiento e intercambio de …
Forma de Normalización D: descomposición total sin recomponer. Usada por el sistema de archivos HFS+ de macOS. é (U+00E9) → …
Forma de Normalización KC: descomposición de compatibilidad seguida de composición canónica. Fusiona caracteres visualmente similares (fi→fi, ²→2, Ⅳ→IV). Usada para …
Forma de Normalización KD: descomposición de compatibilidad sin recomponer. La normalización más agresiva, que pierde la mayor cantidad de información …
Proceso de convertir texto Unicode a una forma canónica estándar. Cuatro formas: NFC (compuesta), NFD (descompuesta), NFKC (compatibilidad compuesta), NFKD …
Algoritmos para encontrar límites en el texto: límites de clúster de grafemas, palabras y oraciones. Fundamental para el movimiento del …
Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …
Tipografía (19)
Caracteres con anchura de avance cero — invisibles en la renderización pero que afectan el comportamiento del texto. Incluye ZWSP …
Un carácter que se adjunta al carácter base anterior para modificarlo. Categoría general: Mn (sin espacio), Mc (combinación con espacio), …
Caracteres que representan espacio horizontal o vertical pero no tienen glifo visible. Unicode define más de 17 caracteres de espacio …
Signos de puntuación emparejados que encierran discurso directo o citas. Unicode incluye comillas rectas (""), tipográficas (""), comillas angulares (« …
CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …
Em: una anchura igual al tamaño de la fuente. En: la mitad de un em. Se usan para definir el …
U+00A0. Un espacio que impide el salto de línea en su posición. HTML: . Se utiliza entre números y unidades …
The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …
Una implementación específica de un tipo de letra en un tamaño, peso y estilo determinados. En tipografía digital, un archivo …
La representación visual de un carácter tal como lo renderiza una fuente tipográfica. Un carácter puede tener múltiples glifos (ligaduras, …
Signos de puntuación utilizados para separar partes de una oración o indicar rangos. Unicode define múltiples guiones: guión (‐), guión …
Ajuste del espaciado entre pares de caracteres específicos para lograr armonía visual (p. ej., AV, To, LT). Es una característica …
Dos o más caracteres unidos en un único glifo. Pueden ser tipográficas (fi → fi mediante OpenType) o caracteres Unicode …
Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …
U+2026 PUNTOS SUSPENSIVOS HORIZONTALES (…). Un carácter único que reemplaza tres puntos, tipográficamente correcto y que cuenta como 1 carácter …
Direccionalidad del texto donde los caracteres fluyen de derecha a izquierda. Utilizada por el árabe, el hebreo, el thaana y …
Una marca añadida a una letra para cambiar su pronunciación o significado. Puede ser precompuesta (é U+00E9) o combinada (e …
Letras mayúsculas con la altura de las letras minúsculas. CSS: font-variant: small-caps. Unicode también incluye letras en versalitas reales en …
Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …
Métodos de entrada (9)
A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …
Método de entrada de Windows que usa Alt + dígitos del teclado numérico para escribir caracteres según su número de …
Entrada directa de puntos de código Unicode tecleando el valor hexadecimal. Mac: mantener Option + hex + soltar. Windows: escribir …
Componente de software que permite introducir caracteres complejos (CJK, coreano, etc.) mediante un teclado estándar, convirtiendo secuencias de teclas en …
Utilidad gráfica para explorar e insertar caracteres Unicode. Windows: charmap.exe. Mac: Visualizador de caracteres (Control+Comando+Espacio). Linux: gucharmap.
Cualquier método para introducir caracteres por su punto de código Unicode: entrada hexadecimal (Mac), entrada U+XXXX mediante Ctrl+Shift+U (Linux) o …
Componente de interfaz de usuario (nativo o basado en web) para explorar y seleccionar caracteres visualmente. Los selectores de emoji …
Una tecla (generalmente Alt derecho o asignada personalmente) que inicia una secuencia de composición de múltiples teclas. Función de Linux/Unix: …
Una tecla que no produce salida inmediata pero modifica la siguiente pulsación. Se usa para diacríticos: presionar ` y luego …
Web y HTML (16)
Codificación de caracteres no ASCII y reservados en URLs reemplazando cada byte con %XX. Se usa UTF-8 primero y luego …
CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …
Una representación textual de un carácter en HTML. Tres formas: con nombre (&), decimal (&) y hexadecimal (&). Esencial para …
Nombres de dominio que contienen caracteres Unicode no ASCII, almacenados internamente como Punycode (xn--...) pero mostrados en Unicode a los …
ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).
Parámetro de encabezado HTTP que declara la codificación de caracteres de una respuesta (Content-Type: text/html; charset=utf-8). Anula cualquier declaración de …
Renderizado de un carácter con un glifo de emoji en color, normalmente usando el Selector de variación 16 (U+FE0F). Algunos …
Renderizado de un carácter con un glifo de texto monocromo plano en lugar de un emoji en color, normalmente usando …
Propiedad CSS que inserta contenido generado mediante los pseudoelementos ::before y ::after usando secuencias de escape Unicode: content: "\2713" inserta …
Codificación compatible con ASCII de nombres de dominio Unicode, convirtiendo etiquetas internacionalizadas en cadenas ASCII con prefijo xn--. münchen.de → …
Entidad HTML que utiliza un nombre legible por humanos: © → ©, — → —. HTML5 define 2 231 referencias …
Entidad HTML que utiliza el número de punto de código Unicode: decimal (© → ©) o hexadecimal (© → ©). …
La versión XML de las referencias de caracteres numéricas: ✓ o ✓. XML solo tiene 5 entidades con nombre (& …
Caracteres (U+FE00–U+FE0F, U+E0100–U+E01EF) que seleccionan una variante de glifo específica. VS15 (U+FE0E) = presentación de texto, VS16 (U+FE0F) = presentación …
CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …
U+2060. Un carácter de anchura cero que impide el salto de línea. Es el reemplazo moderno de U+FEFF (BOM) como …
Programación y desarrollo (13)
La "longitud" de una cadena Unicode depende de la unidad: unidades de código (JavaScript .length), puntos de código (Python len()), …
Una secuencia de caracteres en un lenguaje de programación. La representación interna varía: UTF-8 (Go, Rust, nuevas versiones de Python), …
U+FFFD (�). Se muestra cuando un decodificador encuentra secuencias de bytes no válidas — el símbolo universal de 'algo salió …
Cualquier carácter sin glifo visible: espacio en blanco, caracteres de anchura cero, caracteres de control y caracteres de formato. Puede …
U+0000 (NUL). El primer carácter Unicode/ASCII, usado como terminador de cadenas en C/C++. Riesgo de seguridad: la inyección de bytes …
La codificación convierte caracteres en bytes (str.encode('utf-8')); la decodificación convierte bytes en caracteres (bytes.decode('utf-8')). Hacerlo correctamente previene el mojibake.
Patrones de expresiones regulares que usan propiedades Unicode: \p{L} (cualquier letra), \p{Script=Greek} (script griego), \p{Emoji}. El soporte varía según el …
Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …
Texto ilegible resultado de decodificar bytes con la codificación incorrecta. Término japonés (文字化け). Ejemplo: 'café' almacenado como UTF-8 pero leído …
Dos unidades de código de 16 bits (un sustituto alto U+D800–U+DBFF + sustituto bajo U+DC00–U+DFFF) que juntos codifican un carácter …
Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …
Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …
Sintaxis para representar caracteres Unicode en el código fuente. Varía según el lenguaje: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C).
Seguridad (10)
Uso de caracteres de anulación bidireccional Unicode (U+202A–U+202E, U+2066–U+2069) para disfrazar nombres de archivos o código malicioso. 'readmefdp.exe' se muestra …
Uso de caracteres Unicode visualmente similares en nombres de dominio para suplantar sitios legítimos. аpple.com (а cirílico) parece apple.com. Los …
Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …
El término oficial de Unicode para pares de caracteres que pueden confundirse visualmente, definidos en confusables.txt (UCD). Más amplio que …
Identificación de texto que mezcla caracteres de diferentes alfabetos (p. ej., latino + cirílico). Es la principal defensa contra los …
Caracteres de diferentes alfabetos que se ven idénticos o muy similares, como la 'a' latina y la 'а' cirílica. Se …
Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …
Uso de características Unicode para engañar a los usuarios: homoglifos para dominios falsos, anulaciones bidi para extensiones de archivo falsas, …
U+200D. Solicita que los caracteres adyacentes se unan. Fundamental para las secuencias de emoji (👩+ZWJ+💻=👩💻). En los alfabetos índicos, solicita …
U+200C. Impide la unión de caracteres adyacentes. Esencial en persa y árabe para las formas correctas de las letras, y …
Emoji (6)
Caracteres Unicode pictográficos originados en los teléfonos móviles japoneses. Actualmente hay más de 3.790 emoji en múltiples bloques (Emoticonos, Símbolos …
Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …
Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …
26 caracteres (U+1F1E6–U+1F1FF, 🇦–🇿) que se combinan en pares para formar emoji de banderas de países basándose en los códigos …
Modificadores de tono de piel de la escala de Fitzpatrick (U+1F3FB–U+1F3FF) que cambian el color de piel de los emoji …
Emoji construido uniendo múltiples emoji con el Conector de Anchura Cero (U+200D). 👨👩👧👦 = Hombre + ZWJ + Mujer + …