Từ điển thuật ngữ Unicode
150 thuật ngữ Unicode thiết yếu được giải thích — từ cơ bản mã hóa ký tự đến các khái niệm bảo mật.
Mã hóa (17)
Tiêu chuẩn mã hóa thông tin Mỹ (American Standard Code for Information Interchange). Mã hóa 7-bit bao gồm 128 ký …
Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …
Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …
Mã hóa chữ Hán phồn thể được sử dụng chủ yếu ở Đài Loan và Hồng Kông, mã hóa khoảng …
Sổ đăng ký chính thức tên mã hóa ký tự do IANA duy trì, được sử dụng trong tiêu đề …
U+FEFF được đặt ở đầu luồng văn bản để chỉ ra thứ tự byte và mã hóa. Cần thiết cho …
Mã trao đổi dữ liệu thập phân được mã hóa nhị phân mở rộng (Extended Binary Coded Decimal Interchange Code). …
Mã hóa ký tự tiếng Hàn dựa trên KS X 1001, ánh xạ các âm tiết Hangul và Hanja sang …
Họ mã hóa ký tự chữ Hán giản thể: GB2312 (6.763 ký tự) phát triển thành GBK rồi GB18030, tiêu …
Họ các mã hóa đơn byte 8-bit dành cho các nhóm ngôn ngữ khác nhau. ISO 8859-1 (Latin-1) là cơ …
Hệ thống ánh xạ ký tự sang chuỗi byte để lưu trữ và truyền dữ liệu số. Mỗi tệp văn …
Mã hóa ký tự tiếng Nhật kết hợp ASCII/JIS Roman đơn byte với kanji JIS X 0208 hai byte. Vẫn …
Mã hóa 2 byte có độ dài cố định lỗi thời, chỉ bao gồm BMP (U+0000–U+FFFF). Tiền thân của UTF-16, …
Mã hóa Unicode có độ dài thay đổi sử dụng 2 hoặc 4 byte (1 hoặc 2 đơn vị mã …
Mã hóa Unicode có độ dài cố định sử dụng chính xác 4 byte cho mỗi ký tự. Đơn giản …
Mã hóa Unicode có độ dài thay đổi sử dụng 1–4 byte cho mỗi ký tự. Định dạng mã hóa …
Bộ ký tự của Microsoft mở rộng từ ISO 8859-1, bổ sung dấu ngoặc kép, dấu gạch ngang dài và …
Tiêu chuẩn Unicode (25)
Mặt phẳng 0 (U+0000–U+FFFF), chứa các ký tự được sử dụng phổ biến nhất bao gồm Latin, Hy Lạp, Cyrillic, …
Đảm bảo rằng một khi ký tự được gán, điểm mã và tên của nó không bao giờ thay đổi. …
Trung Quốc, Nhật Bản và Hàn Quốc — thuật ngữ tập thể cho khối ký tự Hán thống nhất và …
Bất kỳ điểm mã nào ngoại trừ các điểm mã surrogate (U+D800–U+DFFF). Tập hợp các giá trị hợp lệ có …
The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …
The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …
Tổ chức phi lợi nhuận phát triển và duy trì Tiêu chuẩn Unicode. Các thành viên bao gồm Apple, Google, …
Tiêu chuẩn quốc tế (ISO/IEC 10646) được đồng bộ hóa với Unicode, định nghĩa cùng bộ ký tự và điểm …
Toàn bộ phạm vi các điểm mã Unicode có thể có: U+0000 đến U+10FFFF (tổng cộng 1.114.112), được chia thành …
Các điểm mã U+D800–U+DFFF được dành riêng cho các cặp thay thế UTF-16. Không phải là các giá trị vô …
Đơn vị thông tin dùng để tổ chức, điều khiển hoặc biểu diễn dữ liệu văn bản — thực thể …
Điểm mã đã được gán ký tự trong một phiên bản Unicode. Tính đến Unicode 16.0, có 154.998 điểm mã …
Một khối điểm mã liên tiếp gồm 65.536 điểm. Unicode có 17 mặt phẳng (0–16): Mặt phẳng 0 là BMP, …
Các mặt phẳng 1–16 (U+10000–U+10FFFF), chứa emoji, chữ viết lịch sử, phần mở rộng CJK và ký hiệu âm nhạc. …
Các điểm mã được dành vĩnh viễn cho sử dụng nội bộ (66 tổng cộng): U+FDD0–U+FDEF và U+nFFFE/U+nFFFF cho mỗi …
Các phiên bản chính của Tiêu chuẩn Unicode, mỗi phiên bản bổ sung ký tự, chữ viết và tính năng …
Tiêu chuẩn mã hóa ký tự toàn cầu gán một số duy nhất (điểm mã) cho mọi ký tự trong …
Tập hợp các tệp dữ liệu có thể đọc được bằng máy định nghĩa tất cả thuộc tính ký tự …
Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …
Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …
Các phạm vi dành riêng nơi các tổ chức có thể gán ký tự của riêng họ: BMP PUA (U+E000–U+F8FF) …
Giá trị số trong không gian mã Unicode (U+0000 đến U+10FFFF), được viết dưới dạng U+XXXX. Không phải tất cả …
Điểm mã chưa được gán ký tự trong bất kỳ phiên bản Unicode nào, được phân loại là Cn (Chưa …
Điểm mã được dành riêng cho việc chuẩn hóa trong tương lai, khác với các ký tự không phải ký …
Đơn vị mã hóa tối thiểu: một byte 8-bit trong UTF-8, một từ 16-bit trong UTF-16, một từ 32-bit trong …
Thuộc tính (19)
Tên thay thế cho các ký tự, vì tên Unicode không thể thay đổi theo chính sách ổn định. Được …
Các ký tự không có hiệu ứng hiển thị và có thể bị bỏ qua bởi các quy trình không …
Ký tự mà người dùng cảm nhận được — điều cảm giác như một đơn vị duy nhất. Có thể …
Phân loại mọi điểm mã vào một trong 30 danh mục (Lu, Ll, Nd, So, v.v.) nhóm thành 7 lớp …
Thuộc tính xác định cách một ký tự hoạt động trong văn bản hai chiều (LTR, RTL, yếu, trung tính). …
Các ký tự dùng để tổ chức và làm rõ ngôn ngữ viết: dấu chấm, dấu phẩy, dấu gạch ngang, …
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …
Cách diễn giải số của một ký tự, nếu có: giá trị chữ số (0–9), giá trị thập phân, hoặc …
Hệ thống chữ viết mà một ký tự thuộc về (ví dụ: Latin, Cyrillic, Hán). Unicode 16.0 xác định 168 …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.
Phạm vi điểm mã liên tiếp được đặt tên (ví dụ: Basic Latin = U+0000–U+007F). Unicode 16.0 xác định 336 …
Giá trị số (0–254) kiểm soát thứ tự các dấu kết hợp trong quá trình phân tích chuẩn, xác định …
Việc ánh xạ một ký tự thành các thành phần của nó. Phân tích chuẩn bảo toàn ý nghĩa (é …
Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …
Phiên bản Unicode mà trong đó một ký tự được gán lần đầu tiên. Hữu ích để xác định hỗ …
Các ký tự mà glyph của chúng nên được phản chiếu ngang trong ngữ cảnh RTL. Ví dụ: ( → …
Hai chuỗi ký tự có ngữ nghĩa giống hệt nhau và nên được xử lý như nhau. Ví dụ: é …
Hai chuỗi ký tự có cùng nội dung trừu tượng nhưng có thể khác về hình thức. Rộng hơn tương …
Các quy tắc chuyển đổi ký tự giữa chữ hoa, chữ thường và chữ đầu câu. Có thể phụ thuộc …
Thuật toán (15)
Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …
Quá trình chuyển đổi văn bản Unicode sang dạng chuẩn chuẩn. Bốn dạng: NFC (đã hợp thành), NFD (đã phân …
Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …
Các ký tự bị loại trừ khỏi quá trình kết hợp chuẩn (NFC) để ngăn phân tách không khởi đầu …
Dạng chuẩn C: phân tách rồi hợp thành lại theo chuẩn, tạo ra dạng ngắn nhất. Khuyến nghị để lưu …
Dạng chuẩn D: phân tách hoàn toàn mà không hợp thành lại. Được sử dụng bởi hệ thống tập tin …
Dạng chuẩn KC: phân tách tương thích rồi hợp thành chuẩn. Kết hợp các ký tự có hình thức tương …
Dạng chuẩn KD: phân tách tương thích mà không hợp thành lại. Là chuẩn hóa mạnh nhất, mất nhiều thông …
Các thuật toán tìm ranh giới trong văn bản: ranh giới cụm grapheme, từ và câu. Rất quan trọng cho …
Vị trí giữa các câu theo quy tắc Unicode. Phức tạp hơn việc tách bằng dấu chấm — xử lý …
Vị trí giữa các từ được xác định bởi quy tắc ngắt từ Unicode. Không chỉ đơn giản là tách …
Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …
Thuật toán xác định thứ tự hiển thị ký tự trong văn bản có hướng hỗn hợp (ví dụ: tiếng …
Các quy tắc xác định vị trí văn bản có thể xuống dòng, xem xét các thuộc tính ký tự, …
Thuật toán chuẩn để so sánh và sắp xếp các chuỗi Unicode bằng so sánh đa cấp: ký tự cơ …
Typography (19)
Hai ký tự trở lên được kết hợp thành một glyph duy nhất. Có thể là chữ ghép kiểu chữ …
Dạng chữ hoa ở chiều cao của chữ thường. CSS: font-variant: small-caps. Unicode cũng có các chữ cái nhỏ thực …
CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …
U+2026 HORIZONTAL ELLIPSIS (…). Một ký tự duy nhất thay thế ba dấu chấm, đúng về mặt kiểu chữ và …
Cặp dấu chấm câu bao quanh lời nói trực tiếp hoặc trích dẫn. Unicode bao gồm dấu thẳng (""), dấu …
Dấu được thêm vào chữ cái để thay đổi cách phát âm hoặc nghĩa. Có thể được tổng hợp sẵn …
Em: chiều rộng bằng kích thước phông chữ. En: bằng một nửa em. Dùng để định nghĩa độ rộng của …
The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …
Dấu chấm câu dùng để phân tách các phần của câu hoặc chỉ phạm vi. Unicode định nghĩa nhiều loại …
Điều chỉnh khoảng cách giữa các cặp ký tự cụ thể để đạt được sự hài hòa thị giác (ví …
U+00A0. Dấu cách ngăn không cho xuống dòng tại vị trí đó. HTML: . Dùng giữa số và đơn vị …
Các ký tự có chiều rộng tiến bằng không — vô hình khi kết xuất nhưng ảnh hưởng đến hành …
Các ký tự đại diện cho khoảng trống ngang hoặc dọc nhưng không có glyph hiển thị. Unicode định nghĩa …
Ký tự gắn vào ký tự cơ sở trước đó để thay đổi nó. Danh mục chung: Mn (không chiếm …
Hình thức hiển thị trực quan của một ký tự khi được phông chữ kết xuất. Một ký tự có …
Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …
Một cài đặt cụ thể của kiểu chữ ở kích thước, độ đậm và kiểu dáng nhất định. Trong sắp …
Hướng văn bản mà ký tự chạy từ phải sang trái. Dùng cho tiếng Ả Rập, Hebrew, Thaana và các …
Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …
Phương thức nhập (9)
Tiện ích GUI để duyệt và chèn các ký tự Unicode. Windows: charmap.exe. Mac: Character Viewer (Control+Command+Space). Linux: gucharmap.
Thành phần UI (gốc hoặc trên web) để duyệt và chọn ký tự trực quan. Bộ chọn emoji trên thiết …
A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …
Thành phần phần mềm cho phép nhập các ký tự phức tạp (CJK, tiếng Hàn, v.v.) bằng bàn phím chuẩn, …
Phương pháp nhập trên Windows sử dụng Alt + các chữ số numpad để gõ ký tự theo số trang …
Nhập trực tiếp điểm mã Unicode bằng cách gõ giá trị hex. Mac: giữ Option + hex + thả. Windows: …
Phím không tạo ra đầu ra ngay lập tức mà thay đổi lần nhấn phím tiếp theo. Dùng cho dấu …
Phím (thường là Alt phải hoặc được ánh xạ tùy chỉnh) bắt đầu chuỗi soạn thảo nhiều phím. Tính năng …
Bất kỳ phương pháp nào để nhập ký tự theo điểm mã Unicode của chúng: nhập hex (Mac), nhập U+XXXX …
Web & HTML (16)
Các ký tự (U+FE00–U+FE0F, U+E0100–U+E01EF) chọn biến thể glyph cụ thể. VS15 (U+FE0E) = dạng trình bày văn bản, VS16 …
Tham số header HTTP khai báo mã hóa ký tự của phản hồi (Content-Type: text/html; charset=utf-8). Ghi đè mọi khai …
U+2060. Ký tự không chiều rộng ngăn chặn ngắt dòng. Thay thế hiện đại cho U+FEFF (BOM) như một dấu …
CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …
Kết xuất một ký tự với glyph emoji màu sắc, thường sử dụng Variation Selector 16 (U+FE0F). Một số ký …
Kết xuất một ký tự với glyph văn bản một màu đơn giản thay vì emoji màu sắc, thường sử …
Tên miền chứa ký tự Unicode không phải ASCII, được lưu trữ nội bộ dưới dạng Punycode (xn--...) nhưng hiển …
ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).
Mã hóa các ký tự không phải ASCII và ký tự dành riêng trong URL bằng cách thay thế mỗi …
Mã hóa tương thích ASCII của tên miền Unicode, chuyển đổi nhãn quốc tế hóa thành chuỗi ASCII có tiền …
HTML entity sử dụng tên dễ đọc: © → ©, — → —. HTML5 định nghĩa 2.231 tham chiếu có …
HTML entity sử dụng số điểm mã Unicode: thập phân (© → ©) hoặc thập lục phân (© → ©). …
Phiên bản XML của tham chiếu ký tự số: ✓ hoặc ✓. XML chỉ có 5 thực thể tên (& …
Thuộc tính CSS chèn nội dung được tạo ra thông qua các phần tử giả ::before và ::after bằng cách …
Biểu diễn văn bản của một ký tự trong HTML. Ba dạng: tên (&), thập phân (&), thập lục phân …
CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …
Lập trình và phát triển (13)
Mẫu regex sử dụng thuộc tính Unicode: \p{L} (bất kỳ chữ cái nào), \p{Script=Greek} (chữ viết Hy Lạp), \p{Emoji}. Hỗ …
Một chuỗi ký tự trong ngôn ngữ lập trình. Biểu diễn nội bộ khác nhau: UTF-8 (Go, Rust, bản dựng …
Cú pháp biểu diễn ký tự Unicode trong mã nguồn. Khác nhau theo ngôn ngữ: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 …
Hai đơn vị mã 16-bit (surrogate cao U+D800–U+DBFF + surrogate thấp U+DC00–U+DFFF) cùng nhau mã hóa một ký tự bổ …
Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …
U+0000 (NUL). Ký tự Unicode/ASCII đầu tiên, được sử dụng làm dấu kết thúc chuỗi trong C/C++. Rủi ro bảo …
U+FFFD (�). Hiển thị khi bộ giải mã gặp chuỗi byte không hợp lệ — biểu tượng phổ quát cho …
Bất kỳ ký tự nào không có glyph hiển thị: khoảng trắng, ký tự không chiều rộng, ký tự điều …
Văn bản bị hỏng do giải mã byte bằng mã hóa sai. Thuật ngữ tiếng Nhật (文字化け). Ví dụ: 'café' …
Mã hóa chuyển đổi ký tự thành byte (str.encode('utf-8')); giải mã chuyển đổi byte thành ký tự (bytes.decode('utf-8')). Làm đúng …
Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …
Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …
"Độ dài" của một chuỗi Unicode phụ thuộc vào đơn vị: đơn vị mã (JavaScript .length), điểm mã (Python len()) …
Bảo mật (10)
Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …
Sử dụng các tính năng Unicode để lừa người dùng: homoglyph cho tên miền giả, ghi đè bidi cho phần …
Thuật ngữ chính thức của Unicode cho các cặp ký tự có thể bị nhầm lẫn về mặt thị giác, …
Các ký tự từ các chữ viết khác nhau trông giống hệt nhau hoặc rất giống nhau, chẳng hạn như …
Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …
Xác định văn bản kết hợp các ký tự từ các chữ viết khác nhau (ví dụ: Latin + Cyrillic). …
Sử dụng các ký tự ghi đè hai chiều Unicode (U+202A–U+202E, U+2066–U+2069) để ngụy trang tên tệp hoặc mã độc …
Sử dụng các ký tự Unicode trông giống nhau trong tên miền để mạo danh các trang web hợp pháp. …
U+200D. Yêu cầu các ký tự liền kề được nối với nhau. Quan trọng cho chuỗi emoji (👩+ZWJ+💻=👩💻). Trong chữ …
U+200C. Ngăn chặn việc nối các ký tự liền kề. Thiết yếu trong tiếng Farsi/Ả Rập để có dạng chữ …
Biểu tượng cảm xúc (6)
Bộ điều chỉnh tông màu da theo thang Fitzpatrick (U+1F3FB–U+1F3FF) thay đổi màu da của emoji người bằng cách đặt …
Emoji được tạo bằng cách nối nhiều emoji với Zero Width Joiner (U+200D). 👨👩👧👦 = Nam + ZWJ + Nữ …
26 ký tự (U+1F1E6–U+1F1FF, 🇦–🇿) kết hợp theo cặp để tạo emoji cờ quốc gia dựa trên mã quốc gia …
Các ký tự Unicode dạng hình ảnh bắt nguồn từ điện thoại di động Nhật Bản. Hiện có hơn 3.790 …
Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …
Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …