Unicode 用語集

150 個の重要な Unicode 用語を解説 — 文字エンコーディングの基礎からセキュリティの概念まで。

エンコーディング 17 Unicode 標準 25 プロパティ 19 アルゴリズム 15 タイポグラフィ 19 入力方式 9 Web & HTML 16 プログラミングと開発 13 セキュリティ 10 絵文字 6 その他 1

エンコーディング (17)

米国情報交換標準符号。0〜127の128文字を扱う7ビットエンコーディングで、制御文字・数字・ラテン文字・基本記号を含みます。

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Big5

主に台湾と香港で使われる繁体字中国語文字エンコーディングで、約13,000のCJK文字をエンコードします。

EBCDIC

拡張二進化十進数コード。文字範囲が連続していないIBMメインフレームエンコーディングで、金融・企業メインフレームで今も使われています。

EUC-KR

KS X 1001に基づく韓国語文字エンコーディングで、ハングル音節と漢字を2バイトシーケンスにマッピングします。

GB2312 / GB18030

簡体字中国語文字エンコーディングファミリー：GB2312（6,763文字）がGBKを経てGB18030へと発展し、Unicodeと互換性のある中国の国家標準となっています。

IANA 文字セット

IANAが管理する文字エンコーディング名の公式レジストリで、HTTP Content-TypeヘッダーとMIMEで使われます（例：charset=utf-8）。

ISO 8859

異なる言語グループ向けの8ビット1バイトエンコーディングファミリー。ISO 8859-1（Latin-1）はUnicodeの最初の256コードポイントの基礎となりました。

Shift JIS

1バイトのASCII/JISローマ字と2バイトのJIS X 0208漢字を組み合わせた日本語文字エンコーディング。レガシーな日本語システムで今も使われています。

UCS-2

BMP（U+0000〜U+FFFF）のみをカバーする廃止済みの固定2バイトエンコーディング。UTF-16の前身で、補助文字を表現できません。

UTF-16

16ビットコード単位1つまたは2つ（2バイトまたは4バイト）を使う可変長 Unicode エンコーディング。Java・JavaScript・Windows の内部で使われています。

UTF-32

1文字あたりちょうど4バイトを使う固定長 Unicode エンコーディング。単純ですが空間効率が低く、Python 3（CPython）の内部で使われています。

UTF-8

1文字あたり1〜4バイトを使う可変長Unicode エンコーディング。Webの主流エンコーディング（98%以上）で、ASCIIと完全な後方互換性があります。

Windows-1252

ISO 8859-1のMicrosoft拡張版で、0x80〜0x9Fの範囲にスマートクォート・ダッシュ・ユーロ記号を追加します。最も一般的なレガシーラテンエンコーディングです。

バイト順マーク (BOM)

テキストストリームの先頭に置かれ、バイト順序とエンコーディングを示すU+FEFF。UTF-16/32では必須ですが、UTF-8では任意かつ非推奨です。

文字エンコーディング

文字をデジタル保存・送信用のバイト列にマッピングするシステム。すべてのテキストファイルにはエンコーディングがあり、正しく宣言されているかどうかが重要です。

Unicode 標準 (25)

CJK（漢字・かな・ハングル）

中国語・日本語・韓国語 — Unicodeにおける統合漢字ブロックと関連スクリプトをまとめた総称。CJK統合漢字は20,992文字以上を含みます。

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

ISO 10646 / 万国文字集合

Unicodeと同期している国際標準（ISO/IEC 10646）で、同じ文字目録とコードポイントを定義しますが、Unicodeの追加アルゴリズムやプロパティは含みません。

Unicode

あらゆる文字システムのすべての文字に固有の番号（コードポイント）を割り当てる普遍的文字エンコーディング規格。バージョン16.0には154,998個の割り当て済み文字が含まれます。

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

Unicode コンソーシアム

Unicode標準を開発・維持する非営利団体。Apple・Google・Microsoft・Metaなど多くの企業が会員です。

Unicode スカラー値

サロゲートコードポイント（U+D800〜U+DFFF）を除くすべてのコードポイント。実際の文字を表すことができる有効な値の集合で、合計1,112,064個です。

Unicode バージョン

新しい文字・文字体系・機能を追加するUnicode標準の主要リリース。現在のバージョンはUnicode 16.0（2025年9月）です。

Unicode 安定性ポリシー

一度割り当てられた文字のコードポイントと名前は絶対に変更されないことを保証するポリシー。プロパティは改訂される場合がありますが、割り当ては永続的です。

Unicode 文字データベース (UCD)

すべてのUnicode文字プロパティを定義する機械可読データファイルの集合で、UnicodeData.txt・Blocks.txt・Scripts.txtなどが含まれます。

コードポイント

Unicodeコード空間（U+0000〜U+10FFFF）内の数値で、U+XXXXと表記します。すべてのコードポイントが文字に割り当てられているわけではありません。

コード単位

エンコーディングの最小単位：UTF-8では8ビットバイト、UTF-16では16ビットワード、UTF-32では32ビットワード。1つの文字が複数のコード単位を必要とする場合があります。

コード空間

可能なすべてのUnicodeコードポイントの範囲：U+0000〜U+10FFFF（合計1,114,112個）で、それぞれ65,536コードポイントを持つ17面に分かれています。

サロゲート

UTF-16サロゲートペア専用に予約されたコードポイントU+D800〜U+DFFF。有効なUnicodeスカラー値ではなく、独立した文字として現れてはなりません。

予約済みコードポイント

将来の標準化のために予約されたコードポイントで、非文字（永久予約）や私用領域（ユーザー割り当て可能）とは区別されます。

割り当て済み文字

Unicodeバージョンで文字の指定を受けたコードポイント。Unicode 16.0時点で、1,114,112個のうち154,998個のコードポイントが割り当て済みです。

基本多言語面 (BMP)

第0面（U+0000〜U+FFFF）で、ラテン・ギリシャ・キリル・CJK・アラビア文字やほとんどの記号など、最もよく使われる文字を含みます。この面の文字は1つのUTF-16コード単位に収まります。

抽象文字

テキストデータの整理・制御・表現に使われる情報の単位で、コードポイントを受け取る前の概念的な実体です。

未割り当てコードポイント

どのUnicodeバージョンでも文字が割り当てられていないコードポイントで、Cn（未割り当て）に分類されます。将来のバージョンで割り当てられる可能性があります。

私用領域 (PUA)

組織が独自の文字を割り当てられる予約領域：BMP PUA（U+E000〜U+F8FF）と第15・16面の補助PUAを含みます。

補助面 / アストラル面

第1〜16面（U+10000〜U+10FFFF）で、絵文字・歴史的文字・CJK拡張・楽譜などを含みます。UTF-16ではサロゲートペアが必要です。

非文字

内部使用のために永久予約されたコードポイント（計66個）：各面のU+FDD0〜U+FDEFおよびU+nFFFE/U+nFFFF。テキスト内では有効ですが、外部交換に使用すべきではありません。

面

65,536個の連続したコードポイントのブロック。Unicodeは17面（0〜16）を持ち、第0面はBMP、第1面はSMP（絵文字・歴史的文字）、第2面はSIP（CJK拡張）です。

プロパティ (19)

Age プロパティ

文字が最初に割り当てられたUnicodeバージョン。システムやソフトウェアバージョン間での文字サポートを判断するのに役立ちます。

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

ケースマッピング

文字を大文字・小文字・タイトルケースに変換するルール。ロケール依存の場合があり（トルコ語のI問題）、1対多のマッピングもあります（ß → SS）。

スクリプト

文字が属する文字体系（例：ラテン、キリル、漢字）。Unicode 16.0は168個のスクリプトを定義し、Scriptプロパティはセキュリティと混在スクリプト検出に重要です。

デフォルト無視文字

サポートしていないプロセスで目に見える効果なく無視できる文字で、異体字セレクター・ゼロ幅文字・言語タグなどが含まれます。

ブロック

名前付きの連続したコードポイント範囲（例：基本ラテン = U+0000〜U+007F）。Unicode 16.0は336個のブロックを定義し、すべてのコードポイントはちょうど1つのブロックに属します。

ミラープロパティ

RTLコンテキストでグリフを水平に反転すべき文字。例：( → )、[ → ]、{ → }、« → »。

一般カテゴリー

すべてのコードポイントを30個のカテゴリ（Lu・Ll・Nd・Soなど）の1つに分類する体系で、7つの主要クラス（文字・記号・数字・句読点・記号・区切り・その他）にグループ化されています。

互換等価

同じ抽象的内容を持つが外観が異なる場合がある2つの文字シーケンス。正規等価より広い概念。例：ﬁ ≈ fi、² ≈ 2。

分解

文字を構成要素にマッピングする処理。正規分解は意味を保持し（é → e + ◌́）、互換分解は意味が変わる場合があります（ﬁ → fi）。

双方向カテゴリー

双方向テキスト（LTR・RTL・弱・中立）における文字の振る舞いを決定するプロパティ。表示順序を決定するためにUnicode双方向アルゴリズムが使います。

句読点

ピリオド・コンマ・ダッシュ・引用符など、文章を整理して明確にするために使われる文字。Unicode一般カテゴリPがすべての句読点を含みます。

名前エイリアス

安定性ポリシーによりUnicode名は変更できないため、文字の代替名を提供します。修正・略語・誤称の修正に使われます。

拡張書記素クラスター

ユーザーが感じる「1文字」—単一の単位として感じられるもの。複数のコードポイント（基本文字＋結合記号、または絵文字ZWJシーケンス）で構成される場合があります。👩‍💻 = 3コードポイント、1書記素。

数値

文字の数値的な解釈（該当する場合）：数字値（0〜9）・十進数値・一般数値（例：½ = 0.5、Ⅳ = 4）。

正規等価

意味的に同一で等価として扱われるべき2つの文字シーケンス。例：é（U+00E9）≡ e + ◌́（U+0065 + U+0301）。

結合クラス

正規分解時の結合記号の順序を制御する数値（0〜254）で、どの結合記号を並べ替えられるかを決定します。

アルゴリズム (15)

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

NFC (Canonical Composition)

正規化形式C：分解してから正規再合成し、最短の形式を生成します。データの保存と交換に推奨されており、Webの標準形式です。

NFD (Canonical Decomposition)

正規化形式D：再合成せずに完全分解します。macOSのHFS+ファイルシステムで使われます。é（U+00E9）→ e + ◌́（U+0065 + U+0301）。

NFKC (Compatibility Composition)

正規化形式KC：互換分解後に正規合成。視覚的に類似した文字を統合します（ﬁ→fi、²→2、Ⅳ→IV）。識別子の比較に使われます。

NFKD (Compatibility Decomposition)

正規化形式KD：再合成せずに互換分解。最も強力な正規化で、最も多くの書式情報を失います。

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

Unicode テキスト分割

テキストの境界を見つけるアルゴリズム：書記素クラスター・単語・文境界。カーソル移動・テキスト選択・テキスト処理に不可欠です。

Unicode 双方向アルゴリズム (UBA)

文字の双方向カテゴリと明示的な方向オーバーライドを使って、混在方向テキスト（例：英語＋アラビア語）の表示順序を決定するアルゴリズム。

Unicode 正規化

Unicodeテキストを標準的な正規形に変換するプロセス。4つの形式：NFC（合成）、NFD（分解）、NFKC（互換合成）、NFKD（互換分解）。

Unicode 照合アルゴリズム (UCA)

基本文字 → アクセント → 大小文字 → タイブレーカーの多段階比較でUnicode文字列を比較・ソートする標準アルゴリズム。ロケールのカスタマイズが可能です。

Unicode 行分割アルゴリズム

文字プロパティ・CJK単語境界・改行機会を考慮して、テキストを次の行に折り返せる位置を決定するルール。

単語境界

Unicode単語境界規則で決定された単語間の位置。単純なスペース分割ではなく、CJK（スペースなし）・短縮形・数字を正しく処理します。

合成除外

非先頭分解の防止とアルゴリズムの安定性を確保するため、正規合成（NFC）から除外される文字。CompositionExclusions.txtに一覧があります。

文境界

Unicodeルールによる文間の位置。単純なピリオド分割より複雑で、略語（Mr.）・省略記号（...）・小数点（3.14）などを処理します。

タイポグラフィ (19)

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Em / En（タイポグラフィ単位）

Em：フォントサイズと等しい幅。En：Emの半分。エムダッシュ幅・エムスペース・エンスペース・CSSユニット（1em・0.5em）の定義に使われます。

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

RTL（右から左）

文字が右から左に流れるテキスト方向。アラビア語・ヘブライ語・ターナ文字などで使われ、正しい表示のために双方向アルゴリズムが必要です。

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

カーニング

視覚的な調和のために特定の文字ペア（例：AV・To・LT）間のスペーシングを調整すること。Unicodeの概念ではなくフォント機能ですが、Unicodeテキストのレンダリングに影響します。

グリフ

フォントによってレンダリングされる文字の視覚的表現。1つの文字が複数のグリフを持つ場合があり（合字・文脈形態）、1つのグリフが複数の文字を表す場合もあります。

スモールキャップス

小文字の高さの大文字字形。CSS：font-variant: small-caps。Unicodeにはラテン拡張（ᴀ〜ᴢ）に実際のスモールキャップス文字があります。

ゼロ幅文字

前進幅がゼロの文字 — レンダリングでは見えませんがテキスト動作に影響します。ZWSP（単語区切り）・ZWJ（結合）・ZWNJ（結合防止）・WJ（改行防止）などがあります。

ダッシュ

文の一部を区切ったり範囲を示したりする句読記号。Unicodeはハイフン（‐）・エンダッシュ（–）・エムダッシュ（—）・図表ダッシュ（‒）などを定義しています。

ノーブレークスペース

U+00A0。その位置での改行を防ぐスペース。HTML： 。数字と単位（100 km）・固有名詞（Mr. Smith）・略語の後などに使われます。

フォント

特定のサイズ・ウェイト・スタイルにおけるタイプフェイスの実装。デジタルタイポグラフィでは、グリフ定義とメトリクスを含むフォントファイル（TTF・OTF・WOFF2）を指します。

合字

2つ以上の文字を1つのグリフに結合したもの。タイポグラフィ的（OpenTypeによるfi → ﬁ）またはUnicode文字（ﬁ U+FB01）があります。アラビア文字は必須合字を使います。

引用符

直接話法や引用を囲む対の句読記号。Unicodeにはストレート（″″）・カーリー（）・ギュメ（« »）・CJK隅括弧（「」）・ロケール別形式などが含まれます。

発音区別符号 / ダイアクリティック

発音や意味を変えるために文字に追加される記号。合成済み形（é U+00E9）または結合形（e + ◌́ U+0065+U+0301）で表現されます。アクセント・ウムラウト・セジラ・チルデなどが含まれます。

省略記号

U+2026 水平省略記号（…）。3つのピリオドの代わりに使う単一の文字で、タイポグラフィ的に正しく、3文字ではなく1文字として数えられます。

空白文字

水平または垂直の空間を表すが目に見えるグリフを持たない文字。Unicodeは異なる幅と改行動作を持つ17種類以上の空白文字を定義しています。

結合文字

直前の基本文字に付いてそれを修飾する文字。一般カテゴリ：Mn（非スペース）・Mc（スペース結合）・Me（囲み）。例：◌́（U+0301 合成アキュートアクセント）。

入力方式 (9)

16進数入力

16進数値を入力してUnicodeコードポイントを直接入力する方法。Mac：Option＋16進数＋離す。Windows：Word/WordPadで16進数入力後にAlt+X。

Alt コード

Alt＋テンキーの数字でコードページ番号により文字を入力するWindows入力方法（Alt+0169 → ©、Alt+0176 → °）。コードページ1252の文字に制限されます。

Character Palette

A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …

Unicode 入力方法

Unicodeコードポイントで文字を入力する任意の方法：16進数入力（Mac）・Ctrl+Shift+UによるU+XXXX入力（Linux）・Alt+X（Windowsアプリケーション）。

インプットメソッドエディタ (IME)

音声または構造的マッチングにより入力キーシーケンスを文字に変換し、標準キーボードで複雑な文字（CJK・韓国語など）を入力できるようにするソフトウェアコンポーネント。

コンポーズキー

複数キーの合成シーケンスを開始するキー（通常は右Alt またはカスタムマップ）。Linux/Unix機能：Compose + a + e → æ。XComposeで設定可能です。

デッドキー

すぐに出力せず次のキー入力を修飾するキー。発音区別符号の入力に使われます：`を押してeを押すとèになります。欧州のキーボードレイアウトで一般的です。

文字ピッカー

文字を視覚的に閲覧・選択するUIコンポーネント（ネイティブまたはWebベース）。モバイルの絵文字ピッカーが最も一般的な例です。

文字マップ

Unicode文字を閲覧・挿入するGUIユーティリティ。Windows：charmap.exe。Mac：文字ビューア（Control+Command+Space）。Linux：gucharmap。

Web & HTML (16)

Content-Type 文字セット

レスポンスの文字エンコーディングを宣言するHTTPヘッダーパラメータ（Content-Type: text/html; charset=utf-8）。ドキュメント内のエンコーディング宣言より優先されます。

CSS content プロパティ

::beforeおよび::after疑似要素でUnicodeエスケープを使って生成コンテンツを挿入するCSSプロパティ：content: '\2713'は✓を挿入します。

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

HTML エンティティ

HTMLで文字をテキスト表現する方式。3つの形式：名前（&）・十進数（&）・16進数（&）。HTMLの構文と衝突する文字に必須です。

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Punycode

Unicode ドメイン名をxn--プレフィックス付きのASCII文字列に変換するASCII互換エンコーディング。münchen.de → xn--mnchen-3ya.de。

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

XML 文字参照

XMLバージョンの数値文字参照：✓または✓。XMLには名前付きエンティティが5個（& < > " '）しかありませんが、HTML5は2,231個あります。

テキスト表示

デフォルトの絵文字表示の代わりに、通常は異体字セレクター15（U+FE0E）を使って文字をモノクロのテキストグリフでレンダリングすること。

パーセントエンコーディング (URL エンコーディング)

URLの非ASCII文字と予約文字を各バイトを%XXで置き換えてエンコードします。まずUTF-8に変換し、各バイトをパーセントエンコードします：é → %C3%A9。

ワードジョイナー

U+2060。改行を防ぐゼロ幅文字。ゼロ幅ノーブレークスペースとしてのU+FEFF（BOM）の現代的な代替です。

名前付き文字参照

国際化ドメイン名 (IDN)

非ASCIIのUnicode文字を含むドメイン名で、内部的にはPunycode（xn--...）として保存されますが、ユーザーにはUnicodeで表示されます。セキュリティ上の懸念：ホモグラフ攻撃。

数値文字参照

異体字セレクター

特定のグリフ変形を選択する文字（U+FE00〜U+FE0F・U+E0100〜U+E01EF）。VS15（U+FE0E）はテキスト表示、VS16（U+FE0F）は絵文字表示を表します。

絵文字表示

通常は異体字セレクター16（U+FE0F）を使って文字をカラフルな絵文字グリフでレンダリングすること。一部の文字はデフォルトで絵文字表示、他はテキスト表示でレンダリングされます。

プログラミングと開発 (13)

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

Unicode エスケープシーケンス

ソースコードでUnicode文字を表す構文。言語によって異なります：\u2713（Python/Java/JS）・\u{2713}（JS/Ruby/Rust）・\U00012345（Python/C）。

Unicode 正規表現

Unicodeプロパティを使う正規表現パターン：\p{L}（任意の文字）・\p{Script=Greek}（ギリシャ語スクリプト）・\p{Emoji}。言語や正規表現エンジンによってサポートが異なります。

エンコーディング / デコーディング

エンコーディングは文字をバイトに変換し（str.encode('utf-8')）、デコーディングはバイトを文字に変換します（bytes.decode('utf-8')）。正しく行えば文字化けを防げます。

サロゲートペア

UTF-16で補助文字をエンコードするために使われる2つの16ビットコード単位（上位サロゲートU+D800〜U+DBFF ＋下位サロゲートU+DC00〜U+DFFF）。😀 = D83D DE00。

ヌル文字

U+0000（NUL）。最初のUnicode/ASCII文字で、C/C++では文字列ターミネータとして使われます。セキュリティリスク：ヌルバイト挿入は脆弱なシステムで文字列を切り捨てる可能性があります。

不可視文字

目に見えるグリフを持たない文字：空白・ゼロ幅文字・制御文字・書式文字。スプーフィングやテキスト密輸などのセキュリティ問題を引き起こす可能性があります。

文字列

プログラミング言語における文字のシーケンス。内部表現はさまざまです：UTF-8（Go・Rust・新しいPython）・UTF-16（Java・JavaScript・C#）・UTF-32（Python）。

文字列長の曖昧さ

Unicodeの文字列の「長さ」は単位によって異なります：コード単位（JavaScript .length）・コードポイント（Python len()）・書記素クラスター。👨‍👩‍👧‍👦 = 7コードポイント、1書記素。

文字化け

置換文字

U+FFFD（）。デコーダが無効なバイトシーケンスに遭遇したときに表示される文字 — 「デコードに何か問題が起きた」の汎用記号。

セキュリティ (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

Bidi オーバーライド攻撃

Unicode双方向オーバーライド文字（U+202A〜U+202E・U+2066〜U+2069）を使って悪意のあるファイル名やコードを偽装する攻撃。'readme‮fdp.exe'は'readmeexe.pdf'と表示されます。

IDN ホモグラフ攻撃

ドメイン名に視覚的に似たUnicode文字を使って正規サイトになりすます攻撃。аpple.com（キリルа）はapple.comに見えます。ブラウザはPunycodeの表示ルールで防御します。

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'ﬁ' (U+FB01) normalizes to 'fi', …

Unicode スプーフィング

Unicode機能を使ってユーザーを欺くこと：偽ドメインのためのホモグリフ・偽ファイル拡張子のためのBidiオーバーライド・隠しテキストのための不可視文字。

ゼロ幅接合子 (ZWJ)

U+200D。隣接する文字の結合を要求します。絵文字シーケンスに不可欠です（👩+ZWJ+💻=👩‍💻）。インド系文字では合字形成を要求します。テキスト境界を隠すためにも使われます。

ゼロ幅非接合子 (ZWNJ)

U+200C。隣接する文字の結合を防ぎます。ペルシャ語/アラビア語で正しい文字形態のために必須で、デーヴァナーガリーで合字を防ぐためにも使われます。

ホモグリフ

異なるスクリプトから来た同一または非常に似て見える文字。例：ラテン'a'とキリル'а'。フィッシング・スプーフィング・ソーシャルエンジニアリング攻撃に使われます。

混同しやすい文字

confusables.txt（UCD）で定義された、視覚的に混同しやすい文字ペアに対するUnicodeの公式用語。ホモグリフより広い概念で、単に似ているだけの文字も含みます。

混在スクリプト検出

異なるスクリプトの文字を混在させるテキストを識別します（例：ラテン＋キリル）。ホモグリフ攻撃に対する主要な防御で、ブラウザはこれを使ってPunycode表示をトリガーします。

絵文字 (6)

Emoji

日本の携帯電話に由来する絵文字Unicode文字。現在、複数のブロック（絵文字・その他の記号と絵文字・交通機関など）にわたって3,790個以上の絵文字があります。

Emoji Sequences

Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …

Emoji Skin Tone

Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …

地域表示記号

ISO 3166-1の国コードに基づいてペアで結合し、国旗絵文字を形成する26文字（U+1F1E6〜U+1F1FF、🇦〜🇿）。🇺+🇸 = 🇺🇸。

絵文字 ZWJ シーケンス

複数の絵文字をZWJ（U+200D）で結合して構成される絵文字。👨‍👩‍👧‍👦 = 男性+ZWJ+女性+ZWJ+女の子+ZWJ+男の子。約600個のZWJシーケンスが定義されています。

絵文字モディファイア（肌の色）

人間の絵文字の直後に置かれて肌の色を変えるフィッツパトリック尺度の肌色修飾子（U+1F3FB〜U+1F3FF）。

その他 (1)

制御文字

テキスト処理を制御する非印字文字。C0（U+0000〜U+001F）：NUL・TAB・LF・CR・ESC。C1（U+0080〜U+009F）：現代のUnicodeではほぼ使われません。一般カテゴリ：Cc。