Sql-und-Xml-Home Xml lernen Unicode: Block und Kategorie Unicode-Datenbank
Die Unicode-Datenbank
1. Liste aller Unicode-Blockbereiche
In den beiden folgenden Tabellen sind alle Unicode-Blöcke, geordnet nach Codepunkten, aufgeführt. Die Spalte 'Blockname'
enthält den offiziellen englischen Namen dieses Blocks, Beginn und Ende sind in hexadezimaler und Zahldarstellung genannt.
Cn ist das Kürzel für die Kategorie Other, not Assigned, diesen Codepunkten
ist keine Darstellung bzw. Funktion zugewiesen. Die Spalte 'def' enthält die Zahl der verwendbaren Codepunkte und entspricht
der Zahl der Codepunkte in diesem Block abzüglich Cn. Die Spalte 'NET' teilt die Zahl der von .NET1.1 erkannten
Unicode-Zeichen in diesem Block mit. Die Unicode-Datenbank basiert auf der Version 4.0, .NET1.1 legt Unicode.3.1 zugrunde, so
daß von .NET nicht alle Zeichen in bezug auf Kategorien korrekt verarbeitet werden. Die nicht erkannten Zeichen werden in RegEx-Suchmustern der Form '\{IsUnicode-Block}'
fälschlich negativ bewertet. Gibt es in einem Block solche Zeichen (also 'def.' > 'NET'), so ist die Zelle rötlich unterlegt,
der Block enthält Zeichen ab Version 3.2. Das folgende Y/N sagt aus, ob man den Blocknamen ohne Leerzeichen in RegEx-patterns
verwenden kann. Falls Y, gelingt dies mit vorangestelltem 'Is', etwa '\p{IsBasicLatin}' oder '\p{IsBopomofo}'. Die korrekten
Werte wurden durch probeweises Einsetzen ermittelt. Es folgen Spalten mit der Zahl der Zeichen pro Block aus einer bestimmten
Unicode-Version. Die erste Tabelle enthält alle Blöcke aus der basic multilingual plane, die
zweite Tabelle enthält die Unicode-Zeichen mit Codepunkten oberhalb FFFF. Diese sind mit aktuellen Browsern noch nicht über die
Codierung &#x[Unicode-Word]; sowie einen Font darstellbar. Für sie wurden keine gesonderten Detail-Tabellen erstellt,
da die Tabellen bloß Namen und Kategorien enthalten würden. Auf verweisende Links und die Spalte 'NET'
wurde ebenfalls verzichtet. Die letzte Spalte enthält die Größe der Detail-Datei in KB. Zeilen mit dem Eintrag 'No_Block (unused)' bezeichnen
nicht belegte Blöcke. Die Nummer in der ersten Spalte und der Wechsel zwischen weißem und grauem Hintergrund wurden nur zur besseren
Darstellung eingefügt und haben keine offizielle Bedeutung.
Bei den angegebenen Summen ist zu beachten, daß die Blöcke CJK Unified Ideographs Extension A, CJK Unified Ideographs
und Hangul Syllables nicht in die Detaildarstellung übernommen wurden. Zwar liegen für diese von Unicode.org gezippte
Dateien vor. Jedoch sind diese Zeichensätze extrem groß, so daß sie bislang nicht übernommen wurden. Analog entfällt für den privaten
Bereich Private Use Area die Darstellung. Die Gesamtzahl der definierten Codepunkte unterscheidet sich deshalb von
den offiziellen Zahlen und wäre um die Zahl der Codepunkte <> Cn in diesen Blöcken zu vergrößern.
Als kleinen Zusatz gibt es zwei
Online-Tools: Der Int/Hex/Char-Converter rechnet Integer-Darstellung,
Hexadezimal-Ausdruck und Codepunkt ineinander um. Der Entity-Generator codiert Klartext in Entity-Darstellungen,
entweder als Integer- (A = A) oder als Hex-Version (A = A). Eine Mailadresse wird mit 'mailto' ergänzt und
mit dem korrekten umgebenden Html-Code versehen, so daß ein Klick im Browser weiterhin das Mailprogramm startet, einfache
EMail-Spam-Bots an dieser Darstellung jedoch scheitern.
1.1 Codepunkte der Basic multilingual plane <= FFFF
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | NET | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 1 | Basic Latin | 0000 (0) | 007F (127) | 128 | 128 | 0 | 128 / Y | 128 | 0 | 0 | 0 | 0 | 25,5 KB |
| 2 | Latin-1 Supplement | 0080 (128) | 00FF (255) | 128 | 128 | 0 | 127 / Y | 128 | 0 | 0 | 0 | 0 | 26,7 KB |
| 3 | Latin Extended-A | 0100 (256) | 017F (383) | 128 | 128 | 0 | 128 / Y | 128 | 0 | 0 | 0 | 0 | 27 KB |
| 4 | Latin Extended-B | 0180 (384) | 024F (591) | 208 | 183 | 25 | 183 / Y | 148 | 30 | 0 | 1 | 4 | 38 KB |
| 5 | IPA Extensions | 0250 (592) | 02AF (687) | 96 | 96 | 0 | 95 / Y | 89 | 5 | 0 | 0 | 2 | 20,5 KB |
| 6 | Spacing Modifier Letters | 02B0 (688) | 02FF (767) | 80 | 80 | 0 | 80 / Y | 57 | 6 | 0 | 0 | 17 | 17,4 KB |
| 7 | Combining Diacritical Marks | 0300 (768) | 036F (879) | 112 | 107 | 5 | 107 / Y | 72 | 10 | 0 | 14 | 11 | 22,5 KB |
| 8 | Greek and Coptic | 0370 (880) | 03FF (1023) | 144 | 120 | 24 | 120 / Y | 105 | 5 | 2 | 3 | 5 | 25 KB |
| 9 | Cyrillic | 0400 (1024) | 04FF (1279) | 256 | 246 | 10 | 246 / Y | 226 | 12 | 0 | 8 | 0 | 50,2 KB |
| 10 | Cyrillic Supplement | 0500 (1280) | 052F (1327) | 48 | 16 | 32 | 16 / Y | 0 | 0 | 0 | 16 | 0 | 5,3 KB |
| 11 | Armenian | 0530 (1328) | 058F (1423) | 96 | 86 | 10 | 86 / Y | 85 | 1 | 0 | 0 | 0 | 18,5 KB |
| 12 | Hebrew | 0590 (1424) | 05FF (1535) | 112 | 82 | 30 | 82 / Y | 82 | 0 | 0 | 0 | 0 | 17,3 KB |
| 13 | Arabic | 0600 (1536) | 06FF (1791) | 256 | 227 | 29 | 227 / Y | 194 | 12 | 0 | 2 | 19 | 45,6 KB |
| 14 | Syriac | 0700 (1792) | 074F (1871) | 80 | 77 | 3 | 77 / Y | 0 | 71 | 0 | 0 | 6 | 16,5 KB |
| No_Block (unused) |
| 15 | Thaana | 0780 (1920) | 07BF (1983) | 64 | 50 | 14 | 50 / Y | 0 | 49 | 0 | 1 | 0 | 11,2 KB |
| No_Block (unused) |
| 16 | Devanagari | 0900 (2304) | 097F (2431) | 128 | 105 | 23 | 105 / Y | 104 | 0 | 0 | 0 | 1 | 21,8 KB |
| 17 | Bengali | 0980 (2432) | 09FF (2559) | 128 | 90 | 38 | 90 / Y | 89 | 0 | 0 | 0 | 1 | 19 KB |
| 18 | Gurmukhi | 0A00 (2560) | 0A7F (2687) | 128 | 77 | 51 | 77 / Y | 75 | 0 | 0 | 0 | 2 | 16,2 KB |
| 19 | Gujarati | 0A80 (2688) | 0AFF (2815) | 128 | 83 | 45 | 83 / Y | 78 | 0 | 0 | 0 | 5 | 17,5 KB |
| 20 | Oriya | 0B00 (2816) | 0B7F (2943) | 128 | 81 | 47 | 81 / Y | 79 | 0 | 0 | 0 | 2 | 16,8 KB |
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | NET | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 21 | Tamil | 0B80 (2944) | 0BFF (3071) | 128 | 69 | 59 | 69 / Y | 61 | 0 | 0 | 0 | 8 | 14,9 KB |
| 22 | Telugu | 0C00 (3072) | 0C7F (3199) | 128 | 80 | 48 | 80 / Y | 80 | 0 | 0 | 0 | 0 | 16,7 KB |
| 23 | Kannada | 0C80 (3200) | 0CFF (3327) | 128 | 82 | 46 | 82 / Y | 80 | 0 | 0 | 0 | 2 | 17,1 KB |
| 24 | Malayalam | 0D00 (3328) | 0D7F (3455) | 128 | 78 | 50 | 78 / Y | 78 | 0 | 0 | 0 | 0 | 16,5 KB |
| 25 | Sinhala | 0D80 (3456) | 0DFF (3583) | 128 | 80 | 48 | 80 / Y | 0 | 80 | 0 | 0 | 0 | 17,6 KB |
| 26 | Thai | 0E00 (3584) | 0E7F (3711) | 128 | 87 | 41 | 87 / Y | 87 | 0 | 0 | 0 | 0 | 18,5 KB |
| 27 | Lao | 0E80 (3712) | 0EFF (3839) | 128 | 65 | 63 | 65 / Y | 65 | 0 | 0 | 0 | 0 | 13,8 KB |
| 28 | Tibetan | 0F00 (3840) | 0FFF (4095) | 256 | 193 | 63 | 193 / Y | 168 | 25 | 0 | 0 | 0 | 39 KB |
| 29 | Myanmar | 1000 (4096) | 109F (4255) | 160 | 78 | 82 | 78 / Y | 0 | 78 | 0 | 0 | 0 | 16,5 KB |
| 30 | Georgian | 10A0 (4256) | 10FF (4351) | 96 | 80 | 16 | 80 / Y | 78 | 0 | 0 | 2 | 0 | 17 KB |
| 31 | Hangul Jamo | 1100 (4352) | 11FF (4607) | 256 | 240 | 16 | 240 / Y | 240 | 0 | 0 | 0 | 0 | 47 KB |
| 32 | Ethiopic | 1200 (4608) | 137F (4991) | 384 | 345 | 39 | 336 / Y | 0 | 345 | 0 | 0 | 0 | 65,4 KB |
| No_Block (unused) |
| 33 | Cherokee | 13A0 (5024) | 13FF (5119) | 96 | 85 | 11 | 85 / Y | 0 | 85 | 0 | 0 | 0 | 17,3 KB |
| 34 | Unified Canadian Aboriginal Syllabics | 1400 (5120) | 167F (5759) | 640 | 630 | 10 | 630 / Y | 0 | 630 | 0 | 0 | 0 | 121,1 KB |
| 35 | Ogham | 1680 (5760) | 169F (5791) | 32 | 29 | 3 | 29 / Y | 0 | 29 | 0 | 0 | 0 | 7,5 KB |
| 36 | Runic | 16A0 (5792) | 16FF (5887) | 96 | 81 | 15 | 81 / Y | 0 | 81 | 0 | 0 | 0 | 17,1 KB |
| 37 | Tagalog | 1700 (5888) | 171F (5919) | 32 | 20 | 12 | 20 / Y | 0 | 0 | 0 | 20 | 0 | 5,7 KB |
| 38 | Hanunoo | 1720 (5920) | 173F (5951) | 32 | 23 | 9 | 23 / Y | 0 | 0 | 0 | 23 | 0 | 6,4 KB |
| 39 | Buhid | 1740 (5952) | 175F (5983) | 32 | 20 | 12 | 20 / Y | 0 | 0 | 0 | 20 | 0 | 5,6 KB |
| 40 | Tagbanwa | 1760 (5984) | 177F (6015) | 32 | 18 | 14 | 18 / Y | 0 | 0 | 0 | 18 | 0 | 5,4 KB |
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | NET | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 41 | Khmer | 1780 (6016) | 17FF (6143) | 128 | 114 | 14 | 114 / Y | 0 | 103 | 0 | 0 | 11 | 23,5 KB |
| 42 | Mongolian | 1800 (6144) | 18AF (6319) | 176 | 155 | 21 | 155 / Y | 0 | 155 | 0 | 0 | 0 | 31,6 KB |
| No_Block (unused) |
| 43 | Limbu | 1900 (6400) | 194F (6479) | 80 | 66 | 14 | 66 / Y | 0 | 0 | 0 | 0 | 66 | 14,3 KB |
| 44 | Tai Le | 1950 (6480) | 197F (6527) | 48 | 35 | 13 | 35 / Y | 0 | 0 | 0 | 0 | 35 | 8,2 KB |
| No_Block (unused) |
| 45 | Khmer Symbols | 19E0 (6624) | 19FF (6655) | 32 | 32 | 0 | 32 / Y | 0 | 0 | 0 | 0 | 32 | 8 KB |
| No_Block (unused) |
| 46 | Phonetic Extensions | 1D00 (7424) | 1D7F (7551) | 128 | 108 | 20 | 108 / Y | 0 | 0 | 0 | 0 | 108 | 22,7 KB |
| No_Block (unused) |
| 47 | Latin Extended Additional | 1E00 (7680) | 1EFF (7935) | 256 | 246 | 10 | 246 / Y | 246 | 0 | 0 | 0 | 0 | 51,8 KB |
| 48 | Greek Extended | 1F00 (7936) | 1FFF (8191) | 256 | 233 | 23 | 233 / Y | 233 | 0 | 0 | 0 | 0 | 50,6 KB |
| 49 | General Punctuation | 2000 (8192) | 206F (8303) | 112 | 97 | 15 | 97 / Y | 76 | 7 | 0 | 12 | 2 | 20,6 KB |
| 50 | Superscripts and Subscripts | 2070 (8304) | 209F (8351) | 48 | 29 | 19 | 29 / Y | 28 | 0 | 0 | 1 | 0 | 7,8 KB |
| 51 | Currency Symbols | 20A0 (8352) | 20CF (8399) | 48 | 18 | 30 | 18 / Y | 13 | 3 | 0 | 2 | 0 | 5,2 KB |
| 52 | Combining Diacritical Marks for Symbols | 20D0 (8400) | 20FF (8447) | 48 | 27 | 21 | 27 / Y | 18 | 2 | 0 | 7 | 0 | 7,6 KB |
| 53 | Letterlike Symbols | 2100 (8448) | 214F (8527) | 80 | 75 | 5 | 74 / Y | 57 | 2 | 0 | 15 | 1 | 16 KB |
| 54 | Number Forms | 2150 (8528) | 218F (8591) | 64 | 49 | 15 | 48 / Y | 48 | 1 | 0 | 0 | 0 | 11,3 KB |
| 55 | Arrows | 2190 (8592) | 21FF (8703) | 112 | 112 | 0 | 112 / Y | 91 | 9 | 0 | 12 | 0 | 23,4 KB |
| 56 | Mathematical Operators | 2200 (8704) | 22FF (8959) | 256 | 256 | 0 | 256 / Y | 242 | 0 | 0 | 14 | 0 | 48,7 KB |
| 57 | Miscellaneous Technical | 2300 (8960) | 23FF (9215) | 256 | 209 | 47 | 206 / Y | 122 | 32 | 0 | 53 | 2 | 42 KB |
| 58 | Control Pictures | 2400 (9216) | 243F (9279) | 64 | 39 | 25 | 39 / Y | 37 | 2 | 0 | 0 | 0 | 9,3 KB |
| 59 | Optical Character Recognition | 2440 (9280) | 245F (9311) | 32 | 11 | 21 | 11 / Y | 11 | 0 | 0 | 0 | 0 | 4,1 KB |
| 60 | Enclosed Alphanumerics | 2460 (9312) | 24FF (9471) | 160 | 160 | 0 | 160 / Y | 139 | 0 | 0 | 20 | 1 | 32,5 KB |
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | NET | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 61 | Box Drawing | 2500 (9472) | 257F (9599) | 128 | 128 | 0 | 128 / Y | 128 | 0 | 0 | 0 | 0 | 27,8 KB |
| 62 | Block Elements | 2580 (9600) | 259F (9631) | 32 | 32 | 0 | 32 / Y | 22 | 0 | 0 | 10 | 0 | 8,1 KB |
| 63 | Geometric Shapes | 25A0 (9632) | 25FF (9727) | 96 | 96 | 0 | 96 / Y | 80 | 8 | 0 | 8 | 0 | 20,4 KB |
| 64 | Miscellaneous Symbols | 2600 (9728) | 26FF (9983) | 256 | 145 | 111 | 145 / Y | 106 | 3 | 0 | 24 | 12 | 28,1 KB |
| 65 | Dingbats | 2700 (9984) | 27BF (10175) | 192 | 174 | 18 | 174 / Y | 160 | 0 | 0 | 14 | 0 | 36 KB |
| 66 | Miscellaneous Mathematical Symbols-A | 27C0 (10176) | 27EF (10223) | 48 | 28 | 20 | 28 / Y | 0 | 0 | 0 | 28 | 0 | 7,7 KB |
| 67 | Supplemental Arrows-A | 27F0 (10224) | 27FF (10239) | 16 | 16 | 0 | 16 / Y | 0 | 0 | 0 | 16 | 0 | 5,2 KB |
| 68 | Braille Patterns | 2800 (10240) | 28FF (10495) | 256 | 256 | 0 | 256 / Y | 0 | 256 | 0 | 0 | 0 | 50,1 KB |
| 69 | Supplemental Arrows-B | 2900 (10496) | 297F (10623) | 128 | 128 | 0 | 128 / Y | 0 | 0 | 0 | 128 | 0 | 28 KB |
| 70 | Miscellaneous Mathematical Symbols-B | 2980 (10624) | 29FF (10751) | 128 | 128 | 0 | 128 / Y | 0 | 0 | 0 | 128 | 0 | 26,9 KB |
| 71 | Supplemental Mathematical Operators | 2A00 (10752) | 2AFF (11007) | 256 | 256 | 0 | 256 / Y | 0 | 0 | 0 | 256 | 0 | 51,7 KB |
| 72 | Miscellaneous Symbols and Arrows | 2B00 (11008) | 2BFF (11263) | 256 | 14 | 242 | 14 / Y | 0 | 0 | 0 | 0 | 14 | 4,8 KB |
| No_Block (unused) |
| 73 | CJK Radicals Supplement | 2E80 (11904) | 2EFF (12031) | 128 | 115 | 13 | 115 / Y | 0 | 115 | 0 | 0 | 0 | 23,4 KB |
| 74 | Kangxi Radicals | 2F00 (12032) | 2FDF (12255) | 224 | 214 | 10 | 214 / Y | 0 | 214 | 0 | 0 | 0 | 41,4 KB |
| No_Block (unused) |
| 75 | Ideographic Description Characters | 2FF0 (12272) | 2FFF (12287) | 16 | 12 | 4 | 12 / Y | 0 | 12 | 0 | 0 | 0 | 4,8 KB |
| 76 | CJK Symbols and Punctuation | 3000 (12288) | 303F (12351) | 64 | 64 | 0 | 64 / Y | 57 | 4 | 0 | 3 | 0 | 15,1 KB |
| 77 | Hiragana | 3040 (12352) | 309F (12447) | 96 | 93 | 3 | 93 / Y | 90 | 0 | 0 | 3 | 0 | 19,3 KB |
| 78 | Katakana | 30A0 (12448) | 30FF (12543) | 96 | 96 | 0 | 95 / Y | 94 | 0 | 0 | 2 | 0 | 19,8 KB |
| 79 | Bopomofo | 3100 (12544) | 312F (12591) | 48 | 40 | 8 | 40 / Y | 40 | 0 | 0 | 0 | 0 | 9,2 KB |
| 80 | Hangul Compatibility Jamo | 3130 (12592) | 318F (12687) | 96 | 94 | 2 | 94 / Y | 94 | 0 | 0 | 0 | 0 | 19,5 KB |
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | NET | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 81 | Kanbun | 3190 (12688) | 319F (12703) | 16 | 16 | 0 | 16 / Y | 16 | 0 | 0 | 0 | 0 | 5,2 KB |
| 82 | Bopomofo Extended | 31A0 (12704) | 31BF (12735) | 32 | 24 | 8 | 24 / Y | 0 | 24 | 0 | 0 | 0 | 6,5 KB |
| No_Block (unused) |
| 83 | Katakana Phonetic Extensions | 31F0 (12784) | 31FF (12799) | 16 | 16 | 0 | 16 / Y | 0 | 0 | 0 | 16 | 0 | 5,2 KB |
| 84 | Enclosed CJK Letters and Months | 3200 (12800) | 32FF (13055) | 256 | 241 | 15 | 241 / Y | 202 | 0 | 0 | 30 | 9 | 47,4 KB |
| 85 | CJK Compatibility | 3300 (13056) | 33FF (13311) | 256 | 256 | 0 | 256 / Y | 249 | 0 | 0 | 0 | 7 | 48,6 KB |
| 86 | CJK Unified Ideographs Extension A | 3400 (13312) | 4DBF (19903) | 6592 | 6582 | 10 | 2 / Y | 0 | 6582 | 0 | 0 | 0 | 2,6 KB |
| 87 | Yijing Hexagram Symbols | 4DC0 (19904) | 4DFF (19967) | 64 | 64 | 0 | 64 / Y | 0 | 0 | 0 | 0 | 64 | 14,2 KB |
| 88 | CJK Unified Ideographs | 4E00 (19968) | 9FFF (40959) | 20992 | 20902 | 90 | 2 / Y | 20902 | 0 | 0 | 0 | 0 | 2,5 KB |
| 89 | Yi Syllables | A000 (40960) | A48F (42127) | 1168 | 1165 | 3 | 1164 / Y | 0 | 1165 | 0 | 0 | 0 | 209,4 KB |
| 90 | Yi Radicals | A490 (42128) | A4CF (42191) | 64 | 55 | 9 | 55 / Y | 0 | 50 | 0 | 5 | 0 | 11,8 KB |
| No_Block (unused) |
| 91 | Hangul Syllables | AC00 (44032) | D7AF (55215) | 11184 | 11172 | 12 | 2 / Y | 11172 | 0 | 0 | 0 | 0 | 2,5 KB |
| No_Block (unused) |
| 92 | High Surrogates | D800 (55296) | DB7F (56191) | 896 | 896 | 0 | 2 / Y | 896 | 0 | 0 | 0 | 0 | 2,5 KB |
| 93 | High Private Use Surrogates | DB80 (56192) | DBFF (56319) | 128 | 128 | 0 | 2 / Y | 128 | 0 | 0 | 0 | 0 | 2,6 KB |
| 94 | Low Surrogates | DC00 (56320) | DFFF (57343) | 1024 | 1024 | 0 | 2 / Y | 1024 | 0 | 0 | 0 | 0 | 2,5 KB |
| 95 | Private Use Area | E000 (57344) | F8FF (63743) | 6400 | 6400 | 0 | 2 / Y | 6400 | 0 | 0 | 0 | 0 | 2,5 KB |
| 96 | CJK Compatibility Ideographs | F900 (63744) | FAFF (64255) | 512 | 361 | 151 | 361 / Y | 302 | 0 | 0 | 59 | 0 | 72,4 KB |
| 97 | Alphabetic Presentation Forms | FB00 (64256) | FB4F (64335) | 80 | 58 | 22 | 58 / Y | 57 | 1 | 0 | 0 | 0 | 13,6 KB |
| 98 | Arabic Presentation Forms-A | FB50 (64336) | FDFF (65023) | 688 | 595 | 93 | 595 / Y | 593 | 0 | 0 | 1 | 1 | 125,8 KB |
| 99 | Variation Selectors | FE00 (65024) | FE0F (65039) | 16 | 16 | 0 | 16 / Y | 0 | 0 | 0 | 16 | 0 | 5,1 KB |
| No_Block (unused) |
| 100 | Combining Half Marks | FE20 (65056) | FE2F (65071) | 16 | 4 | 12 | 4 / Y | 4 | 0 | 0 | 0 | 0 | 2,9 KB |
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | NET | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 101 | CJK Compatibility Forms | FE30 (65072) | FE4F (65103) | 32 | 32 | 0 | 32 / Y | 28 | 0 | 0 | 2 | 2 | 9,1 KB |
| 102 | Small Form Variants | FE50 (65104) | FE6F (65135) | 32 | 26 | 6 | 26 / Y | 26 | 0 | 0 | 0 | 0 | 7,3 KB |
| 103 | Arabic Presentation Forms-B | FE70 (65136) | FEFF (65279) | 144 | 141 | 3 | 141 / Y | 140 | 0 | 0 | 1 | 0 | 29,9 KB |
| 104 | Halfwidth and Fullwidth Forms | FF00 (65280) | FFEF (65519) | 240 | 225 | 15 | 224 / Y | 223 | 0 | 0 | 2 | 0 | 46,3 KB |
| 105 | Specials | FFF0 (65520) | FFFF (65535) | 16 | 5 | 11 | 5 / Y | 2 | 3 | 0 | 0 | 0 | 3,1 KB |
| ∑ | 61424 | 59177 | 2247 | 12068 | 47400 | 10307 | 2 | 1016 | 452 |
|
1.2 Codepunkte oberhalb der basic multilingual plane > FFFF
| Nr | Blockname | Beginn (hex/int) | Ende (hex/int) | Blocklänge | def | Cn | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 |
|---|
| 106 | Linear B Syllabary | 10000 (65536) | 1007F (65663) | 128 | 88 | 40 | 0 | 0 | 0 | 0 | 88 |
| 107 | Linear B Ideograms | 10080 (65664) | 100FF (65791) | 128 | 123 | 5 | 0 | 0 | 0 | 0 | 123 |
| 108 | Aegean Numbers | 10100 (65792) | 1013F (65855) | 64 | 57 | 7 | 0 | 0 | 0 | 0 | 57 |
| 109 | Old Italic | 10300 (66304) | 1032F (66351) | 48 | 35 | 13 | 0 | 0 | 35 | 0 | 0 |
| 110 | Gothic | 10330 (66352) | 1034F (66383) | 32 | 27 | 5 | 0 | 0 | 27 | 0 | 0 |
| 111 | Ugaritic | 10380 (66432) | 1039F (66463) | 32 | 31 | 1 | 0 | 0 | 0 | 0 | 31 |
| 112 | Deseret | 10400 (66560) | 1044F (66639) | 80 | 80 | 0 | 0 | 0 | 76 | 0 | 4 |
| 113 | Shavian | 10450 (66640) | 1047F (66687) | 48 | 48 | 0 | 0 | 0 | 0 | 0 | 48 |
| 114 | Osmanya | 10480 (66688) | 104AF (66735) | 48 | 40 | 8 | 0 | 0 | 0 | 0 | 40 |
| 115 | Cypriot Syllabary | 10800 (67584) | 1083F (67647) | 64 | 55 | 9 | 0 | 0 | 0 | 0 | 55 |
| 116 | Byzantine Musical Symbols | 1D000 (118784) | 1D0FF (119039) | 256 | 246 | 10 | 0 | 0 | 246 | 0 | 0 |
| 117 | Musical Symbols | 1D100 (119040) | 1D1FF (119295) | 256 | 219 | 37 | 0 | 0 | 219 | 0 | 0 |
| 118 | Tai Xuan Jing Symbols | 1D300 (119552) | 1D35F (119647) | 96 | 87 | 9 | 0 | 0 | 0 | 0 | 87 |
| 119 | Mathematical Alphanumeric Symbols | 1D400 (119808) | 1D7FF (120831) | 1024 | 992 | 32 | 0 | 0 | 991 | 0 | 1 |
| 120 | CJK Unified Ideographs Extension B | 20000 (131072) | 2A6DF (173791) | 42720 | 2 | 42718 | 0 | 0 | 2 | 0 | 0 |
| 121 | CJK Compatibility Ideographs Supplement | 2F800 (194560) | 2FA1F (195103) | 544 | 542 | 2 | 0 | 0 | 542 | 0 | 0 |
| 122 | Tags | E0000 (917504) | E007F (917631) | 128 | 97 | 31 | 0 | 0 | 97 | 0 | 0 |
| 123 | Variation Selectors Supplement | E0100 (917760) | E01EF (917999) | 240 | 240 | 0 | 0 | 0 | 0 | 0 | 240 |
| 124 | Supplementary Private Use Area-A | F0000 (983040) | FFFFF (1048575) | 65536 | 2 | 65534 | 0 | 2 | 0 | 0 | 0 |
| 125 | Supplementary Private Use Area-B | 100000 (1048576) | 10FFFF (1114111) | 65536 | 2 | 65534 | 0 | 2 | 0 | 0 | 0 |
| ∑ | 177008 | 3013 | 173995 | 0 | 4 | 2235 | 0 | 774 |
2. Unicode - Kategorien - General Category Values
Die folgende Tabelle fasst die Unicode-Kategorien zusammen. Auf die Spalten der Kurz- und Langformen folgen Angaben,
wie häufig Zeichen dieser Kategorie im 2-Byte bzw. im 4-Byte - Zeichensatz auftreten, ferner die Gesamtsumme. Die durch den
Link erreichbaren Einzelauflistungen stellen, quer über alle Blöcke, alle Zeichen dieser Kategorie zusammen und enthalten
Links zu den Blockdateien. Hierbei sind nur die Zeichen der base multilingual plane berücksichtigt.
Die Spalte 'NET-Id' enthält die Zahldarstellung dieser Kategorie innerhalb .NET, welche mit der Char.GetUnicodeCategory() - Methode
zu jedem Zeichen ermittelt werden kann. Die Kurzformen der Kategorien können in RegEx-patterns verwendet werden: \p{Mn} findet alle
Zeichen ohne horizontalen Vorschub.
| Nr | Kurzform | engl. Langform | <= FFFF | > FFFF | Gesamt | NET | NET-Id | 2.1 | 3.0 | 3.1 | 3.2 | 4.0 | Größe |
|---|
| 1 | Lu | Letter, Uppercase | 707 | 483 | 1190 | 707 | 0 | 665 | 21 | 482 | 17 | 5 | 96,6 KB |
| 2 | Ll | Letter, Lowercase | 886 | 529 | 1415 | 885 | 1 | 774 | 30 | 527 | 19 | 65 | 120,6 KB |
| 3 | Lt | Letter, Titlecase | 31 | 0 | 31 | 31 | 2 | 31 | 0 | 0 | 0 | 0 | 6,4 KB |
| 4 | Lm | Letter, Modifier | 114 | 0 | 114 | 114 | 3 | 56 | 3 | 0 | 1 | 54 | 16,5 KB |
| 5 | Lo | Letter, Other | 5463 | 975 | 6438 | 5462 | 4 | 2544 | 2684 | 601 | 155 | 454 | 687,6 KB |
| 6 | Mn | Mark, Nonspacing | 530 | 262 | 792 | 530 | 5 | 351 | 99 | 22 | 46 | 274 | 69 KB |
| 7 | Mc | Mark, Spacing Combining | 131 | 8 | 139 | 131 | 6 | 84 | 31 | 8 | 0 | 16 | 17,9 KB |
| 8 | Me | Mark, Enclosing | 10 | 0 | 10 | 10 | 7 | 5 | 4 | 0 | 1 | 0 | 2,8 KB |
| 9 | Nd | Number, Decimal Digit | 208 | 60 | 268 | 199 | 8 | 159 | 39 | 50 | 0 | 20 | 26,7 KB |
| 10 | Nl | Number, Letter | 52 | 1 | 53 | 51 | 9 | 45 | 7 | 1 | 0 | 0 | 7,9 KB |
| 11 | No | Number, Other | 242 | 49 | 291 | 242 | 10 | 170 | 11 | 4 | 50 | 56 | 32,5 KB |
| 12 | Pc | Punctuation, Connector | 12 | 0 | 12 | 10 | 18 | 11 | 0 | 0 | 0 | 1 | 3,1 KB |
| 13 | Pd | Punctuation, Dash | 17 | 0 | 17 | 17 | 19 | 14 | 2 | 0 | 1 | 0 | 3,8 KB |
| 14 | Ps | Punctuation, Open | 65 | 0 | 65 | 64 | 20 | 37 | 1 | 0 | 26 | 1 | 10,8 KB |
| 15 | Pe | Punctuation, Close | 64 | 0 | 64 | 63 | 21 | 36 | 1 | 0 | 26 | 1 | 10,8 KB |
| 16 | Pi | Punctuation, Initial quote | 6 | 0 | 6 | 6 | 22 | 6 | 0 | 0 | 0 | 0 | 2,3 KB |
| 17 | Pf | Punctuation, Final quote | 4 | 0 | 4 | 4 | 23 | 4 | 0 | 0 | 0 | 0 | 2 KB |
| 18 | Po | Punctuation, Other | 199 | 3 | 202 | 198 | 24 | 127 | 56 | 0 | 12 | 7 | 26,4 KB |
| 19 | Sm | Symbol, Math | 889 | 10 | 899 | 889 | 25 | 299 | 0 | 10 | 590 | 0 | 116,2 KB |
| 20 | Sc | Symbol, Currency | 36 | 0 | 36 | 36 | 26 | 27 | 4 | 0 | 3 | 2 | 5,9 KB |
| 21 | Sk | Symbol, Modifier | 74 | 0 | 74 | 74 | 27 | 52 | 5 | 0 | 0 | 17 | 10,8 KB |
| 22 | So | Symbol, Other | 2221 | 524 | 2745 | 2220 | 28 | 1285 | 720 | 427 | 64 | 249 | 281,4 KB |
| 23 | Zs | Separator, Space | 18 | 0 | 18 | 18 | 11 | 14 | 3 | 0 | 1 | 0 | 3,9 KB |
| 24 | Zl | Separator, Line | 1 | 0 | 1 | 1 | 12 | 1 | 0 | 0 | 0 | 0 | 1,5 KB |
| 25 | Zp | Separator, Paragraph | 1 | 0 | 1 | 1 | 13 | 1 | 0 | 0 | 0 | 0 | 1,5 KB |
| 26 | Cc | Other, Control | 65 | 0 | 65 | 65 | 14 | 65 | 0 | 0 | 0 | 0 | 8,7 KB |
| 27 | Cf | Other, Format | 33 | 105 | 138 | 32 | 15 | 19 | 6 | 105 | 4 | 4 | 5,6 KB |
| 28 | Cs | Other, Surrogate | 6 | 0 | 6 | 6 | 16 | 6 | 0 | 0 | 0 | 0 | 2,3 KB |
| 29 | Co | Other, Private Use | 2 | 4 | 6 | 2 | 17 | 2 | 4 | 0 | 0 | 0 | 1,6 KB |
| 30 | Cn | Other, Not Assigned | 2247 | 173995 | 176242 | 2 | 29 | 0 | 0 | 0 | 0 | 0 | no file |
|
| ∑ | 14334 | 177008 | 191342 | 12068 |
|
3. Zusätzliche Eigenschaften / Properties, die Codepunkte zusammenfassen
Diese Tabelle enthält zusätzliche Eigenschaften, die nur für einige Zeichen definiert sind. Jeder Codepunkt gehört zu
genau einem Block und einer Kategorie, muß jedoch keine oder kann mehrere erweiterte Properties haben.
| Nr | Property | Anmerkung | Anzahl | Größe |
| 1 | Bidi_Control | Elemente der Other, Format-Kategorie mit spezieller Bedeutung innerhalb des bidirektionalen Algorithmus | 7 | 3,2 KB |
| 2 | Join_Control | Formatkontroll-Zeichen | 2 | 2,3 KB |
| 3 | Dash | Alle Zeichen, die als Gedankenstrich / Minuszeichen / Dash in Unicode verwendet werden, einschließlich äquivalenter Darstellungen. Die meisten gehören zu Punctuation, Dash bzw. zum Block General Punctuation, manche stammen aus anderen Bereichen | 20 | 6,6 KB |
| 4 | Hyphen | Jene als Dash verwendete Zeichen, die eine Verbindung zwischen zwei Worten kennzeichnen sowie der 'KATAKANA MIDDLE DOT' | 10 | 4,7 KB |
| 5 | Quotation_Mark | Zeichen, die als Anführungszeichen verwendet werden können. Eine genauere Aufteilung in öffnende und schließende Anführungszeichen wird durch die Kategorien Pi und Pf bereitgestellt | 29 | 8,2 KB |
| 6 | Terminal_Punctuation | Zeichen, die das Ende textueller Einheiten markieren, einen Satz abschließen | 86 | 18 KB |
| 7 | Other_Math | sonstige mathematische Zeichen | 117 | 23,7 KB |
| 8 | Hex_Digit | Zeichen für hexadezimale Zahlen (ASCII_Hex_Digit) und äquivalente Darstellungen aus anderen Blöcken | 44 | 9,3 KB |
| 9 | ASCII_Hex_Digit | ASCII-Zeichen, die für die Darstellung hexadezimaler Zahlen verwendet werden | 22 | 5,6 KB |
| 10 | Other_Alphabetic | weitere alphabetische Zeichen | 428 | 73 KB |
| 11 | Diacritic | Zeichen, welche die Bedeutung eines anderen Zeichens modifizieren, dem sie zugeordnet sind. Manche diakritischen Zeichen sind keine Kombinationszeichen, manche Kombinationszeichen sind keine diakritischen Zeichen | 454 | 78,9 KB |
| 12 | Extender | Zeichen, die den Wert oder die Form eines voranstehenden alphabetischen Zeichens erweitern | 19 | 6,5 KB |
| 13 | Other_Lowercase | andere Kleinbuchstaben | 114 | 21,7 KB |
| 14 | Other_Uppercase | andere Großbuchstaben | 42 | 9,1 KB |
| 15 | Noncharacter_Code_Point | Codepunkte, die explizit für die Codierung von Zeichen verboten sind. Diesen Codepunkten ist weder Name noch Version zugeordnet, sie fehlen in der UnicodeData.txt | 34 | 6 KB |
| 16 | Other_Grapheme_Extend | Weitere Zeichen, um die Eigenschaft Grapheme_Extend zu bilden. Wird genutzt, um die Grenzen von graphischer Zeichen, damit die Textgrenzen zu bestimmen | 15 | 5,2 KB |
| 17 | Grapheme_Link | wird verwendet, um bei Default-Graphemen die Textgrenzen zu bestimmen | 14 | 5,7 KB |
| 18 | IDS_Binary_Operator | verwendet in 'Ideographic Description Sequences' | 10 | 4,1 KB |
| 19 | IDS_Trinary_Operator | verwendet in 'Ideographic Description Sequences' | 2 | 2,5 KB |
| 20 | Radical | verwendet in 'Ideographic Description Sequences' | 329 | 54 KB |
| 21 | Other_Default_Ignorable_Code_Point | Codepunkte, die von verarbeitenden Programmen bei der Ermittlung der Textgrenzen ignoriert werden dürfen | 21 | 5,8 KB |
| 22 | Deprecated | Veraltete Zeichen. Diese werden niemals aus dem Standard entfernt, sie sollten jedoch nicht mehr genutzt werden | 10 | 4,1 KB |
| 23 | Soft_Dotted | Zeichen mit einem 'soft dot' wie i oder j. Ein Accent auf diese Zeichen sollte den Punkt verschwinden lassen | 15 | 6 KB |
| 24 | Logical_Order_Exception | einige wenige Zeichen (Thai, Lao), für die Ausnahmen bei der Ordnung notwendig sind | 10 | 3,8 KB |
| 25 | Other_ID_Start | Sonstige Identifier-Startzeichen, also Zeichen, mit welchen Namen beginnen dürfen. Die Gesamtmenge aller Startzeichen umfaßt zu dieser Menge Lu + Ll + Lt + Lm + Lo + Nl, als ID_Continue (folgende Zeichen in Namen) sind Mn + Mc + Nd + Pc erlaubt | 4 | 2,9 KB |
| 26 | STerm | Sentence Terminal | 36 | 9,4 KB |
| 27 | Variation_Selector | spezielle Bedeutung | 19 | 5,3 KB |
4. Eigenschaften in bezug auf den bidirektionalen Algorithmus (Bidi-Class)
Der bidirektionale Algorithmus legt fest, wie Zeichen verschiedener Schriftrichtung (links-rechts versus rechts-links)
verarbeitet werden und wie im Fall von gemischten Texten zu verfahren ist. Dies deckt jene Probleme ab, welche bei Zitaten
(Englisch mit eingebettetem Hebräisch u.ä.) auftreten können. Jedem Codepunkt ist genau eine der 19 Eigenschaften
zugeordnet. Für die Bidi-Klassen 'L' und 'ON' wurde keine Datei erstellt, da die Ausgaben extrem groß geworden wäre. Die Bidi-Klassen
sind ebenfalls in der Blockdarstellung enthalten.
| Nr | Bidi-Class | Beschreibung | Typ | Anzahl | Größe |
| 1 | AL | Right-to-Left Arabic | strong | 978 | 170,9 KB |
| 2 | AN | Arabic Number | weak | 12 | 4 KB |
| 3 | B | Paragraph Separator | neutral | 7 | 3,5 KB |
| 4 | BN | Boundary Neutral | weak | 71 | 13,2 KB |
| 5 | CS | Common Number Separator | weak | 13 | 4,9 KB |
| 6 | EN | European Number | weak | 70 | 13,7 KB |
| 7 | ES | European Number Separator | weak | 3 | 2,9 KB |
| 8 | ET | European Number Terminator | weak | 61 | 13,7 KB |
| 9 | L | Left-to-Right | strong | 7519 | no file |
| 10 | LRE | Left-to-Right Embedding | strong | 1 | 2,3 KB |
| 11 | LRO | Left-to-Right Override | strong | 1 | 2,2 KB |
| 12 | NSM | Non-Spacing Mark | weak | 541 | 91,9 KB |
| 13 | ON | Other Neutrals | neutral | 2705 | no file |
| 14 | PDF | Pop Directional Format | weak | 1 | 2,3 KB |
| 15 | R | Right-to-Left | strong | 80 | 15,3 KB |
| 16 | RLE | Right-to-Left Embedding | strong | 1 | 2,3 KB |
| 17 | RLO | Right-to-Left Override | strong | 1 | 2,2 KB |
| 18 | S | Segment Separator | neutral | 3 | 2,5 KB |
| 19 | WS | Whitespace | neutral | 19 | 5,8 KB |
5. Anmerkungen zu den Einzeldarstellungen
- Die teils sehr großen Blöcke CJK Unified Ideographs, CJK Unified Ideographs Extension A sowie Hangul Syllables
wurden nicht verarbeitet. Der Bereich von #xD800 bis #xF8FF (Surrogat-Zeichen und privater Bereich) entfällt, da dieser
Bereich keine darstellbaren Zeichen enthält.
- Die Codierung der dargestellten Zeichen erfolgt immer in der Form &#x[Unicode-Word]; als Character-Entity, die Dateien
sind durchweg UTF-8 und enthalten keine Sonderzeichen. Der Font 'Arial Unicode MS' unterstützt alle Definitionen von Unicode-2.1.
Jeder Blockdatei wurde eine kleine Statistik angefügt, welche die absolute und relative Häufigkeit der Zeichen dieses Blocks
aufgeteilt auf die Kategorien auflistet. Hier sind die ausführlichen Namen der Kategorien aufgeführt, in den Tabellen wird
nur der aus zwei Zeichen bestehende Kurzname verwendet.
- In den Blockdateien sind die Kategorien als Link gestaltet. Diese Links sollten erst dann genutzt werden, wenn
zuvor die Größen der einzelnen Kategorie-Dateien beachtet wurde. Diese Warnung gilt insbesondere für
die Kategorien Lo und So. Die weiteren Einzeldarstellungen (Kategorien, weitere Properties und
Bidi-Klasse) sind nach Blöcken sortiert. Um diese 30 Dateien nicht unnötig
zu vergrößern, wurde nur dem jeweils ersten Eintrag eines Blocks ein Link in die zugeordnete Blockdatei zugewiesen.
- Jede Einzeldarstellung enthält oben rechts einen individuelle Rücksprung zur Hauptseite. Dieser Link verweist auf die Zeile,
welche die übergeordneten Informationen zur Einzeldarstellung enthält.
6. Copyright
- Die der Unicode-Datenbank zugrundeliegenden Rohdaten (DATA FILES) stammen von www.unicode.org/Public/UNIDATA/UCD.html,
verwendet wurde die Version 4.0.1. Für diese liegt das Copyright bei Unicode.org, siehe LICENSE AGREEMENT - DATA FILES AND SOFTWARE.
- Die Daten wurden im wesentlichen unverändert übernommen. Ausgenommen sind die folgenden drei Anpassungen:
- Für 33 Zeichen von Basic Latin sowie 32 Zeichen von Latin-1 Supplement wurde nicht die unspezifische
Bezeichnung <control> aus der UnicodeData.txt (Feld 'Name'), sondern der ältere Unicode_1_Name aus der Version
1.0 (Feld 'Unicode_1_Name') in die Detaildarstellung übernommen. Dieses Feld enthält für die Steuerzeichen jene
bekannten Namen wie 'Line Feed' oder 'NEL', die 65 hierdurch veränderten Ausdrücke sind durch ein angehängtes '*'
kenntlich gemacht.
- Zur Ermittlung der Version wurden die UnicodeData.txt-Dateien der Versionen 2.1-3.2 herangezogen.
Die DerivedAge.txt wurde anschließend zur Kontrolle genutzt.
- Zeichen der Klasse Mn (Mark, Nonspacing), die zu den diakritischen Zeichen gehören, wurden ein 'a'
vorangestellt, um die Kombination aus Basiszeichen und Kombinationszeichen sichtbar zu machen. Eine Einfügung nur mit
umgebenden Leerzeichen führt dazu, daß nichts angezeigt wird. Zeichen, die als WhiteSpace fungieren, wurden mit
umgebendem A/B eingefügt, damit die Breite des Leerraums sichtbar wird.
- Die Unicode-Datenbank existiert nur in einer Html-Version. Auf eine Xml-Version wurde, im Gegensatz zu den sonstigen Seiten
der Domain, verzichtet. Die Steuerzeichen der Klasse Cc (Other, Control) wurden nicht als Entities
ausgegeben, da das Resultat kein korrektes XHtml1.1 wäre.
- Das Copyright für die Darstellung und Aufbereitung liegt bei Jürgen Auer. Die Darstellung wurde angefertigt, um
einfach testen zu können, welche Zeichen auf welchem Browser mittels üblichen Unicode-Codierung angezeigt werden können,
um Zeichengruppen in einer Tabelle darzustellen, die über diverse Blöcke verstreut sind sowie um Möglichkeiten anzubieten,
welche Zeichen in RegEx-patterns durch Klassen- oder Blocknamen ausgewählt werden können. In Ergänzung zu den
Nutzungsbedingungen im Impressum gilt: Es ist nicht gestattet,
die Informationen maschinell auszulesen bzw. Details zu extrahieren, um diese auf eine neue Weise unter eigenem Copyright
anzubieten.
- Copyright der Offline-Variante:
- Sie dürfen diese Unicode-Datenbank, analog zur Online-Variante, beruflich, privat und für Lehrtätigkeiten einschließlich
kommerzieller Schulungen nutzen.
- Sie dürfen die Unicode-Datenbank in unveränderter Form kostenlos kopieren und weitergeben.
- Die Unicode-Datenbank darf auf kostenlosen oder kostenpflichtigen CDRoms und ähnlichen Softwaresammlungen vertrieben werden.
Bei kostenpflichtigen Angeboten (für eigene EDV-Kunden, Leser der Zeitschrift) muß die Unicode-Datenbank Teil einer größeren Sammlung wie
'Informationen für die eigene Homepage' o.ä. sein. Bei nicht kommerziellen Angeboten kann die Unicode-Datenbank der einzigste
Inhalt des Datenträgers sein.
Falls Sie diese Informationen nützlich finden, können Sie die aktuelle Seite gerne verlinken. Kopieren Sie den untenstehenden
Code in Ihren Quelltext oder passen Sie den Linktext Ihren Bedürfnissen an.
<a href='http://www.sql-und-xml.de/unicode-database/'>Unicode-Datenbank</a>
© 2003-2009 Jürgen Auer, Berlin