Quanti caratteri non stampabili sono di uso comune?
-
06-07-2019 - |
Domanda
Quando si scrivono interpreti per PDF, HTML e altri documenti, è necessario gestire una varietà di caratteri di spazi bianchi e caratteri aggiuntivi non stampabili. Quelli ANSI sono ben definiti, ma quanti altri probabilmente si troveranno nella pratica? Un esempio tipico è il cluster in ISO10646 (credo):
    en space
    em space
    thin space
‌ ‌ zero width non-joiner
‍ ‍ zero width joiner
‎ ‎ left-to-right mark
‏ ‏ right-to-left mark
(Per ovvi motivi i personaggi non appaiono sopra!).
Soluzione
Unicode sarà con noi, in quantità crescente, per lungo tempo. Se un documento HTML o XML è scritto in Unicode codificato UTF-8, dovresti aspettarti che vengano visualizzati tutti questi elementi.
In Unicode (Unicode Character Database) i seguenti punti di codice sono definiti come spazi bianchi:
U+0009–U+000D (control characters, containing Tab, CR and LF)
U+0020 SPACE
U+0085 NEL (control character next line)
U+00A0 NBSP (NO-BREAK SPACE)
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
U+2000–U+200A (different sorts of spaces)
U+2028 LS (LINE SEPARATOR)
U+2029 PS (PARAGRAPH SEPARATOR)
U+202F NNBSP (NARROW NO-BREAK SPACE)
U+205F MMSP (MEDIUM MATHEMATICAL SPACE)
U+3000 IDEOGRAPHIC SPACE
Altri suggerimenti
Nel mondo dello sviluppo ce n'è almeno un altro (più spesso usato nello sviluppo web)
// non-breaking space
Ma più si arriva al mondo del design, più si vedono vari personaggi spazio / invisibili . Il software di pubblicazione normalmente ha
- spazio: lo SPAZIO normale
- en space
- em space
- spazio sottile
- spazio per capelli
- spazio ininterrotto
- spazio a larghezza fissa senza interruzioni
- sesto spazio
- spazio quarto
- terzo spazio
- spazio di punteggiatura
- flush space
- figura spazio
- ...