Frage

Ich bin neu Unicode zu lernen, und nicht sicher, wie viel ich habe auf Grund meiner ASCII Hintergrund lernen, aber ich lese die C # spec auf Regeln für Bezeichner zu bestimmen, welche Zeichen im Azure Table (die auf der C # spec direkt basiert).

Wo finde ich eine Liste von Unicode-Zeichen finden, die in diese Kategorien fallen:

  • letter-character: Ein Unicode-Zeichen der Klassen Lu, Ll, Lt, Lm, Lo oder Nl
  • combining-character: Ein Unicode-Zeichen von Klassen Mn oder Mc
  • decimal-digit-character: Ein Unicode-Zeichen der Klasse Nd
  • connecting-character: Ein Unicode-Zeichen der Klasse Pc
  • formatting-character: Ein Unicode-Zeichen der Klasse Cf
War es hilfreich?

Lösung

Sie können diese Informationen in einer automatisierten Weise von der offiziellen Unicode-Datendatei, UnicodeData.txt, abrufen, die hier veröffentlicht wird:

Dies ist eine Datei mit Semikolon getrennte Werte in jeder Zeile. Die dritte Spalte zeigt Ihnen die Zeichenklasse der einzelnen Zeichen.

Der Vorteil davon ist, dass Sie die Charakternamen für jedes Zeichen zu bekommen, so dass Sie eine bessere Vorstellung davon, was es ist, als nur um auf dem Charakter der Suche selbst (zB würden Sie wissen, was ? ist? Das ist richtig, es ist Ban. In Georgien. :-))

Andere Tipps

FileFormat.info hat eine Liste von Unicode-Zeichen nach Kategorie:

http://www.fileformat.info/info/unicode/category/ index.htm

Sie können natürlich die Verwendung von LINQ:

var charInfo = Enumerable.Range(0, 0x110000)
                         .Where(x => x < 0x00d800 || x > 0x00dfff)
                         .Select(char.ConvertFromUtf32)
                         .GroupBy(s => char.GetUnicodeCategory(s, 0))
                         .ToDictionary(g => g.Key);

foreach (var ch in charInfo[UnicodeCategory.LowercaseLetter])
{
    Console.Write(ch);
}

Sie können eine Liste von Unicode-Kategorien und deren Kurznamen auf MSDN , zB "Ll" ist die Abkürzung für UnicodeCategory.LowercaseLetter .

In der ANTLR Lexer finden Unicode-Zeichensätze (LU, LL, LT, LM und LO) in bequemer Reichweite Format.

https://www.compart.com/en/unicode/category ist eine ziemlich nützlich und einfach zu bedienende Website, die Kategorien für das Surfen. Es ist durchsuchbar und Listen ziemlich viele Informationen über einzelne Unicode-Zeichen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top