Frage

Ich möchte Grundlagen der Codierungen, Zeichen und Text lernen. diese zu verstehen, ist wichtig für die mit einer großen Menge von Text zu tun, ob die Protokolldateien oder Textquelle sind für Algorithmen für kollektive Intelligenz zu bauen. Mein aktuelles Wissen ist ziemlich einfach: „Solange ich UTF-8, ich bin okay“ so etwas wie

Ich sage nicht, ich brauche sofort über fortgeschrittene Themen zu erfahren. Aber ich muss wissen:

  • Bit und Bytes Ebene Kenntnisse der Kodierungen.
  • Charaktere und Alphabete nicht in englischer Sprache verwendet.
  • Multi-Byte-Codierung. (Ich verstehe einige Chinesisch und Japanisch. Und das Parsen ihnen wichtig ist.)
  • Reguläre Ausdrücke.
  • Algorithmus für die Textverarbeitung.
  • Parsing natürlicher Sprachen.

Ich brauche auch ein Verständnis für Mathematik und Korpuslinguistik. Die aktuelle und zukünftige Web (semantisches, intelligent, Echtzeit-Web) muss die Verarbeitung, Parsen und großen Text zu analysieren.

Ich bin auf der Suche für einige Ressourcen (vielleicht Bücher?), Die mich mit einigen der Kugeln gestartet. (I viele hilfreiche Diskussion über reguläre Ausdrücke hier auf Stack-Überlauf. So finden, brauchen Sie keine Ressourcen zu diesem Thema vor.)

War es hilfreich?

Lösung

  • Neben Wikipedia, Joel Spolskys Artikel auf Codierung ist wirklich gut zu.
  • Dieser kostenlose Charakter Karte ist eine schöne Ressource für alle Unicode-Zeichen.
  • Der regulärer Ausdruck Tutorial kann hilfreich sein.
  • Speziell auf NLP und Japanisch , könnten Sie werfen Sie einen Blick auf diese japanischen NLP Projekt.
  • Ein Textverarbeitung , diese öffnen Source-Projekt kann nützlich sein.

Andere Tipps

Wie für die meisten allgemeinen üblich Fragen „ich über X Thema lernen wollen“, Wikipedia ist ein guter Anfang:

http://en.wikipedia.org/wiki/Character_encoding

http://en.wikipedia.org/wiki/Natural_language_processing

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top