理论："词编码"

https://stackoverflow.com/questions/170452

05-07-2019
|

题

我使用的术语"的词编码"为我缺乏一个更好的一个。

一个词可以说是基本的单元的通信而不是一封信。Unicode的尝试分配的一个数值的每个字母的所有已知的字母。是什么一封信以一种语言，是一个字到另一个。Unicode5.1分配超过100,000的价值观，以这些字形。出来的大约180,000单词被用在现代英语，就是说，有一个词汇的大约2,000字，你应该能够交流一般条款。一个"词编码"将编码的每个字每个字母，他们封在一个句子。

// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };

在这个例子中的每个标记的字符串中的编码作为一个整数。编码方案在这里只需指派一个int值基于普遍的统计排名字的使用情况，并分配一个常到这个问题的标志。

最终，一个单词有两个拼写和意义。任何"一词的编码"将保护的含义和意图的一句作为一个整体，而不是语言，特定的。英语句会被编码进入 "...语言中性原子元件的意义..." 然后可以被再造成任何语言与一个结构化的语法形式和语法结构。

什么是其他的例子"的词编码的"技术？

如果你们有兴趣在这里所说的使用情况统计数字来自：
http://www.wordcount.org

解决方案

他们是几个主要问题的这一思想。在大多数语言，一个词的含义，这个词与有意义的变化非常迅速。

不久你会有一些分配给一个字之前，这个词的含义会改变。例如，词语"同性恋"用来仅仅意味着"快乐"或"快乐"，但它现在使用主要的意思是同性恋。另一个例子是素"谢谢你"，这最初来自德国"丹科"，这是只是一个词。还有另一个例子是"再见"，这是一个缩短的"上帝保佑你们"。

另一个问题是，即使一个需要照一词在任何时间点的含义和使用的这个词会是根据竞争，甚至在同一个省。当词典正在编写，它是不是不常见的学者负责，以争论的单个词。

总之，你不能够做到这一点与一个现有的语言。你就必须考虑发明了一种语言的你自己，用于该目的，或使用相当静态的语言，已经发明，例如国际文或世界语。然而，即使这些不会是完善为目的的静态定义的词素在标准词汇。

甚至在中国，那里有粗糙的映射的角色要意义，它仍然不会的工作。许多人物改变其含义取决于这两个方面，并且其符的任之前或后缀。

问题是在其最糟糕的时候你试图与翻译之间的语言。可能有一个词在英语中，可用于各种情况下，但不能直接用在另一个语言。这样的一个例子是"免费"。在西班牙，无论是"自由"，意思是"免费"为在语音或"免费"的含义"免费"为在啤酒可以使用(和使用错词代替"免费"看起来非常有趣的).

有句话说它们是更加困难地方的一意义上，例如这个词的美丽在韩语；打电话时，一个美丽的女孩，将有几个候选替代；但是，当呼吁美食美丽的,除非你说的食物是很好看，有几个其他候选人，这是完全不同。

什么它下来，为尽管我们只使用约达到200词在英语中，我们的词汇表是实际上大在一些方面，因为我们分配给许多不同的含义，对同一个词。同样的问题适用于世界和国际文，和所有其他的语言有意义的对话。人类的语言不是一个良好的定义，以及油机。因此，虽然您可以创建这样的词汇，其中每个"单词"有它自己独特的意义，它将非常困难的，几乎不可能用机器使用的当前技术的转换，从任何人的语言到你的特殊标准化词汇。

这就是为什么机器翻译仍然很烂，并将很长一段时间来。如果你可以做的更好(我希望你可以)然后，你也许应该考虑这样做某种形式的奖学金和/或大学/政府的资助，努力建设一个博士学位;或者只是让一堆的钱，什么让你的船蒸汽。

其他提示

这个问题影响到语言多编程，但对于其语言是高度合成(具有的话，是由多个联合素)，它可以是一个高度复杂的问题，试图"的数字"所有可能的话，而不是语言，例如英语，这是至少在某种程度上分离，或者语言等国，这是高度分析.

就是说可能不是很容易破坏以及计算根据其组成形中的一些语言。

这个维基百科上的文章隔离的语言可能有助于说明问题。

这很容易，足以创造一个自己。把每个字转换成规范字节流(说,较低的情况下解UCS32)，然后散下来的一整数。32位很可能是不够的，但如果没有，那么64位肯定会的。

之前你丁给你表露无疑的回答，考虑，目的Unicode是简单地分配给每个字形的一个独特的识别符。不要等级或排序或分组，但只是为了地图上的每一个上独特的标识，每个人都同意。

怎么会系统处理复数形式的名词或偶的动词?将这些每一个都有自己的"Unicode"的价值？

作为一个翻译的方案，这可能不是去工作，没有更多的工作。你想，你可以分配数量的每个字，然后以机械翻译到其他语言。在现实中，语言有问题的多个话是拼写相同的"风吹起她的头发回"与"风您的观看"。

用于传送文本，其中你大概有一个字母时，每种语文，它的工作的现，虽然我不知道你会获得有作为反对使用变长字典，如邮政编使用。

这是一个有趣的问题，但我怀疑你是问它为错误的原因。你在想这个词汇'Unicode'为什么会允许你打破句成语言中性原子元件的意义和后能够重建他们在其他一些具体的语言？作为一种手段来实现一个普遍的翻译，也许？

甚至如果你可以编码和存储说，一个英文句中使用'的词汇unicode'，你不能指望阅读和奇迹般地呈现在，比方说，中国保留的意义不变。

你的比喻为Unicode，但是，是非常有用的。

铭记Unicode，同时一种"通用"的代码，不体现的发音，这意味着或使用的字符的问题。每一码点是指一个特定的字形的一个特定的语言(或相当的脚本中使用的一组语言)。这是元素在视觉表现水平的一字(范围内的风格、格式和字体).Unicode码点的拉丁字母"A"就是这样。它是以拉丁字母'A'。它不能自动地被渲染，说，阿拉伯字母Alif(ﺍ)或印度(Devnagari)字母'A'(अ).

保持Unicode的类比，你的词汇Unicode会码点的每个字(字形式)，在每种语言。Unicode有范围的代码分具体的的剧本。你词汇Unicode会的范围内码为每种语言。不同的词语在不同语言，即使他们有相同的含义(同义词)，就必须具有不同的代码分。同一个词具有不同的含义，或不同发音(同音)，就必须具有不同的代码分。

在Unicode，对某些语言，(但并不是所有的)相同的角色具有不同的形状取决于它的位置的词-例如在希伯来语和阿拉伯文，形状为一个字变化在结束这个词-那么它有一个不同的代码点。同样，在你的词汇Unicode，如果一个词具有不同的形式取决于其位置在刑，这可以保证其自己的编码点。

或许最简单的方法来码点为英语是基于你的系统，也就是说，一个特别版，牛津英语词典，并分配一个独有的编码中的每个词的顺序。你将不得不使用一个不同的代码对于每个不同的意思相同的话，你将不得不使用一个不同的代码不同的形式-例如如果同一个词可以被用作名词和作为一个动词，然后你会需要两码

然后你必须做的一样对每个你想要的其他语言，包括使用的最具权威性的字典用这种语言。

机会是这个演习都是更多的努力，比它的价值。如果你决定要包括世界上所有的生活语言，再加上一些历史性的死了的人和一些虚构的人-作为Unicode不-你会结束了一个码的空间就是如此之大，你的代码必须是非常宽容纳。你将不会获得任何方面的压缩-这可能是一句表示作为一个字符串中的原始语言将占用的空间更少，比同一个句子代表作为代码。

P.S.对于那些说这是一个不可能完成的任务，因为词的含义改变，我不认为这是一个问题。使用Unicode的类比，使用的字母已经改变(当然没有那样迅速，因为该词的含义)，但这不是任何关切Unicode，"日"用于被宣判等'y'在中间年龄。Unicode有一个代码点't','h'和'y'和他们每一个达到其目的。

P.P.S.实际上，它的一些关切Unicode的，'原'还是'设备'或'ss'可以书面'ss'在德国

这是一个有趣的小练习，但是我敦促你认为这没有什么比一个介绍这一概念的差别在自然语言之间的类型和标记。

一个类型是一个单一实例的一个字代表所有实例。Token是一个单一的数为每个实例的话。让我解释这与下述示例：

"约翰的面包店。他买面包。"

这里有一些频率计数为这个例子中，与计数含义的数量标记：

John: 1
went: 1
to: 1
the: 2
store: 1
he: 1
bought: 1
bread: 2

注意"的"计算两次-有两种标记的"的"。然而，请注意，虽然有十个字，只有八字频率对。话被打破的类型和成对他们的令牌计数。

类型和标记可用于自然语言统计."词编码"另一方面，我要提防。这是一个继续进多老式的方法学，预编程和理性主义比比皆是。我甚至不知道有任何统计吨，实际上将一个特定的"地址"一词。有太多之间的关系的话，对于一件事情，建立任何种类的想出来的数字体，并且如果我们只是投掷数字对它们进行分类，我们应该考虑的东西像存储管理和分配的速度。

我会建议检查了NLTK，自然语言工具包，编写蟒蛇，对于一个更广泛介绍到学及其实际用途。

实际上你只需要大约600个词对于一个像样的词汇。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow