我正在使用SPARK 1.5.1,并且我的数据帧看起来如下:

labelsCol, featureCol
(Label1, Label2, Label 32), FeatureVector
(Label1, Label10, Label16, Label30, Label48), FeatureVector
...
(Label1, label 95), FeatureVector

第一列是该样品的标签列表,总共有100个标签。

我想为每个标签构建一个二进制分类器,因此我想将标签列表列转换为二进制向量。

二进制向量的长度为100,值为0或1取决于样品的标签。

有没有海峡前进解决方案?

有帮助吗?

解决方案

火花直到最近实施 CountVectorizer, ,这将带有标签(作为字符串)并将其编码为100维向量(假设所有100个标签都显示在数据集中的某个地方)。一旦您拥有这些向量,将它们变为0/1而不是频率应该是一个简单的步骤。

许可以下: CC-BY-SA归因
scroll top