Spark 1.5.1：マルチラベルデータをバイナリベクトルに変換します

https://datascience.stackexchange.com/questions/8717

16-10-2019
|

質問

Spark 1.5.1を使用していますが、次のように見えるデータフレームがあります。

labelsCol, featureCol
(Label1, Label2, Label 32), FeatureVector
(Label1, Label10, Label16, Label30, Label48), FeatureVector
...
(Label1, label 95), FeatureVector

最初の列はそのサンプルのラベルのリストであり、合計で100ラベルがあります。

各ラベルのバイナリ分類器を構築したいので、ラベルリスト列をバイナリベクトルに変換したいと思います。

バイナリベクトルの長さは100で、値は0または1になり、サンプルのラベルの存在に依存します。

これに対する海峡の前方ソリューションはありますか？

解決

Sparkは最近実装されました CountVectorizer, 、（文字列として）ラベルを取り、100次元ベクトルとしてエンコードします（100個すべてのラベルがデータセットのどこかに表示されると仮定します）。これらのベクトルを取得したら、周波数ではなく0/1にするためにそれらをしきい値にする簡単なステップである必要があります。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange