Spark 1.5.1:マルチラベルデータをバイナリベクトルに変換します
-
16-10-2019 - |
質問
Spark 1.5.1を使用していますが、次のように見えるデータフレームがあります。
labelsCol, featureCol
(Label1, Label2, Label 32), FeatureVector
(Label1, Label10, Label16, Label30, Label48), FeatureVector
...
(Label1, label 95), FeatureVector
最初の列はそのサンプルのラベルのリストであり、合計で100ラベルがあります。
各ラベルのバイナリ分類器を構築したいので、ラベルリスト列をバイナリベクトルに変換したいと思います。
バイナリベクトルの長さは100で、値は0または1になり、サンプルのラベルの存在に依存します。
これに対する海峡の前方ソリューションはありますか?
解決
Sparkは最近実装されました CountVectorizer, 、(文字列として)ラベルを取り、100次元ベクトルとしてエンコードします(100個すべてのラベルがデータセットのどこかに表示されると仮定します)。これらのベクトルを取得したら、周波数ではなく0/1にするためにそれらをしきい値にする簡単なステップである必要があります。
所属していません datascience.stackexchange