Pregunta

Estoy usando Spark 1.5.1, y tengo DataFrame que parece seguir:

labelsCol, featureCol
(Label1, Label2, Label 32), FeatureVector
(Label1, Label10, Label16, Label30, Label48), FeatureVector
...
(Label1, label 95), FeatureVector

La primera columna es la lista de etiquetas para esa muestra, y en total tengo 100 etiquetas.

Me gustaría construir un clasificador binario para cada etiqueta, por lo que quiero transformar la columna de la lista de etiquetas en un vector binario.

El vector binario tendrá una longitud de 100 y el valor será 0 o 1 depende de la existencia de la etiqueta para la muestra.

¿Hay alguna solución Estrecho de avance para esto?

¿Fue útil?

Solución

Spark solo se implementó recientemente Conectorizador, que tomará las etiquetas (como cadenas) y las codificará como su vector de 100 dimensiones (suponiendo que las 100 etiquetas aparezcan en algún lugar de su conjunto de datos). Una vez que tenga esos vectores, debería ser un paso simple umbrarlos para hacerlos 0/1 en lugar de una frecuencia.

Licenciado bajo: CC-BY-SA con atribución
scroll top