En el código anterior, he usado una canalización que trata efectivamente con una serie de tareas en una sola iteración. Uno puede hacer una lista de tareas y una tubería se encargará de todo.
En general, una tubería de aprendizaje automático describe el proceso de escribir código, liberarlo a producción, hacer extracción de datos, crear modelos de capacitación y ajustar el algoritmo. Es un proceso continuo mientras se trabaja en una plataforma ML. Pero cuando se trata de Apache Spark, una tubería es un objeto que transforma, evalúa y ajusta los pasos en un solo objeto. Estos pasos se denominan flujo de trabajo ml.
La idea aquí es reunir una lista dada de columnas en una sola columna vectorial y agruparlas. Este es un paso adicional que requieren los modelos de aprendizaje automático de Spark. Este paso generalmente se realiza al final de la exploración de datos y los pasos de preprocesamiento. En esta etapa, estoy trabajando con algunas características en bruto y pocas transformadas que se pueden usar para entrenar un modelo.
Tenemos un par de clasificadores integrados, que incluyen bosque aleatorio, impulso de árboles, regresión logística, etc. Para comenzar, estoy implementando Random Forest como ejemplo, especificando el número de árboles en el clasificador y dejando los parámetros restantes en su valor por defecto.
Para evaluar el rendimiento de nuestro modelo, estoy usando la métrica de curva ROC. Puede elegir "metricName" de su elección.
La precisión de este modelo es del 82,5%. Esto indica que nuestro modelo funciona bastante bien con los parámetros predeterminados.