Es una técnica de minería de datos que transforma los datos sin procesar en un formato comprensible. Los datos sin procesar (datos del mundo real) siempre están incompletos y esos datos no se pueden enviar a través de un modelo. Eso causaría ciertos errores. Es por eso que necesitamos preprocesar los datos antes de enviarlos a través de un modelo
¿Por qué necesitamos preprocesar los datos?
Es una técnica de extracción de datos que transforma los datos sin procesar en un formato comprensible Los datos sin procesar (datos del mundo real) siempre están incompletos y no se pueden enviar a través de un modelo. Eso causaría ciertos errores. Es por eso que necesitamos preprocesar los datos antes de enviarlos a través de un modelo.
¿Debo preprocesar los datos de prueba?
La esencia básica de esto es: No debe usar un método de preprocesamiento que esté ajustado en todo el conjunto de datos, para transformar los datos de prueba o entrenamiento. Si lo hace, está transportando inadvertidamente información del conjunto de trenes al conjunto de prueba.
¿Qué es un problema de fuga de datos?
La fuga de datos es la transmisión no autorizada de datos desde dentro de una organización a un destino o destinatario externo… La fuga de datos, también conocida como robo de datos bajo y lento, es un gran problema para la seguridad de los datos, y el daño causado a cualquier organización, independientemente de su tamaño o industria, puede ser grave.
¿Cómo se transforman los datos de prueba?
transform transformará todas las características restando la media y dividiendo por la varianza. Para mayor comodidad, estas dos llamadas a funciones se pueden realizar en un solo paso usando fit_transform.