Logo es.boatexistence.com

¿Cuáles son los defectos de imputar valores f altantes con la media?

Tabla de contenido:

¿Cuáles son los defectos de imputar valores f altantes con la media?
¿Cuáles son los defectos de imputar valores f altantes con la media?

Video: ¿Cuáles son los defectos de imputar valores f altantes con la media?

Video: ¿Cuáles son los defectos de imputar valores f altantes con la media?
Video: Imputar datos faltantes en un DataFrame - PYTHON 2024, Mayo
Anonim

La imputación media distorsiona las relaciones entre variables Pero la imputación media también distorsiona las relaciones multivariadas y afecta a estadísticas como la correlación. Por ejemplo, la siguiente llamada a PROC CORR calcula la correlación entre la variable Orig_Height y las variables Peso y Edad.

¿Por qué usar una media para los datos que f altan es una mala idea?

La media reduce una varianza de los datos Profundizando en las matemáticas, una varianza más pequeña conduce a un intervalo de confianza más estrecho en la distribución de probabilidad[3]. Esto no lleva a nada más que a introducir un sesgo en nuestro modelo.

¿Por qué los valores f altantes son un problema?

Los datos f altantes presentan varios problemas. Primero, la ausencia de datos reduce el poder estadístico, que se refiere a la probabilidad de que la prueba rechace la hipótesis nula cuando es falsa. En segundo lugar, los datos perdidos pueden causar sesgos en la estimación de los parámetros. En tercer lugar, puede reducir la representatividad de las muestras.

¿Por qué la imputación media es mala?

Problema 1: La imputación de la media no conserva las relaciones entre las variables. Es cierto que imputar la media conserva la media de los datos observados. Entonces, si los datos f altan completamente al azar, la estimación de la media permanece sin sesgo.

¿Debería reemplazar los datos que f altan con la media?

Los puntos de datos atípicos tendrán un impacto significativo en la media y, por lo tanto, en tales casos, no se recomienda usar la media para reemplazar los valores f altantes. Es posible que el uso de valores medios para reemplazar los valores f altantes no cree un gran modelo y, por lo tanto, se descarte.

Recomendado: