Sesgo, Varianza y Subajuste, Sobreajuste

contenido

Entonces, en este artículo veremos qué es el sesgo y la varianza y luego utilizaremos estos conceptos para aprender qué es el subajuste y el sobreajuste.

¿Qué es el sesgo? Veamos lo que dice Wikipedia.

( Sesgo es un peso desproporcionado a favor de o en contra de una idea o cosa )

o en el aprendizaje automático, podemos decir que el sesgo es un peso desproporcionado a favor de o en contra de una característica. LO MISMO QUE OÍMOS EN TODAS PARTES.

¿Qué es la varianza?

( Varianza mide cuán disperso está un conjunto de números respecto a su valor promedio ). DE NUEVO, LO MISMO QUE OÍMOS EN TODAS PARTES.

En palabras simples, el sesgo corresponde al error del conjunto de entrenamiento y la varianza corresponde al error del conjunto de prueba.

Veamos qué es el sobreajuste y el subajuste.

¿Qué es Modelo Sobreajustado?

Un modelo que funciona realmente bien en el conjunto de entrenamiento o tiene alta precisión en el conjunto de entrenamiento, pero no funciona bien en el conjunto de prueba. Así que, como te dije, el sesgo es el error del conjunto de entrenamiento y la varianza es el error del conjunto de prueba. Supongamos que trazamos un punto con nuevas coordenadas. Un modelo sobreajustado podría no funcionar mejor.

En caso de sobreajuste, nuestro error del conjunto de entrenamiento es menor, por lo que tendrá bajo sesgo y nuestro error del conjunto de prueba es alto, por lo que tendrá alta varianza.

Modelo sobreajustado — Bajo sesgo y alta varianza

Una decisión es muy propensa al sobreajuste. Si tenemos un árbol que es particularmente profundo. Una forma de resolver este problema es la poda. Pero no lo discutiremos aquí, solo nos ceñiremos al tema dado :)

¿Qué es Modelo Subajustado?

Un modelo que no tiene un buen rendimiento ni en el conjunto de entrenamiento ni en el conjunto de prueba. Por lo tanto, su error de entrenamiento así como el error de prueba son altos, por lo que tendrá un alto sesgo y alta varianza.

En caso de subajuste, nuestro error del conjunto de entrenamiento es alto, por lo que tendrá alto sesgo y nuestro error del conjunto de prueba también es alto, por lo que tendrá alta varianza.

Así que, ahora sabemos qué es un modelo Subajustado y un modelo Sobajustado. Ahora veremos qué es un modelo Balanceado.

¿Qué es un Modelo Balanceado?

Un modelo equilibrado es un modelo que tiene un buen rendimiento tanto en el conjunto de entrenamiento como en el conjunto de prueba. Esto puede no tener una precisión tan alta como un modelo sobreajustado en un conjunto de entrenamiento, pero un modelo equilibrado tendrá un buen rendimiento en el conjunto de prueba también.

Un modelo equilibrado tendrá bajo sesgo y baja varianza.

Tomemos 3 ejemplos para entender el sobreajuste, el subajuste y el modelo equilibrado.

  1. Un modelo con error de entrenamiento: 2% y error de prueba: 20%
  • Menos Error de Entrenamiento — Bajo Sesgo
  • Alto Error de Prueba — Alta Varianza
  • Este es un Modelo Sobreajustado.
  1. Un modelo con error de entrenamiento: 30% y error de prueba: 30%
  • Alto Error de Entrenamiento — Alto Sesgo
  • Alto Error de Prueba — Alta Varianza
  • Este es un modelo subajustado.
  1. Un modelo con error de entrenamiento: 4% y error de prueba: 3%
  • Menos error de entrenamiento — Bajo sesgo
  • Menos error de prueba — Baja varianza
  • Este es un modelo equilibrado.

Muchas gracias por leer esto. Espero que te haya gustado este artículo :)

Resumir
本文讨论了偏差和方差的概念,以及它们在欠拟合和过拟合中的应用。偏差是指对特征的偏重,而方差则衡量数据的分散程度。过拟合模型在训练集上表现良好,但在测试集上表现不佳,具有低偏差和高方差。欠拟合模型在训练和测试集上均表现不佳,具有高偏差和高方差。平衡模型则在训练和测试集上均表现良好,具有低偏差和低方差。通过三个示例,分别展示了过拟合、欠拟合和平衡模型的特征。