Segunda parte

Conjuntos imbalanceados

Kubat y Matwin proponen, en el artículo escrito el año 1997 titulado “Direccionando el curso de conjuntos de entrenamiento imbalanceados”, la media geométrica de las precisiones de cada caso para tener un indicador de medida del grado de precisión alcanzado por un método de clasificación. Su fórmula se puede describir como la media geométrica igual a la raíz cuadrada de la precisión de positivos por la precisión de negativos. Los valores de precisión de positivos se obtienen de la ecuación: Verdaderos positivos dividido entre verdaderos positivos más falsos negativos. Por su parte los valores de precisión de negativos se obtienen de la ecuación: Verdaderos negativos dividido entre verdaderos negativos más falsos positivos; ambos valores corresponden a la precisión en la clasificación de los elementos positivos y la de los negativos respectivamente. Normalmente, los métodos clásicos tienden más a clasificar bien la clase-mayor y mal la clase-menor. Si se supone un ejemplo como el que se da en el Síndrome de Down en el que se encuentran tres mil sesenta casos negativos y once positivos, un método que simplemente se dedique a clasificar correctamente los negativos y a obviar los positivos, tendría una precisión de cero punto noventa y nueve, pero en cambio sería un mal método para usar en este problema. En este caso, la media geométrica daría un valor de cero. Es por ello que el índice obtenido por la media geométrica es una buena medida de la precisión alcanzada por un algoritmo sobre un conjunto imbalanceado y, además, es el más utilizado en este tipo de problemas.

El análisis de la curva de “Características de operación del receptor (ROC)”, descrito en el artículo escrito por Swets el año 1988 titulado “Medición de la precisión en los sistemas de diagnóstico”, proporciona herramientas para distinguir clasificadores que son óptimos en alguna de las clases con respecto a clasificadores que no son tan óptimos, dependiendo del valor de algunos de sus parámetros. Las curvas de ROC para dos clases están basadas en una representación visual entre dos parámetros: Sensibilidad y especificidad. La sensibilidad es igual a la precisión de positivos, los valores de precisión de positivos se obtienen de la ecuación: Verdaderos positivos dividido entre verdaderos positivos más falsos negativos. Por su parte la especificidad es igual a la precisión de negativos, los valores de precisión de negativos se obtienen de la ecuación: Verdaderos negativos, dividido entre verdaderos negativos más falsos positivos. Algunas características de las curvas ROC son: (1) Una curva de ROC o punto de la curva es independiente de la distribución de clases, según Provost y sus colegas en el artículo escrito el año 1998 titulado “El caso en contra de la estimación de precisión para la comparación de algoritmos de inducción”. (2) Una curva de ROC encapsula toda la información contenida en la matriz de confusión, ya que el valor de los falsos negativos es el complemento de verdaderos positivos y verdaderos negativos lo es de los falsos positivos, en palabras de Swets, en el artículo citado anteriormente. (3) Las curvas de ROC ofrecen una herramienta visual para examinar la habilidad de un clasificador de identificar correctamente los casos positivos con respecto al número de casos que son incorrectamente clasificados. Se destaca el trabajo desarrollado por Fawcett, reportado en el artículo escrito el año 2003 con el título “Grafos de ROC: Notas y consideraciones practicas para investigadores en minería de datos”, quien realizó un estudio de la aplicación de las curvas de ROC al campo de la minería de datos.

Como se ha comentado anteriormente, la precisión no es una buena medida para saber lo bueno que es un método de clasificación usando un conjunto imbalanceado. El valor F fue propuesto por Van Rijsbergen, en el libro escrito el año 1979 titulado “Recuperación de información”, y para calcularlo, primero se deben calcular dos valores: Precisión, que no tiene nada que ver con la precisión descrita en las ecuaciones anteriores y Recuerdo, respectivamente. La manera de calcularlos es la siguiente: (1) El valor de precisión se calcula como verdaderos positivos dividido entre verdaderos positivos mas falsos positivos. Este valor proporciona la medida de cuántos patrones positivos clasifica correctamente con respecto al número total de patrones que clasifica como positivos. Es decir, cuántos positivos son ciertos con respecto a los que predice que son positivos. (2) Recuerdo se calcula como verdaderos positivos dividido entre verdaderos positivos mas falsos negativos. Este valor proporciona la medida de cuántos patrones positivos clasifica correctamente con respecto al número total de patrones positivos. Así pues, el valor F, viene dado por la siguiente ecuación: Dos por recuerdo por precisión dividido entre recuerdo más precisión, que corresponde a la media armónica de precisión y recuerdo. El valor F es alto cuando recuerdo y precisión son altos. Esto implica que el valor F puede medir la “bondad” de un algoritmo de aprendizaje sobre el problema propuesto, es decir, su precisión en la clasificación.