Primera parte

Enfoques de minería de datos distribuida

Fayyad y sus colegas, en el artículo publicado el año 1996 titulado “El proceso de descubrimiento de conocimiento en bases de datos, para la extracción de conocimiento útil de volúmenes grandes de datos”, menciona que la minería de datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes conjuntos de datos. Los algoritmos de minería de datos se enmarcan en el proceso completo de extracción de información conocido “descubrimiento de conocimiento en bases de datos”, que se encarga de preparar los datos y de interpretar los resultados obtenidos. El análisis de la información recopilada en algunas ocasiones puede llevarse a cabo de forma manual, utilizando para ello algunas técnicas estadísticas. Sin embargo, cuando la cantidad de datos de los que se dispone aumenta, esta forma de estudio se puede complicar. Allí es donde entra en juego el conjunto de técnicas de análisis automático a las que hace referencia la minería de datos o el descubrimiento de conocimiento en bases de datos.

Según López, en la tesis de maestría publicada el año 2012 con el título “Análisis de las posibilidades de uso de Big data en las organizaciones”, las características principales de la minería de datos son: (1) Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. (2) El entorno de la minería de datos suele tener una arquitectura cliente-servidor. (3) Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. (4) El usuario de la minería de datos es muchas veces un usuario final con poca o ninguna habilidad de programación. (5) Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. (6) Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. (7) La minería de datos produce cinco tipos de información: Asociaciones, secuencias, clasificaciones, agrupamientos y pronósticos.

Caridad, en el artículo publicado el año 2001 con el título “La minería de datos: Análisis de bases de datos en la empresa”, menciona que los sistemas informáticos centralizados se difundieron en las décadas de los sesenta y setenta del siglo veinte; luego con la aparición de las mini-computadoras comenzaron a incorporarse procesos automatizados en diferentes campos de aplicación. Finalmente, la difusión masiva de las computadoras personales en la década de los ochenta y de las redes de comunicación generalizaron el uso de los procesos informáticos, obligando así a cambiar las estructuras centralizadas de los centros de procesamiento de datos. Esta idea es complementada por Mitra y Acharya, en el libro publicado el año 2003 con el título “Minería de datos: Multimedia, computación blanda y bioinformática”, quienes señalan que la mayoría de los datos comienzan a ser archivados en varias unidades de almacenamiento, es decir los datos se pueden almacenar en diferentes localidades lógicas, bien sea en un mismo espacio físico o geográficamente distinto. Estas bases de datos relacionadas lógicamente son interconectadas por una red de comunicaciones, dando lugar a las llamadas bases de datos distribuidas.

Han y Kamber, en el libro publicado el año 2006 con el título “Minería de datos: Conceptos y técnicas”, indican que en las bases de datos distribuidas las múltiples computadoras son llamadas nodos o sitios, y pueden tener diferentes esquemas de diseño, como por ejemplo el esquema centralizado, donde la base de datos distribuida está localizada en una sola unidad de almacenamiento y los usuarios están distribuidos. El esquema de réplica, el cual consiste en que cada nodo debe tener su propia copia completa de la base de datos. Esquema fragmentado o particionado, donde solo hay una copia de cada elemento; en este caso la información está distribuida a través de los diferentes nodos y en cada nodo se almacena una o más partes disjuntas de la base de datos. También se puede nombrar el esquema híbrido, el cual no es más que la combinación del esquema de partición y de réplica.

En la tesis de grado de Mamani, publicada el año 2015 con el título “Aplicación de la minería de datos distribuida usando algoritmos de clustering k-means para mejorar la calidad de servicios de las organizaciones modernas”, se menciona que las bases de datos distribuidas se pueden clasificar en homogéneas o heterogéneas. Las bases de datos distribuidas homogéneas son aquellas en las que el mismo esquema de diseño está repetido en cada servidor y los registros se encuentran repartidos en los diferentes nodos. Mientras que, las bases de datos distribuidas heterogéneas son aquellas en las que cada nodo almacena un subconjunto de datos. Mitra y Acharya, en el libro citado anteriormente, señalan que a su vez, el crecimiento de las bases de datos distribuidas dio origen a la necesidad de tratar con grandes cantidades de bases de datos heterogéneas, es decir datos almacenados en múltiples archivos, diferentes unidades de almacenamiento, y diferentes localidades geográficas, por lo que algoritmos más sofisticados en el uso de técnicas de minería de datos deben ser considerados para la integración de las bases de datos distribuidas y la extracción de información de interés de las mismas. Sunny y Thampi, en el artículo publicado el año 2010 con el título “Ensayos sobre minería de datos distribuida en redes P2P”, presentan una taxonomía de los enfoques de minería de datos distribuida, clasifican dicha taxonomía en dos grupos. El primer grupo es conocido como coordinador centralizado y reúne tres subgrupos conocidos como: Agrupamiento distribuido, regla asociativa distribuida y clasificador de aprendizaje distribuido; el segundo grupo es conocido como minería de datos punto a punto y reúne dos subgrupos que se conocen como: Minería de datos compleja y operaciones primitivas.