Clusterización: ¿Qué es y cómo puede ayudarle en la gestión de big data?

Índice

¿Cómo se gestionan los grandes volúmenes de datos en su organización?

Analizarlos manualmente no es realmente eficiente, y no siempre es fácil captar los hechos más importantes y descubrir la información. El análisis de clústeres puede ayudarle a reducir la introducción manual y a revelar el valor oculto de sus datos.

El análisis de clústeres forma parte de una amplia gama de tecnologías de aprendizaje automático que ayudan a descubrir estructuras ocultas en grandes conjuntos de datos y a agrupar elementos de datos con características similares.

En este artículo, explicamos cómo funciona la agrupación y le ofrecemos algunos casos de uso.

Empecemos por el concepto básico

No es necesario etiquetar una manzana como tal para ver que es diferente de una naranja. Con la agrupación, intentamos reconocer grupos de objetos similares sin que un humano tenga que etiquetar esos objetos. Esto tiene muchas ventajas y también plantea algunas cuestiones interesantes.

Por ejemplo, vemos que una manzana y una naranja son diferentes. Sin embargo, si las comparamos con una patata, podríamos llegar a la conclusión de que una manzana y una naranja son bastante parecidas porque ambas son frutas.

La necesidad de la agrupación proviene del tamaño de los conjuntos de datos disponibles.

Si quiero comparar diez tipos de fruta, puedo compararlos todos con relativa facilidad. Sin embargo, si quiero analizar un conjunto de datos del tamaño de Wikipedia, tendré que hacer 31 billones de comparaciones. Incluso si una sola comparación tarda sólo 1 microsegundo, la ejecución de las comparaciones tardará casi 12 días. Por lo tanto, es útil dividir estos conjuntos en trozos más pequeños que sean más fáciles de procesar. Podemos utilizar el clustering para dividir el conjunto de datos de una manera sensata sin que un humano lo vea.

Un potente enfoque de la agrupación consiste en ordenar los datos en grupos generales y, dentro de éstos, hacer grupos más pequeños y específicos. Esto permite al aprendiz de máquina extraer tanto una visión general como una estructura más detallada de los datos. Esto es el clustering jerárquico y es una poderosa herramienta para obtener información sobre grandes conjuntos de datos.

Tipos de agrupación

Los diferentes tipos de datos tienen diferentes tipos de algoritmos de clustering que funcionan mejor. Algunos datos contienen subgrupos naturales. Otros datos pueden tener una distribución normal, por lo que un algoritmo que la facilite funciona mejor.

En el caso de los big data, también es importante tener en cuenta que algunos algoritmos son más eficaces para determinadas distribuciones de datos. Si quiere agrupar gatos por la longitud de su cola, entonces un algoritmo diseñado para datos continuos es el que mejor funciona, ya que la longitud puede ser cualquier valor dentro de un cierto rango. Si quiere agrupar estrellas, un algoritmo diferente podría funcionar mejor.

El texto tiene sus propios giros cuando se trata de agrupar.

Hay millones de palabras clave diferentes (cada nombre propio puede considerarse una palabra clave), pero cada documento sólo contiene unas pocas. Por lo tanto, no es sencillo encontrar dos documentos que tengan alguna similitud. Esto plantea algunos retos a la hora de diseñar un Machine Learner eficiente.

Hay dos enfoques para abordar este problema. Podemos utilizar nuestros conocimientos de lingüística para conseguir un mejor control del conjunto de datos, o podemos hacer un algoritmo que tenga una baja complejidad computacional para agrupar específicamente documentos de texto.

¿Cómo utiliza ProcessMaker IDP la agrupación en la gestión de contenidos?

Para ProcessMaker IDP combinamos nuestra experiencia en lingüística computacional, matemáticas y aplicación de software para ofrecer una agrupación de documentos de última generación.

Sin embargo, esto todavía no nos lleva hasta la calidad que queremos ofrecer a nuestros clientes. Por muy buena que sea nuestra IA, siempre habrá casos en los que se necesite un experto humano para tomar una decisión precisa. Teniendo esto en cuenta, podemos crear un Machine Learner que coopere con un experto humano, de manera que el Machine Learner haga todo el trabajo de volumen y el experto humano tenga que evaluar sólo los casos en los que su experiencia sea más valiosa.

Algunas características de los documentos son más fáciles de reconocer para el Machine Learner que otras.

Por ejemplo, si dos documentos contienen la palabra "contrato", probablemente pertenezcan al mismo grupo junto con otros contratos. Sin embargo, no siempre es tan evidente. ¿Se parece más un contrato temporal a un contrato indefinido o a un contrato de autónomo? Esto no es obvio para el Machine Learner y es una buena oportunidad para pedir ayuda a un experto humano.

¿Cómo se enseña a un aprendiz de máquina?

Tu tendero tiene experiencia en el campo y sabe dónde poner sus verduras y frutas. ¿Cómo podemos enseñarle esto a un aprendiz de máquina?

El Machine Learner es consciente de la distancia entre clusters y de la cohesión dentro de los clusters. Basándose en esto, puede dar una indicación de confianza para los clusters. Si un experto humano puede guiar al Aprendizaje Automático indicando cuáles son las mejores decisiones para los pocos clusters con menor confianza, la calidad de los clusters resultantes puede mejorarse y se acercará a la agrupación natural que daría el experto humano, sin necesidad de demasiadas interacciones con el experto humano. Esta combinación de aprendiz de máquina y experto humano forma parte del aprendizaje interactivo.

La combinación de potentes algoritmos de agrupación con la experiencia humana da como resultado la máxima precisión con el mínimo esfuerzo.

Con el enfoque adecuado, podemos dejar que el Machine Learner distinga las manzanas de las naranjas, pero que las agrupe al compararlas con las patatas. Ahora, ¿dónde pondrías un tomate?

Clusterización: ¿Qué es y cómo puede ayudarle en la gestión del big data?

Matt McClintock 22 de mayo de 2018 Automatización inteligente Procesamiento inteligente de documentos (IDP)

Empecemos por el concepto básico

Tipos de agrupación

¿Cómo utiliza ProcessMaker IDP la agrupación en la gestión de contenidos?

¿Cómo se enseña a un aprendiz de máquina?

Contenido relacionado

¿Puede el tratamiento inteligente de documentos impulsar la hiperproductividad?

Los 5 casos principales de IDP

Libere el verdadero potencial de sus datos no estructurados con la IA

Solicite una demostración