Le clustering : Qu'est-ce que c'est et comment peut-il vous aider dans la gestion du big data ?

Table des matières

Comment gérez-vous les grands volumes de données dans votre organisation ?

Les analyser manuellement n'est pas vraiment efficace, et il n'est pas toujours facile de saisir les faits les plus importants et de découvrir les informations. L'analyse par grappes peut vous aider à réduire la saisie manuelle et à révéler la valeur cachée de vos données.

L'analyse par grappes fait partie d'un large éventail de technologies d'apprentissage automatique qui permettent de découvrir des structures cachées dans des ensembles de données volumineux et de regrouper des éléments de données présentant des caractéristiques similaires.

Dans cet article, nous expliquons comment fonctionne le clustering et nous vous fournissons quelques cas d'utilisation.

Commençons par le concept de base

Il n'est pas nécessaire d'étiqueter une pomme comme étant une pomme pour voir qu'elle est différente d'une orange. Avec le clustering, nous essayons de reconnaître des groupes d'objets similaires sans qu'un humain ait à étiqueter ces objets. Cela présente de nombreux avantages, mais soulève également des questions intéressantes.

Par exemple, nous voyons qu'une pomme et une orange sont différentes. Cependant, si nous les comparons à une pomme de terre, nous pourrions conclure qu'une pomme et une orange sont assez semblables parce qu'elles sont toutes deux des fruits.

La nécessité du regroupement vient de la taille des ensembles de données qui sont devenus disponibles.

Si je veux comparer dix types de fruits, je peux les comparer tous relativement facilement. En revanche, si je veux analyser un ensemble de données de la taille de Wikipédia, je devrai effectuer 31 trillions de comparaisons. Même si une seule comparaison ne prend qu'une microseconde, il faudra tout de même près de 12 jours pour exécuter les comparaisons. Il est donc utile de diviser ces ensembles en petits morceaux plus faciles à traiter. Nous pouvons utiliser le clustering pour diviser l'ensemble de données d'une manière sensée sans qu'un humain n'ait à l'examiner.

Une approche puissante du clustering consiste à classer les données en groupes généraux, puis à l'intérieur de ces groupes, à créer des groupes plus petits et plus spécifiques. Cela permet à l'apprenant automatique d'extraire à la fois un aperçu général et une structure plus détaillée des données. Il s'agit du clustering hiérarchique, un outil puissant qui permet de mieux comprendre les grands ensembles de données.

Types de regroupements

Différents types de données ont différents types d'algorithmes de clustering qui fonctionnent le mieux. Certaines données contiennent des sous-groupes naturels. D'autres données peuvent avoir une distribution normale, de sorte qu'un algorithme qui facilite cela fonctionne mieux.

Pour le big data, il est également important de garder à l'esprit que certains algorithmes sont plus efficaces pour certaines distributions de données. Si vous voulez regrouper des chats en fonction de la longueur de leur queue, un algorithme conçu pour les données continues est le plus efficace, puisque la longueur peut être n'importe quelle valeur comprise dans une certaine fourchette. Si vous voulez regrouper des étoiles, un autre algorithme pourrait être plus efficace.

Le texte a ses propres particularités en matière de regroupement.

Il existe des millions de mots-clés différents (chaque nom propre peut être considéré comme un mot-clé) mais chaque document n'en contient que quelques-uns. Par conséquent, il n'est pas simple de trouver deux documents qui ont même une certaine similarité. Cela pose quelques problèmes lors de la conception d'un apprentissage automatique efficace.

Il existe deux approches pour résoudre ce problème. Nous pouvons soit utiliser nos connaissances en linguistique pour mieux appréhender l'ensemble de données, soit créer un algorithme à faible complexité de calcul pour le regroupement de documents textuels spécifiques.

Comment ProcessMaker IDP utilise-t-il le clustering dans la gestion de contenu ?

Pour ProcessMaker IDP, nous avons combiné notre expertise en matière de linguistique informatique, de mathématiques et d'implémentation de logiciels afin de fournir un regroupement de documents à la pointe de la technologie.

Cependant, cela ne nous permet pas encore d'atteindre la qualité que nous voulons offrir à nos clients. Quelle que soit la qualité de notre IA, il y aura toujours des cas où un expert humain sera nécessaire pour prendre une décision précise. Dans cette optique, nous pouvons créer un apprenant automatique qui coopère avec un expert humain, de sorte que l'apprenant automatique effectue tout le travail de base et que l'expert humain n'ait à évaluer que les cas où son expertise est la plus utile.

Certaines caractéristiques des documents sont plus faciles à reconnaître pour l'apprenant automatique que d'autres.

Par exemple, si deux documents contiennent le mot "contrat", ils appartiennent probablement au même cluster que d'autres contrats. Cependant, ce n'est pas toujours aussi évident. Un contrat temporaire est-il plus similaire à un contrat permanent ou à un contrat de freelance ? Ce n'est pas évident pour l'apprenant automatique et c'est une bonne occasion de demander l'aide d'un expert humain.

Comment enseigner à un apprenant automatique ?

Votre épicier a une expertise du terrain et sait où mettre ses légumes et ses fruits. Comment pouvons-nous enseigner cela à une machine apprenante ?

L'apprentissage automatique est conscient de la distance entre les clusters et de la cohésion au sein des clusters. Sur cette base, il peut donner une indication de confiance pour les clusters. Si un expert humain peut guider l'apprentissage automatique en indiquant quelles sont les meilleures décisions à prendre pour les quelques clusters dont la confiance est la plus faible, la qualité des clusters résultants peut être améliorée et correspondra étroitement au regroupement naturel que l'expert humain donnerait, sans qu'il soit nécessaire d'avoir trop d'interactions avec l'expert humain. Cette combinaison de l'apprenant automatique et de l'expert humain fait partie de l'apprentissage interactif.

La combinaison d'algorithmes de classification puissants et de l'expertise humaine permet d'obtenir une précision maximale pour un effort minimal.

Avec la bonne approche, nous pouvons laisser l'apprenant automatique distinguer les pommes des oranges, mais les regrouper lorsqu'il les compare aux pommes de terre. Maintenant, où mettriez-vous une tomate ?

Le clustering : Qu'est-ce que c'est et comment peut-il vous aider dans la gestion du big data ?

Matt McClintock 22 mai 2018 Automatisation intelligente Traitement intelligent des documents (IDP)

Commençons par le concept de base

Types de regroupements

Comment ProcessMaker IDP utilise-t-il le clustering dans la gestion de contenu ?

Comment enseigner à un apprenant automatique ?

Contenu connexe

Le traitement intelligent des documents peut-il stimuler l'hyperproductivité ?

Les 5 principaux cas d'utilisation de l'IDP

Libérez le véritable potentiel de vos données non structurées grâce à l'IA

Demander une démo