Wie verwalten Sie in Ihrem Unternehmen große Datenmengen?
Die manuelle Analyse ist nicht sehr effizient, und es ist nicht immer einfach, die wichtigsten Fakten zu erfassen und die Informationen zu entdecken. Die Clusteranalyse kann Ihnen dabei helfen, den manuellen Aufwand zu reduzieren und verborgene Werte in Ihren Daten zu entdecken.
Die Clusteranalyse ist Teil einer breiten Palette von Technologien des maschinellen Lernens, die dabei helfen, verborgene Strukturen in großen Datensätzen aufzudecken und Datenelemente mit ähnlichen Merkmalen zusammenzufassen.
In diesem Artikel erklären wir Ihnen, wie Clustering funktioniert und stellen Ihnen einige Anwendungsfälle vor.
Beginnen wir mit dem Grundkonzept
Man muss einen Apfel nicht als Apfel bezeichnen, um zu erkennen, dass er sich von einer Orange unterscheidet. Beim Clustering versuchen wir, Gruppen ähnlicher Objekte zu erkennen, ohne dass ein Mensch diese Objekte bezeichnen muss. Das hat viele Vorteile und wirft auch einige interessante Fragen auf.
Wir sehen zum Beispiel, dass ein Apfel und eine Orange unterschiedlich sind. Wenn wir sie jedoch mit einer Kartoffel vergleichen, könnten wir zu dem Schluss kommen, dass ein Apfel und eine Orange ziemlich ähnlich sind, weil sie beide Früchte sind.
Die Notwendigkeit der Clusterbildung ergibt sich aus der Größe der inzwischen verfügbaren Datensätze.
Wenn ich zehn Obstsorten vergleichen will, kann ich sie alle relativ einfach vergleichen. Wenn ich jedoch einen Datensatz von der Größe von Wikipedia analysieren möchte, muss ich 31 Billionen Vergleiche durchführen. Selbst wenn ein einzelner Vergleich nur 1 Mikrosekunde dauert, dauert es immer noch fast 12 Tage, um die Vergleiche durchzuführen. Daher ist es sinnvoll, diese Datensätze in kleinere Stücke aufzuteilen, die leichter zu verarbeiten sind. Mit Hilfe von Clustering können wir den Datensatz auf sinnvolle Weise aufteilen, ohne dass ein Mensch ihn sich ansehen muss.
Ein leistungsfähiger Ansatz für das Clustering besteht darin, die Daten in allgemeine Gruppen einzuteilen und dann innerhalb dieser Gruppen kleinere, spezifischere Gruppen zu bilden. Auf diese Weise kann der Machine Learner sowohl einen allgemeinen Überblick als auch eine detailliertere Struktur der Daten gewinnen. Dies ist hierarchisches Clustering und ein leistungsfähiges Werkzeug, um Einblicke in große Datensätze zu gewinnen.
Arten von Clustern
Für verschiedene Datentypen gibt es verschiedene Arten von Clustering-Algorithmen, die am besten funktionieren. Einige Daten enthalten natürliche Untergruppen. Andere Daten haben vielleicht eine Normalverteilung, so dass ein Algorithmus, der dies erleichtert, am besten funktioniert.
Bei großen Datenmengen ist auch zu beachten, dass einige Algorithmen für bestimmte Datenverteilungen effizienter arbeiten. Wenn Sie Katzen nach der Länge ihres Schwanzes gruppieren möchten, funktioniert ein Algorithmus, der für kontinuierliche Daten konzipiert ist, am besten, da die Länge jeden Wert innerhalb eines bestimmten Bereichs annehmen kann. Wenn Sie Sterne clustern möchten, könnte ein anderer Algorithmus besser funktionieren.
Text hat seine eigenen Besonderheiten, wenn es um Clustering geht.
Es gibt Millionen von verschiedenen Schlüsselwörtern (jeder Eigenname kann als Schlüsselwort betrachtet werden), aber jedes Dokument enthält nur wenige davon. Daher ist es nicht einfach, zwei Dokumente zu finden, die sogar eine gewisse Ähnlichkeit aufweisen. Dies stellt einige Herausforderungen bei der Entwicklung eines effizienten Machine Learners dar.
Es gibt zwei Ansätze, um dieses Problem zu lösen. Wir können entweder unser Wissen aus der Linguistik nutzen, um den Datensatz besser in den Griff zu bekommen, oder wir können einen Algorithmus entwickeln, der eine niedrige Berechnungskomplexität für das Clustern spezifischer Textdokumente hat.
Wie nutzt ProcessMaker IDP das Clustering im Content Management?
Für ProcessMaker IDP haben wir unser Fachwissen in Computerlinguistik, Mathematik und Software-Implementierung kombiniert, um modernes Clustering für Dokumente zu ermöglichen.
Das reicht jedoch noch nicht aus, um die Qualität zu erreichen, die wir unseren Kunden bieten wollen. Egal wie gut unsere KI ist, es wird immer Fälle geben, in denen ein menschlicher Experte benötigt wird, um eine genaue Entscheidung zu treffen. In diesem Sinne können wir einen maschinellen Lerner entwickeln, der mit einem menschlichen Experten zusammenarbeitet, so dass der maschinelle Lerner den Großteil der Arbeit übernimmt und der menschliche Experte nur die Fälle bewerten muss, in denen sein Fachwissen am wertvollsten ist.
Einige Merkmale von Dokumenten sind für den Machine Learner leichter zu erkennen als andere.
Wenn zum Beispiel zwei Dokumente das Wort "Vertrag" enthalten, gehören sie wahrscheinlich zusammen mit anderen Verträgen zum selben Cluster. Allerdings ist das nicht immer so offensichtlich. Ist ein befristeter Vertrag einem unbefristeten Vertrag oder einem Freiberuflervertrag ähnlicher? Dies ist für den maschinellen Lerner nicht offensichtlich, und es ist eine gute Gelegenheit, einen menschlichen Experten um Hilfe zu bitten.
Wie bringt man einem Machine Learner etwas bei?
Ihr Lebensmittelhändler kennt sich auf dem Feld aus und weiß, wo er sein Gemüse und Obst hinlegen muss. Wie können wir dies einem maschinell Lernenden beibringen?
Der Machine Learner kennt den Abstand zwischen den Clustern und die Kohäsion innerhalb der Cluster. Auf dieser Grundlage kann er einen Hinweis auf das Vertrauen in die Cluster geben. Wenn ein menschlicher Experte das maschinelle Lernen anleiten kann, indem er angibt, was die besten Entscheidungen für die wenigen Cluster mit dem geringsten Vertrauen sind, kann die Qualität der resultierenden Cluster verbessert werden und wird der natürlichen Gruppierung, die der menschliche Experte geben würde, sehr nahe kommen, ohne dass zu viele Interaktionen mit dem menschlichen Experten erforderlich sind. Diese Kombination aus maschinellem Lerner und menschlichem Experten ist Teil des interaktiven Lernens.
Die Kombination von leistungsstarken Clustering-Algorithmen mit menschlichem Fachwissen führt zu maximaler Genauigkeit bei minimalem Aufwand.
Mit dem richtigen Ansatz können wir den maschinellen Lerner Äpfel und Orangen unterscheiden lassen, sie aber beim Vergleich mit Kartoffeln zusammenfassen. Wo würden Sie nun eine Tomate einordnen?