Textbasierte Ähnlichkeit ist kein Wundermittel bei Datenzuordnung


Wenn es um die Zuordnung von Daten ohne eindeutige Kennung geht, ist die textbasierte Ähnlichkeit weit verbreitet. Das Vergleichen von Texten und das Bestimmen wie ähnlich sie sich sind, wird verwendet, um eine Entscheidung für oder gegen die Zuordnung zu treffen.

Textbasierte Ähnlichkeit kann auf verschiedene Arten definiert werden, z.B. durch die Anzahl der gemeinsamen Buchstaben, durch die Anzahl der benötigten Änderungen, um einen Begriff in den anderen umzuwandeln, usw. Alle diese Ansätze haben ihre Stärken und Schwächen in Abhängigkeit von der Art des zu vergleichenden Textes (z. B. einzelne Wörter, ganze Sätze, technische Namen usw.). Um einige dieser Abstandsmaße zu nennen: Die meisten messen, wie viele Änderungen (Operationen) erforderlich sind, um einen Text in den anderen umzuwandeln. Die Entscheidung für oder gegen eine Zuordnung basiert dann auf einem Schwellenwert. Dies ist ein vernünftiger Ansatz, aber es ist nicht so einfach, einen geeigneten Schwellwert festzulegen. Darüber hinaus fehlt dieser Methode jede menschliche Intelligenz, die je nach Daten möglicherweise noch besser funktioniert.

Textbasierte Ähnlichkeit vs. kontextbasierte Ähnlichkeit

Um zu veranschaulichen, wann textbasierte Ähnlichkeit durch kontextbasierte Ähnlichkeit übertroffen wird, werden einige Beispiele genannt. Es geht um John Adams und seinen Sohn John Quincy Adams, 2. und 6. Präsident der Vereinigten Staaten von Amerika.

Hier geht es nicht darum, textbasierte Ähnlichkeit zu tadeln. Der Zweck ist zu zeigen, dass die menschliche Gehirnleistung ihren Platz in der Datenzuordnungslandschaft hat, solange KIs für solche allgemeinen Aufgaben wie kontextbasierte Ähnlichkeit nicht klug genug sind.


Für die folgende Übersicht wird der Levenshtein-Abstand verwendet. Es beschreibt die Anzahl der Änderungen (d. h. Löschen, Einfügen, Ersetzen), die erforderlich sind, um eine Zeichenfolge in die andere umzuwandeln. Die Levenshtein-Ähnlichkeit wird durch 1 minus dem Quotienten des Levenshtein-Abstands durch die Länge der längeren Zeichenfolge berechnet. Dementsprechend beschreibt die maximale Levenshtein-Ähnlichkeit von 1 die Gleichheit und die minimale Levenshtein-Ähnlichkeit von 0 die vollständige Verschiedenheit.
Vergleich der Datenübereinstimmung mit Levenshtein-Ähnlichkeit und einem Schwellwert für Zuordnungen von 0,7
Zeichenfolge 1 Zeichenfolge 2 Abstand Ähnlichkeit Entscheidung Menschliche Prüfung
1
John Adams
Adams, John
11 0.00 Keine Zuordnung Falsch, dieselbe Person!
2
John Adams
J. Adams
3 0.70 Zuordnung Vielleicht dieselbe Person!
3
John Adams
John Q. Adams
3 0.77 Zuordnung Falsch, es sind Vater und Sohn!
4
John Adams
POTUS Nr. 2
10 0.09 Keine Zuordnung Falsch, dieselbe Person!
* POTUS=Präsident der Vereinigten Staaten

Matchmerize ist ein Werkzeug für Menschen, um kontextbasierte Datenzuordnungen effizienter zu erstellen

Nicht alle Datenzuordnungsaufgaben profitieren von kontextbasierten Zuordnungen, wie im obigen Beispiel. Es gibt jedoch Fälle, in denen (noch) keine KI und kein Algorithmus mit Textähnlichkeiten die Leistung eines menschlichen Gehirns übertrifft.

Um das Beste aus der menschlichen Gehirnleistung herauszuholen, ist ein leistungsstarkes Werkzeug erforderlich. Der Umgang mit Zuordnungen kann schnell unübersichtlich werden, da das Daten-Chaos an jeder Ecke lauert. Dies ist in der Regel das Problem, wenn Anwender Daten selbst zuordnen möchten oder müssen und sich dann Fragen, wie dies auch effizient erledigen können. Eines ist klar: Eine Tabellenkalkulation reicht nicht aus, um Daten zuzuordnen - weder für textbasierte noch für kontextbasierte Ansätze.
Erfahren Sie, warum die Datenzuordnung (Data Matching) schnell unübersichtlich wird und was Sie dagegen tun können