Wenn es um die Zuordnung von Daten ohne eindeutige Kennung geht, ist die textbasierte Ähnlichkeit weit verbreitet. Das Vergleichen von Texten und das Bestimmen wie ähnlich sie sich sind, wird verwendet, um eine Entscheidung für oder gegen die Zuordnung zu treffen.
Textbasierte Ähnlichkeit kann auf verschiedene Arten definiert werden, z.B. durch die Anzahl der gemeinsamen Buchstaben, durch die Anzahl der benötigten Änderungen, um einen Begriff in den anderen umzuwandeln, usw. Alle diese Ansätze haben ihre Stärken und Schwächen in Abhängigkeit von der Art des zu vergleichenden Textes (z. B. einzelne Wörter, ganze Sätze, technische Namen usw.). Um einige dieser Abstandsmaße zu nennen:
Die meisten messen, wie viele Änderungen (Operationen) erforderlich sind, um einen Text in den anderen umzuwandeln. Die Entscheidung für oder gegen eine Zuordnung basiert dann auf einem Schwellenwert. Dies ist ein vernünftiger Ansatz, aber es ist nicht so einfach, einen geeigneten Schwellwert festzulegen. Darüber hinaus fehlt dieser Methode jede menschliche Intelligenz, die je nach Daten möglicherweise noch besser funktioniert.
Um zu veranschaulichen, wann textbasierte Ähnlichkeit durch kontextbasierte Ähnlichkeit übertroffen wird, werden einige Beispiele genannt. Es geht um John Adams und seinen Sohn John Quincy Adams, 2. und 6. Präsident der Vereinigten Staaten von Amerika.
Hier geht es nicht darum, textbasierte Ähnlichkeit zu tadeln. Der Zweck ist zu zeigen, dass die menschliche Gehirnleistung ihren Platz in der Datenzuordnungslandschaft hat, solange KIs für solche allgemeinen Aufgaben wie kontextbasierte Ähnlichkeit nicht klug genug sind.
Nicht alle Datenzuordnungsaufgaben profitieren von kontextbasierten Zuordnungen, wie im obigen Beispiel. Es gibt jedoch Fälle, in denen (noch) keine KI und kein Algorithmus mit Textähnlichkeiten die Leistung eines menschlichen Gehirns übertrifft.
Um das Beste aus der menschlichen Gehirnleistung herauszuholen, ist ein leistungsstarkes Werkzeug erforderlich. Der Umgang mit Zuordnungen kann schnell unübersichtlich werden, da das Daten-Chaos an jeder Ecke lauert. Dies ist in der Regel das Problem, wenn Anwender Daten selbst zuordnen möchten oder müssen und sich dann Fragen, wie dies auch effizient erledigen können. Eines ist klar: Eine Tabellenkalkulation reicht nicht aus, um Daten zuzuordnen - weder für textbasierte noch für kontextbasierte Ansätze.