KI-Matching

Finden Sie, was Regeln nicht können

KI-gestütztes semantisches Matching versteht Kontext und Bedeutung und findet Duplikate, die traditionelle regelbasierte Systeme übersehen.

Professional

Semantisches Matching, minimale Kosten

Embeddings konvertieren Datensätze in bedeutungsbasierte Vektoren für Ähnlichkeitsvergleiche.

So funktioniert es

  1. 1Datensatzfelder werden in eine Textdarstellung umgewandelt
  2. 2OpenAI-Embeddings erstellen einen 1536-dimensionalen Vektor für jeden Datensatz
  3. 3Vektorähnlichkeit findet Datensätze mit ähnlicher Bedeutung, nicht nur übereinstimmendem Text
  • Konfigurierbare Feldauswahl für Embeddings
  • Erkennt Tippfehler, Abkürzungen und Variationen
  • Funktioniert über Sprachen und Formate hinweg
  • Gecacht, um unveränderte Datensätze nicht neu einzubetten

Embedding-Konfiguration

Steuern Sie, welche Felder für semantisches Matching verwendet werden.

Professional

Empfohlene Felder für KI-Matching

EINSCHLIESSEN

  • Namensfelder (Vorname, Nachname)
  • Firmen-/Kontoname
  • Berufsbezeichnung
  • E-Mail-Domain
  • Adresse (Stadt, Bundesland)

AUSSCHLIESSEN

  • Datensatz-IDs
  • Zeitstempel
  • Automatisch generierte Felder
  • Binäre/boolesche Felder
  • Große Textbereiche (Notizen)

Profi-Tipp: Verwenden Sie beschreibende, menschenlesbare Felder für beste Ergebnisse. Die KI versteht semantische Bedeutung, sodass "Vice President of Sales" mit "VP Sales" übereinstimmt, auch ohne exakte Textübereinstimmung.

Sprachübergreifendes Matching

KI-Embeddings verstehen Bedeutung über Sprachen und Zeichensätze hinweg.

Professional

Beispiel: Internationaler Firmenabgleich

DATENSATZ A

Firma: Société Générale

Land: France

DATENSATZ B

Firma: Societe Generale SA

Land: FR

KI-Match-Konfidenz96%
  • Verarbeitet akzentuierte Zeichen (é, ü, ñ) nahtlos
  • Matcht transliterierte Namen (Beijing = Peking)
  • Versteht Ländercde-Variationen (France = FR = FRA)
  • Funktioniert mit Japanisch, Chinesisch, Koreanisch, Arabisch und mehr

Embedding-Cache

Sparen Sie Kosten durch Caching von Embeddings für unveränderte Datensätze.

Professional

KI-Kosten um 80%+ reduzieren Embeddings werden gecacht und für unveränderte Datensätze wiederverwendet, sodass Sie nur für neue oder geänderte Datensätze zahlen.

~$0.0001

pro Datensatz-Embedding

$0

für gecachte Datensätze

30 days

Cache-Aufbewahrung

Cache-Invalidierung

Embeddings werden automatisch neu generiert, wenn:

  • Ein Embedding-Feld geändert wird
  • Datensatz gelöscht und neu erstellt wird
  • Cache nach 30 Tagen abläuft
  • Sie manuell einen vollständigen Re-Scan auslösen

KI-Erklärungen

Natürlichsprachige Erklärungen helfen Ihnen zu verstehen, warum zwei Datensätze übereinstimmen.

Geschäftsfreundliche Sprache

"Diese Datensätze beziehen sich wahrscheinlich auf dieselbe Person, da sie übereinstimmende E-Mail-Adressen und ähnliche Firmennamen haben."

  • 2-3 Satz-Zusammenfassungen für jede Übereinstimmung
  • Feld-für-Feld-Ähnlichkeitsaufschlüsselung
  • Powered by Claude AI (Anthropic)
  • Verwendet KI-Credits (bei Bedarf aufladen)

Warum Foundation-Modelle besser sind als Custom ML

Einige Tools trainieren ein kundenspezifisches ML-Modell auf Ihren Daten. Hier erfahren Sie, warum wir stattdessen vortrainierte Foundation-Modelle verwenden.

Vorteile von Foundation-Modellen

  • Funktioniert sofort mit voller Genauigkeit — keine Trainingszeit erforderlich
  • Erkennt Duplikate, die es noch nie gesehen hat (semantisches Verständnis)
  • Gleiche Qualität für neue Kunden und kleine Datensätze
  • Kein Risiko, aus fehlerhaften Datenmustern zu lernen

Risiken von kundenspezifischem ML-Training

Garbage In, Garbage Out

Wenn Ihre vorhandenen Daten fehlerhaft sind, lernt das Modell aus fehlerhaften Mustern und kann bestehende Probleme fortsetzen oder verstärken.

Kaltstartproblem

Kundenspezifische Modelle brauchen Zeit und Daten zum Lernen. Neue Kunden oder kleine Datensätze erhalten zunächst schlechtere Ergebnisse.

Überanpassung an die Vergangenheit

Das Modell lernt, wie Duplikate in der Vergangenheit aussahen. Neue Muster (Übernahmen, Namensänderungen) können übersehen werden.

Black-Box-Entscheidungen

Wenn ein Kunde fragt "Warum wurden diese zusammengeführt?", gibt es keine klare Antwort. Unser Ansatz zeigt explizite Regel- + KI-Scores.

Modelldrift

Ohne kontinuierliches Nachtraining verschlechtert sich die Genauigkeit mit der Entwicklung der Datenmuster — was zu stillen Fehlern führt.

Compliance-Risiko

Regulierte Branchen erfordern erklärbare Entscheidungen. "Das ML-Modell hat entschieden" ist keine akzeptable Audit-Antwort.

Unser Embedding-basierter Ansatz verwendet ein vortrainiertes Foundation-Modell, das semantische Ähnlichkeit universell versteht, anstatt aus kundenspezifischen Mustern zu lernen, die möglicherweise bereits fehlerhaft sind.

Traditionelle Regeln vs. KI-Matching

Sehen Sie, was KI-Matching erkennt, das Regeln übersehen.

FeatureTraditionelle RegelnKI-Matching
"John Smith" vs "Johnny Smith"
"Acme Corp" vs "ACME Corporation"Vielleicht
Tippfehler und SchreibfehlerBegrenztJa
Verschiedene Feldformate
Konfidenzprozentsätze
ErklärbarkeitNeinJa

Titel:

DATENSATZ A

Name: Bill Johnson

Firma: Tech Solutions Inc

Titel: VP Sales

DATENSATZ B

Name: William Johnson

Firma: TechSolutions

Titel: Vice President of Sales

KI-Match-Konfidenz94%

"Diese Datensätze beziehen sich wahrscheinlich auf dieselbe Person. Bill ist ein häufiger Spitzname für William, und die Firmennamen sind Variationen derselben Entität. Die Titel sind semantisch gleichwertig."