KI-gestütztes Matching

Wie True Record maschinelles Lernen nutzt, um Duplikate zu finden, die regelbasierte Systeme übersehen.

Übersicht

True Record kombiniert KI-Vektor-Embeddings mit traditionellen Matching-Regeln, um Duplikate zu finden. Dieser hybride Ansatz erfasst sowohl exakte Übereinstimmungen als auch unscharfe/semantische Ähnlichkeiten.

Semantisches Verständnis

Versteht Bedeutung, nicht nur Text

Suche in Sekundenbruchteilen

Findet Übereinstimmungen in Millisekunden

Hybrider Ansatz

KI + Regeln für beste Genauigkeit

Matching-Pipeline

Jeder Scan durchläuft eine mehrstufige Pipeline, um potenzielle Duplikate zu finden und zu bewerten.

1

Datenaufnahme

Datensätze werden über die API aus Salesforce abgerufen und normalisiert (Kleinschreibung, getrimmt, standardisierte Formate).

2

Embedding-Generierung

Schlüsselfelder werden verkettet und an OpenAI gesendet, um ein 1536-dimensionales Vektor-Embedding zu generieren.

3

Vektor-Indizierung

Embeddings werden in PostgreSQL mit pgvector gespeichert und mit HNSW für schnelle Ähnlichkeitssuche indiziert.

4

K-NN-Suche

Für jeden Datensatz finden wir die K nächsten Nachbarn nach Kosinus-Ähnlichkeit (K=5 standardmäßig).

5

Kandidatenfilterung

Nachbarn werden nach Mindestähnlichkeitsschwelle und Blocking-Regeln gefiltert, um Falsch-Positive zu reduzieren.

6

Konfidenz-Bewertung

Der finale Match-Score kombiniert Vektor-Ähnlichkeit mit feldbasierten Vergleichsgewichten.

Vektor-Embeddings

Embeddings erfassen die semantische Bedeutung von Datensätzen und ermöglichen es uns, Duplikate zu finden, auch wenn Felder unterschiedlich formatiert sind oder Tippfehler enthalten.

Embedding-Modell

OpenAI text-embedding-3-small1536 dimensionsCosine similarity

Wir verwenden OpenAIs text-embedding-3-small Modell, das eine ausgezeichnete Balance zwischen Genauigkeit und Leistung für Entity-Matching-Aufgaben bietet.

Für Embedding verwendete Felder

Lead:
NameCompanyEmailPhoneTitle
Contact:
NameEmailPhoneTitleAccount.Name
Account:
NameWebsitePhoneBillingCityIndustry

Benutzerdefinierte Feldauswahl

Sie können konfigurieren, welche Felder für das Embedding verwendet werden, im Tab Einstellungen. Wählen Sie Felder, die Datensätze eindeutig identifizieren, für beste Ergebnisse.

K-NN-Suche

K-Nearest-Neighbors (K-NN) Suche findet Datensätze mit den ähnlichsten Embeddings. Wir verwenden approximative Nearest-Neighbor (ANN) Suche für Skalierbarkeit.

HNSW-Index

Hierarchical Navigable Small World (HNSW) ist ein graphbasierter ANN-Algorithmus, der nahezu perfekte Recall mit logarithmischer Suchzeit bietet.

Zeitkomplexität: O(log n)

Recall: >99% bei typischen Einstellungen

pgvector-Erweiterung

Wir verwenden PostgreSQLs pgvector-Erweiterung für native Vektorspeicherung und Ähnlichkeitssuche ohne externe Abhängigkeiten.

Index-Typ: HNSW mit Kosinus-Distanz

Getestet mit 10M+ Datensätzen

Suchparameter

k (neighbors)5Anzahl der Nachbarn, die pro Datensatz gefunden werden sollen
Min. Ähnlichkeit0.85Schwellenwert, unter dem Übereinstimmungen verworfen werden
Batch-Größe50Parallel verarbeitete Datensätze

Hybrides Matching

Reines KI-Matching kann Falsch-Positive erzeugen. Wir kombinieren K-NN-Ergebnisse mit Blocking-Regeln für Präzision.

K-NN (Recall)

Wirft ein weites Netz mit semantischer Ähnlichkeit. Erfasst Tippfehler, Abkürzungen und alternative Formate.

Blocking-Regeln (Präzision)

Filtert Kandidaten mit exakten Übereinstimmungen oder regelbasierten Bedingungen (gleiche Domain, gleiche Telefonnummer usw.).

Vorteile des hybriden Ansatzes

  • Höhere Präzision als nur KI (weniger Falsch-Positive)
  • Höherer Recall als nur Regeln (erfasst semantische Übereinstimmungen)
  • Einstellbare Balance über Konfidenz-Schwellenwerte
  • Erklärbare Übereinstimmungen mit feldbasierten Aufschlüsselungen

Konfidenz-Bewertung

Jede Übereinstimmung erhält einen Konfidenz-Score von 0-100% basierend auf gewichteten Feldvergleichen.

Score-Berechnung

confidence = (weightedFieldScore / totalWeight) × 100

Jedes Feld hat ein konfigurierbares Gewicht. Der Endscore ist der gewichtete Durchschnitt der einzelnen Feld-Match-Scores (exakte Übereinstimmung, unscharfe Übereinstimmung oder keine Übereinstimmung). Objektübergreifende Matches erhalten einen 5%-Abzug zur Reduzierung falsch-positiver Ergebnisse.

50-69%

Sorgfältig prüfen

70-89%

Wahrscheinliche Übereinstimmung

90-100%

Sehr hohe Konfidenz

Embedding-Cache

Die Generierung von Embeddings ist teuer. Wir cachen sie aggressiv, um API-Kosten zu minimieren und die Scan-Geschwindigkeit zu verbessern.

Wie Caching funktioniert

Das Embedding jedes Datensatzes wird mit einem Hash der Eingabefelder gecacht. Wenn sich Felder ändern, wird ein neues Embedding generiert.

Cache-Invalidierung

Embeddings werden invalidiert, wenn: (1) Quellfelder in Salesforce geändert werden, (2) Sie ändern, welche Felder für das Matching verwendet werden, oder (3) manuell über die Einstellungsseite.

Konfiguration

KI-Matching-Einstellungen können pro Objekttyp angepasst werden.

Gehen Sie zu Dashboard > Objekt auswählen > Tab Einstellungen > Abschnitt Matching, um Ähnlichkeitsschwellen, Embedding-Felder und Blocking-Regeln zu konfigurieren.

Häufig gestellte Fragen

Wie genau ist KI-Matching?

In Tests erreicht unser hybrider Ansatz 95%+ Präzision und 98%+ Recall bei typischen CRM-Daten. Die Genauigkeit hängt von der Datenqualität und Feldauswahl ab.

Funktioniert KI-Matching für nicht-englische Daten?

Ja. OpenAIs Embedding-Modell unterstützt über 100 Sprachen. Matching funktioniert sprachübergreifend, obwohl die Genauigkeit bei Englisch am höchsten ist.

Wie viel kostet KI-Matching?

KI-Matching erfordert KI-Credits, die separat erworben werden können. Wir cachen Embeddings, um den Credit-Verbrauch zu minimieren – die meisten Scans verwenden 90%+ gecachte Embeddings, was die Kosten erheblich reduziert.

Kann ich KI-Matching deaktivieren und nur Regeln verwenden?

Ja. In Einstellungen → Matching-Regeln wählen Sie den Modus 'Nur Regeln', um sich ausschließlich auf Blocking-Regeln und Feldvergleiche ohne KI-Embeddings zu verlassen.

Warum haben einige offensichtliche Duplikate eine niedrige Konfidenz?

Niedrige Konfidenz bedeutet normalerweise, dass sich die Datensätze in Schlüsselfeldern unterscheiden. Überprüfen Sie, welche Felder für das Embedding verwendet werden, und erwägen Sie, weitere identifizierende Felder hinzuzufügen.