Retour à l'accueil

Matching alimenté par l'IA

Comment True Record utilise l'apprentissage automatique pour trouver les doublons que les systèmes basés sur des règles manquent.

Aperçu

True Record combine les embeddings vectoriels IA avec les règles de correspondance traditionnelles pour trouver les doublons. Cette approche hybride capture à la fois les correspondances exactes et les similarités floues/sémantiques.

Compréhension sémantique

Comprend le sens, pas seulement le texte

Recherche en moins d'une seconde

Trouve les correspondances en millisecondes

Approche hybride

IA + règles pour la meilleure précision

Pipeline de matching

Chaque scan passe par un pipeline multi-étapes pour trouver et noter les doublons potentiels.

1

Ingestion des données

Les enregistrements sont récupérés depuis Salesforce via l'API et normalisés (minuscules, espaces supprimés, formats standardisés).

2

Génération d'embeddings

Les champs clés sont concaténés et envoyés à OpenAI pour générer un embedding vectoriel à 1536 dimensions.

3

Indexation vectorielle

Les embeddings sont stockés dans PostgreSQL avec pgvector et indexés avec HNSW pour une recherche de similarité rapide.

4

Recherche K-NN

Pour chaque enregistrement, nous trouvons les K plus proches voisins par similarité cosinus (K=5 par défaut).

5

Filtrage des candidats

Les voisins sont filtrés par seuil de similarité minimum et règles de blocage pour réduire les faux positifs.

6

Score de confiance

Le score de correspondance final combine la similarité vectorielle avec les poids de comparaison au niveau des champs.

Embeddings vectoriels

Les embeddings capturent la signification sémantique des enregistrements, nous permettant de trouver des doublons même lorsque les champs sont formatés différemment ou contiennent des fautes de frappe.

Modèle d'embedding

OpenAI text-embedding-3-small1536 dimensionsCosine similarity

Nous utilisons le modèle text-embedding-3-small d'OpenAI, qui offre un excellent équilibre entre précision et performance pour les tâches de correspondance d'entités.

Champs utilisés pour l'embedding

Lead:
NameCompanyEmailPhoneTitle
Contact:
NameEmailPhoneTitleAccount.Name
Account:
NameWebsitePhoneBillingCityIndustry

Sélection de champs personnalisés

Vous pouvez configurer quels champs sont utilisés pour l'embedding dans l'onglet Paramètres. Choisissez des champs qui identifient de manière unique les enregistrements pour de meilleurs résultats.

Recherche K-NN

La recherche K-Nearest Neighbors (K-NN) trouve les enregistrements avec les embeddings les plus similaires. Nous utilisons la recherche approximative du plus proche voisin (ANN) pour la scalabilité.

Index HNSW

Hierarchical Navigable Small World (HNSW) est un algorithme ANN basé sur les graphes qui fournit un rappel quasi parfait avec un temps de recherche logarithmique.

Complexité temporelle : O(log n)

Rappel : >99% avec les paramètres typiques

Extension pgvector

Nous utilisons l'extension pgvector de PostgreSQL pour le stockage vectoriel natif et la recherche de similarité sans dépendances externes.

Type d'index : HNSW avec distance cosinus

Testé jusqu'à 10M+ enregistrements

Paramètres de recherche

k (neighbors)5Nombre de voisins à trouver par enregistrement
Similarité min.0.85Seuil en dessous duquel les correspondances sont écartées
Taille du lot50Enregistrements traités en parallèle

Matching hybride

Le matching IA seul peut faire apparaître des faux positifs. Nous combinons les résultats K-NN avec des règles de blocage pour la précision.

K-NN (Rappel)

Ratisse large en utilisant la similarité sémantique. Capture les fautes de frappe, abréviations et formats alternatifs.

Règles de blocage (Précision)

Filtre les candidats en utilisant des conditions de correspondance exacte ou basées sur des règles (même domaine, même téléphone, etc.).

Avantages de l'approche hybride

  • Précision plus élevée que l'IA seule (moins de faux positifs)
  • Rappel plus élevé que les règles seules (capture les correspondances sémantiques)
  • Équilibre ajustable via les seuils de confiance
  • Correspondances explicables avec détails au niveau des champs

Score de confiance

Chaque correspondance reçoit un score de confiance de 0 à 100% basé sur des comparaisons de champs pondérées.

Calcul du score

confidence = (weightedFieldScore / totalWeight) × 100

Chaque champ a un poids configurable. Le score final est la moyenne pondérée des scores de correspondance individuels des champs (correspondance exacte, correspondance floue ou pas de correspondance). Les correspondances inter-objets reçoivent une pénalité de 5% pour réduire les faux positifs.

50-69%

Vérifier attentivement

70-89%

Correspondance probable

90-100%

Confiance très élevée

Cache d'embeddings

La génération d'embeddings est coûteuse. Nous les mettons en cache de manière agressive pour minimiser les coûts d'API et améliorer la vitesse de scan.

Comment fonctionne le cache

L'embedding de chaque enregistrement est mis en cache avec un hash des champs d'entrée. Lorsque les champs changent, un nouvel embedding est généré.

Invalidation du cache

Les embeddings sont invalidés lorsque : (1) les champs sources sont modifiés dans Salesforce, (2) vous changez les champs utilisés pour le matching, ou (3) manuellement via la page Paramètres.

Configuration

Les paramètres de matching IA peuvent être ajustés par type d'objet.

Allez dans Tableau de bord > Sélectionner un objet > Onglet Paramètres > Section Matching pour configurer les seuils de similarité, les champs d'embedding et les règles de blocage.

Questions fréquentes

Quelle est la précision du matching IA ?

Lors des tests, notre approche hybride atteint une précision de 95%+ et un rappel de 98%+ sur des données CRM typiques. La précision dépend de la qualité des données et de la sélection des champs.

Le matching IA fonctionne-t-il pour les données non anglaises ?

Oui. Le modèle d'embedding d'OpenAI prend en charge plus de 100 langues. Le matching fonctionne entre les langues, bien que la précision soit la plus élevée pour l'anglais.

Combien coûte le matching IA ?

Le matching IA nécessite des crédits IA, qui peuvent être achetés séparément. Nous mettons en cache les embeddings pour minimiser l'utilisation des crédits - la plupart des scans utilisent 90%+ d'embeddings mis en cache, réduisant considérablement les coûts.

Puis-je désactiver le matching IA et utiliser uniquement les règles ?

Oui. Dans Paramètres → Règles de matching, sélectionnez le mode 'Règles uniquement' pour vous appuyer entièrement sur les règles de blocage et les comparaisons de champs sans embeddings IA.

Pourquoi certains doublons évidents ont-ils une faible confiance ?

Une faible confiance signifie généralement que les enregistrements diffèrent dans les champs clés. Vérifiez quels champs sont utilisés pour l'embedding et envisagez d'ajouter plus de champs d'identification.