Matching IA

Détectez ce que les règles ne peuvent pas

Le matching sémantique alimenté par l'IA comprend le contexte et le sens, trouvant des doublons que les systèmes traditionnels basés sur des règles manquent.

Professional

Matching Sémantique, Coût Minimal

Les embeddings convertissent les enregistrements en vecteurs basés sur le sens pour la comparaison de similarité.

Comment ça marche

  1. 1Les champs d'enregistrement sont convertis en représentation textuelle
  2. 2Les embeddings OpenAI créent un vecteur à 1536 dimensions pour chaque enregistrement
  3. 3La similarité vectorielle trouve des enregistrements avec un sens similaire, pas seulement du texte correspondant
  • Sélection de champs configurable pour les embeddings
  • Détecte les fautes de frappe, abréviations et variations
  • Fonctionne à travers les langues et formats
  • Mis en cache pour éviter de ré-embedder les enregistrements inchangés

Configuration des Embeddings

Contrôlez quels champs sont utilisés pour le matching sémantique.

Professional

Champs Recommandés pour le Matching IA

INCLURE

  • Champs de nom (Prénom, Nom)
  • Nom de l'entreprise/compte
  • Titre du poste
  • Domaine email
  • Adresse (Ville, État)

EXCLURE

  • IDs d'enregistrement
  • Horodatages
  • Champs auto-générés
  • Champs binaires/booléens
  • Grandes zones de texte (notes)

Conseil pro : Utilisez des champs descriptifs et lisibles par l'homme pour de meilleurs résultats. L'IA comprend le sens sémantique, donc "Vice President of Sales" correspondra à "VP Sales" même sans chevauchement de texte exact.

Matching Multilingue

Les embeddings IA comprennent le sens à travers les langues et jeux de caractères.

Professional

Exemple : Correspondance d'Entreprise Internationale

ENREGISTREMENT A

Entreprise : Société Générale

Pays : France

ENREGISTREMENT B

Entreprise : Societe Generale SA

Pays : FR

Confiance du Match IA96%
  • Gère les caractères accentués (é, ü, ñ) de manière transparente
  • Fait correspondre les noms translittérés (Beijing = Pékin)
  • Comprend les variations de codes pays (France = FR = FRA)
  • Fonctionne avec le japonais, chinois, coréen, arabe et plus

Cache des Embeddings

Économisez des coûts en mettant en cache les embeddings pour les enregistrements inchangés.

Professional

Réduisez les coûts IA de 80%+ Les embeddings sont mis en cache et réutilisés pour les enregistrements qui n'ont pas changé, donc vous ne payez que pour les enregistrements nouveaux ou modifiés.

~$0.0001

par embedding d'enregistrement

$0

pour les enregistrements en cache

30 days

rétention du cache

Invalidation du Cache

Les embeddings sont automatiquement régénérés quand :

  • Un champ d'embedding est modifié
  • L'enregistrement est supprimé et recréé
  • Le cache expire après 30 jours
  • Vous déclenchez manuellement un re-scan complet

Explications IA

Des explications en langage naturel vous aident à comprendre pourquoi deux enregistrements correspondent.

Langage Adapté aux Affaires

"Ces enregistrements font probablement référence à la même personne car ils partagent des adresses email correspondantes et des noms d'entreprise similaires."

  • Résumés de 2-3 phrases pour chaque correspondance
  • Décomposition de similarité champ par champ
  • Alimenté par Claude AI (Anthropic)
  • Utilise des crédits IA (rechargez si nécessaire)

Pourquoi les Modèles de Fondation Surpassent le ML Personnalisé

Certains outils entraînent un modèle ML personnalisé sur vos données. Voici pourquoi nous utilisons des modèles de fondation pré-entraînés à la place.

Avantages des Modèles de Fondation

  • Fonctionne immédiatement avec une précision maximale — aucune période d'entraînement requise
  • Détecte les doublons jamais vus auparavant (compréhension sémantique)
  • Même qualité pour les nouveaux clients et les petits ensembles de données
  • Aucun risque d'apprendre à partir de modèles de données défectueux

Risques de l'Entraînement ML Par Client

Garbage In, Garbage Out

Si vos données existantes sont défectueuses, le modèle apprend à partir de modèles défaillants et peut perpétuer ou amplifier les problèmes existants.

Problème de Démarrage à Froid

Les modèles personnalisés ont besoin de temps et de données pour apprendre. Les nouveaux clients ou les petits ensembles de données obtiennent initialement de moins bons résultats.

Surapprentissage sur l'Historique

Le modèle apprend à quoi ressemblaient les doublons dans le passé. Les nouveaux modèles (acquisitions, changements de nommage) peuvent être manqués.

Décisions Boîte Noire

Quand un client demande "pourquoi avez-vous fusionné ceux-ci ?", il n'y a pas de réponse claire. Notre approche montre des scores règles + IA explicites.

Dérive du Modèle

Sans réentraînement continu, la précision se dégrade à mesure que les modèles de données évoluent — créant des échecs silencieux au fil du temps.

Risque de Conformité

Les industries réglementées exigent des décisions explicables. "Le modèle ML a décidé" n'est pas une réponse d'audit acceptable.

Notre approche basée sur les embeddings utilise un modèle de fondation pré-entraîné qui comprend la similarité sémantique universellement, plutôt que d'apprendre à partir de modèles spécifiques au client qui peuvent déjà être défectueux.

Règles Traditionnelles vs Matching IA

Voyez ce que le matching IA détecte que les règles manquent.

FeatureRègles TraditionnellesMatching IA
"John Smith" vs "Johnny Smith"
"Acme Corp" vs "ACME Corporation"Peut-être
Fautes de frappe et erreurs d'orthographeLimitéOui
Formats de champs différents
Pourcentages de confiance
ExplicabilitéNonOui

Titre :

ENREGISTREMENT A

Nom : Bill Johnson

Entreprise : Tech Solutions Inc

Titre : VP Sales

ENREGISTREMENT B

Nom : William Johnson

Entreprise : TechSolutions

Titre : Vice President of Sales

Confiance du Match IA94%

"Ces enregistrements font probablement référence à la même personne. Bill est un surnom courant pour William, et les noms d'entreprise sont des variations de la même entité. Les titres sont sémantiquement équivalents."