ホームに戻る

AI搭載マッチング

True Recordが機械学習を使用して、ルールベースのシステムでは見逃される重複を検出する方法。

概要

True Recordは、AIベクトルエンベディングと従来のマッチングルールを組み合わせて重複を検出します。このハイブリッドアプローチは、完全一致とあいまい/セマンティック類似性の両方を捕捉します。

セマンティック理解

テキストだけでなく意味を理解

サブ秒検索

ミリ秒単位でマッチを検出

ハイブリッドアプローチ

最高の精度を実現するAI + ルール

マッチングパイプライン

すべてのスキャンは、潜在的な重複を検出してスコアリングするための多段階パイプラインを通過します。

1

データ取り込み

レコードはAPI経由でSalesforceから取得され、正規化されます(小文字化、トリミング、標準フォーマット)。

2

エンベディング生成

主要なフィールドが連結され、OpenAIに送信されて1536次元のベクトルエンベディングが生成されます。

3

ベクトルインデックス作成

エンベディングはPostgreSQLにpgvectorで保存され、高速な類似性検索のためにHNSWを使用してインデックス化されます。

4

K-NN検索

各レコードに対して、コサイン類似度でK個の最近傍を検索します(デフォルトでK=5)。

5

候補フィルタリング

最小類似度閾値とブロッキングルールによって近傍がフィルタリングされ、偽陽性が削減されます。

6

信頼度スコアリング

最終的なマッチスコアは、ベクトル類似度とフィールドレベルの比較重みを組み合わせます。

ベクトルエンベディング

エンベディングはレコードのセマンティックな意味を捕捉し、フィールドのフォーマットが異なる場合や誤字が含まれている場合でも重複を検出できます。

エンベディングモデル

OpenAI text-embedding-3-small1536 dimensionsCosine similarity

OpenAIのtext-embedding-3-smallモデルを使用しています。このモデルは、エンティティマッチングタスクにおいて精度とパフォーマンスの優れたバランスを提供します。

エンベディングに使用されるフィールド

Lead:
NameCompanyEmailPhoneTitle
Contact:
NameEmailPhoneTitleAccount.Name
Account:
NameWebsitePhoneBillingCityIndustry

カスタムフィールド選択

設定タブでエンベディングに使用するフィールドを設定できます。最良の結果を得るために、レコードを一意に識別するフィールドを選択してください。

K-NN検索

K最近傍(K-NN)検索は、最も類似したエンベディングを持つレコードを検索します。スケーラビリティのために近似最近傍(ANN)検索を使用しています。

HNSWインデックス

Hierarchical Navigable Small World(HNSW)は、対数的な検索時間でほぼ完璧な再現率を提供するグラフベースのANNアルゴリズムです。

時間計算量: O(log n)

再現率: 一般的な設定で99%以上

pgvector拡張機能

外部依存関係なしでネイティブなベクトルストレージと類似性検索を行うために、PostgreSQLのpgvector拡張機能を使用しています。

インデックスタイプ: コサイン距離を使用したHNSW

1000万件以上のレコードでテスト済み

検索パラメータ

k (neighbors)5レコードごとに検索する近傍の数
最小類似度0.85この閾値を下回るマッチは破棄されます
バッチサイズ50並列処理されるレコード数

ハイブリッドマッチング

AIのみのマッチングは偽陽性を生成する可能性があります。精度を高めるためにK-NN結果とブロッキングルールを組み合わせています。

K-NN(再現率)

セマンティック類似性を使用して広範囲に検索します。誤字、略語、代替フォーマットを捕捉します。

ブロッキングルール(精度)

完全一致またはルールベースの条件(同じドメイン、同じ電話番号など)を使用して候補をフィルタリングします。

ハイブリッドアプローチの利点

  • AIのみより高い精度(偽陽性が少ない)
  • ルールのみより高い再現率(セマンティックマッチを捕捉)
  • 信頼度閾値による調整可能なバランス
  • フィールドレベルの内訳による説明可能なマッチ

信頼度スコアリング

各マッチは重み付けされたフィールド比較に基づいて0〜100%の信頼度スコアを受け取ります。

スコア計算

confidence = (weightedFieldScore / totalWeight) × 100

各フィールドには設定可能な重みがあります。最終スコアは個々のフィールドマッチスコア(完全一致、あいまい一致、または不一致)の加重平均です。クロスオブジェクトマッチは偽陽性を減らすために5%のペナルティを受けます。

50-69%

慎重に確認

70-89%

マッチの可能性あり

90-100%

非常に高い信頼度

エンベディングキャッシュ

エンベディングの生成にはコストがかかります。APIコストを最小限に抑え、スキャン速度を向上させるために積極的にキャッシュしています。

キャッシュの仕組み

各レコードのエンベディングは、入力フィールドのハッシュと共にキャッシュされます。フィールドが変更されると、新しいエンベディングが生成されます。

キャッシュの無効化

エンベディングは以下の場合に無効化されます:(1) Salesforceでソースフィールドが変更された場合、(2) マッチングに使用するフィールドを変更した場合、(3) 設定ページから手動で無効化した場合。

設定

AIマッチング設定はオブジェクトタイプごとに調整できます。

ダッシュボード > オブジェクトを選択 > 設定タブ > マッチングセクションで、類似度閾値、エンベディングフィールド、ブロッキングルールを設定できます。

よくある質問

AIマッチングの精度はどのくらいですか?

テストでは、ハイブリッドアプローチは一般的なCRMデータで95%以上の精度と98%以上の再現率を達成しています。精度はデータ品質とフィールド選択に依存します。

AIマッチングは英語以外のデータでも機能しますか?

はい。OpenAIのエンベディングモデルは100以上の言語をサポートしています。マッチングは言語を越えて機能しますが、英語での精度が最も高くなります。

AIマッチングのコストはいくらですか?

AIマッチングにはAIクレジットが必要で、別途購入できます。クレジット使用量を最小限に抑えるためにエンベディングをキャッシュしています。ほとんどのスキャンでは90%以上のキャッシュされたエンベディングを使用し、コストを大幅に削減しています。

AIマッチングを無効にしてルールのみを使用できますか?

はい。設定 → マッチングルールで「ルールのみ」モードを選択すると、AIエンベディングなしでブロッキングルールとフィールド比較のみに依存できます。

明らかな重複なのに信頼度が低いのはなぜですか?

低い信頼度は通常、レコードが主要なフィールドで異なることを意味します。エンベディングに使用されているフィールドを確認し、より多くの識別フィールドを追加することを検討してください。