ホームに戻る

マッチングルール

True RecordがSalesforceデータ内の重複レコードを識別する方法を設定します。

マッチングモード

True Recordは、さまざまなニーズに対応する3つのマッチングモードを提供しています。設定 → マッチングルールでマッチングモードを設定してください。

ルールのみ

設定されたウェイトとしきい値を使用した従来のフィールドごとの比較。一貫したフォーマットの構造化データに最適です。

Pros
  • + AIクレジット不要
  • + 最速のパフォーマンス
  • + 予測可能な結果
Cons
  • - バリエーション(タイプミス、略語)を見逃す可能性あり
  • - 慎重なフィールド設定が必要

AIのみ

AIエンベディングを使用して意味的に類似したレコードを検索します。バリエーションやあいまいマッチの検出に最適です。

Pros
  • + タイプミスやバリエーションを検出
  • + 略語を処理
  • + 多言語マッチング
Cons
  • - AIクレジットが必要
  • - 偽陽性が発生する可能性あり

ハイブリッド

AI類似性とルールベースのマッチングを組み合わせて最高の精度を実現します。OR論理を使用—AIまたはルールのいずれかが重複を検出した場合にマッチします。

Pros
  • + 最高の精度
  • + 完全一致とあいまい一致の両方を検出
  • + AIウェイトを設定可能
Cons
  • - AIクレジットが必要
  • - ルールのみよりわずかに遅い

各モードの使いどころ

データ品質と目標に基づいて適切なモードを選択してください。

ルールのみ

一貫したフォーマットのクリーンで標準化されたデータ。スピードが重要な大量スキャン。レビューするマッチ数が少ない方を好むユーザー。

高い精度、低い再現率。タイプミス、略語、フォーマットのバリエーションを持つ重複を見逃す可能性があります。

ハイブリッド

タイプミス、略語、または一貫性のないフォーマットを含む乱雑なデータ。スピードよりも網羅性が重要な場合。ルールでは見逃すエッジケースの検出。

高い再現率、レビューするマッチが増加。手動レビューが必要な偽陽性が含まれる場合があります。

最初のクリーンアップにはルールのみから始めてください。最終パスや隠れた重複が疑われる場合はハイブリッドを使用してください。

自動ブロッキング

ブロッキングは自動的に行われます。マッチングルールを設定すると、システムは同じフィールドを使用して比較前にレコードをインテリジェントにグループ化し、パフォーマンスを大幅に向上させます。

ブロッキングの仕組み

すべてのレコードを他のすべてのレコードと比較する(O(n²))代わりに、ブロッキングは共有フィールド値でレコードをグループ化し、グループ内でのみ比較します。これにより複雑度がO(n × block_size)に削減されます。システムは、設定されたマッチングフィールドとそのタイプ(メールドメイン、電話番号の末尾、名前のプレフィックスなど)に基づいてブロッキングキーを自動的に生成します。

名前とメールでマッチングする場合、ブロッキングは類似した名前のプレフィックスまたはメールドメインを共有するレコードをグループ化します。「John Smith at acme.com」というレコードは、類似した名前または同じメールドメインを持つ他のレコードと比較され、無関係なレコードとは比較されません。

仕組み

  1. 1設定 → マッチングルールでマッチングフィールドを設定
  2. 2システムは自動的にフィールドタイプを使用してブロッキングキーを作成
  3. 3メールフィールド → ドメインとローカルパートのプレフィックスでグループ化
  4. 4名前フィールド → プレフィックスと音声類似性(Soundex)でグループ化
  5. 5電話フィールド → 下4〜7桁でグループ化
  6. 6会社フィールド → 正規化された名前のプレフィックスでグループ化

ベストプラクティス

  • より良いブロッキングカバレッジのために複数のマッチングフィールドを設定
  • メールドメインブロッキングはB2B連絡先に最適
  • 名前と電話フィールドは追加のブロッキング次元を提供
  • システムは正規化(大文字小文字、句読点、一般的な接尾辞)を自動的に処理

フィールドウェイト

各フィールドにウェイト(1〜100)を割り当てて、マッチスコア計算における重要度を制御します。

フィールドウェイト説明
メール100最高ウェイト—メールは通常、個人ごとに一意です
名前80高ウェイト—名前は強力な識別子ですが、バリエーションがある可能性があります
電話70良い識別子ですが、共有されたり、異なるフォーマットになる可能性があります
会社60重要なコンテキストですが、人は転職します
市区町村30低ウェイト—コンテキストを提供しますが、多くの人が同じ場所を共有しています

スコア計算

最終マッチスコアは加重平均です:Σ(field_similarity × weight) / Σ(weights)。いずれかのレコードでnull値を持つフィールドは計算から除外されます。

マッチしきい値

しきい値は、どのペアが潜在的な重複または完全な重複としてフラグ付けされるかを決定します。

70%

潜在的マッチ(70%)

スコアが70〜89%のレコードは潜在的な重複としてフラグ付けされます。これらは手動で確認してください。

90%

完全マッチ(90%)

スコアが90%以上のレコードは強い重複と見なされます。これらは自信を持ってマージできることが多いです。

しきい値は、データ品質要件に合わせて設定 → マッチングルールで調整できます。

よくある質問

オブジェクトタイプで重複が検出されないのはなぜですか?

ブロッキングは自動的で、設定されたマッチングフィールドに基づいています。設定 → マッチングルールでオブジェクトタイプのマッチングフィールドが設定されていることを確認してください。システムはメールドメイン、名前のプレフィックス、電話番号、その他のフィールドタイプからブロッキングキーを作成します。マッチングフィールドが設定されていない場合、基本的なフォールバックブロッキングのみが適用されます。

オプションフィールドには高いウェイトと低いウェイトのどちらを使用すべきですか?

空になることが多いオプションフィールドには低いウェイト(20〜40)を使用してください。スパースフィールドに高いウェイトを設定すると、一方のレコードにそのフィールドがない場合にスコアが歪む可能性があります。

異なるオブジェクトに異なるルールを設定できますか?

はい。各オブジェクトタイプ(リード、取引先責任者、取引先)には独自のマッチング設定があります。設定 → マッチングルールでそれぞれを設定してください。

「Bob」と「Robert」のような名前のバリエーションはどのように処理しますか?

AIマッチングは一般的なバリエーションを自動的に処理します。ルールのみモードでは、ファジーマッチングアルゴリズムがマイナーなバリエーションを検出しますが、ニックネームのマッピングにはAIモードが必要です。