AIマッチング

ルールでは見つけられないものを検出

AI搭載のセマンティックマッチングがコンテキストと意味を理解し、従来のルールベースシステムが見逃す重複を発見します。

Professional

セマンティックマッチング、最小コスト

エンベディングがレコードを意味ベースのベクトルに変換し、類似性を比較します。

仕組み

  1. 1レコードフィールドがテキスト表現に変換される
  2. 2OpenAIエンベディングが各レコードに1536次元のベクトルを作成
  3. 3ベクトル類似性が、テキストの一致だけでなく意味が似ているレコードを検出
  • エンベディング用のフィールド選択が設定可能
  • タイプミス、略語、バリエーションを検出
  • 言語やフォーマットを超えて動作
  • 変更のないレコードの再エンベディングを避けるためキャッシュ

エンベディング設定

セマンティックマッチングに使用するフィールドを制御します。

Professional

AIマッチングの推奨フィールド

含める

  • 名前フィールド(名、姓)
  • 会社名/取引先名
  • 役職
  • メールドメイン
  • 住所(市、都道府県)

除外する

  • レコードID
  • タイムスタンプ
  • 自動生成フィールド
  • バイナリ/ブールフィールド
  • 大きなテキストエリア(メモ)

プロのヒント: 最良の結果を得るには、説明的で人間が読めるフィールドを使用してください。AIはセマンティックな意味を理解するため、テキストが完全に一致しなくても「Vice President of Sales」は「VP Sales」にマッチします。

多言語マッチング

AIエンベディングは言語や文字セットを超えて意味を理解します。

Professional

例:国際企業マッチ

レコード A

会社: Société Générale

国: France

レコード B

会社: Societe Generale SA

国: FR

AIマッチ信頼度96%
  • アクセント付き文字(é、ü、ñ)をシームレスに処理
  • 音訳された名前をマッチ(Beijing = 北京)
  • 国コードのバリエーションを理解(France = FR = FRA)
  • 日本語、中国語、韓国語、アラビア語などで動作

エンベディングキャッシュ

変更のないレコードのエンベディングをキャッシュしてコストを節約。

Professional

AIコストを80%以上削減 エンベディングはキャッシュされ、変更のないレコードに再利用されるため、新規または変更されたレコードの分だけ支払います。

~$0.0001

レコードエンベディングあたり

$0

キャッシュされたレコード

30 days

キャッシュ保持期間

キャッシュ無効化

以下の場合、エンベディングは自動的に再生成されます:

  • エンベディングフィールドが変更された場合
  • レコードが削除され再作成された場合
  • キャッシュが30日後に期限切れになった場合
  • 手動でフル再スキャンをトリガーした場合

AI説明

自然言語での説明により、2つのレコードがなぜマッチしたかを理解できます。

ビジネス向け言語

「これらのレコードは、メールアドレスが一致し、会社名が類似しているため、おそらく同一人物を指しています。」

  • 各マッチに2〜3文の要約
  • フィールドごとの類似性の内訳
  • Claude AI(Anthropic)を使用
  • AIクレジットを使用(必要に応じてチャージ)

基盤モデルがカスタムMLに勝る理由

一部のツールはお客様のデータでカスタムMLモデルをトレーニングします。私たちが事前学習済み基盤モデルを使用する理由をご説明します。

基盤モデルの利点

  • トレーニング期間不要で即座にフル精度で動作
  • 見たことのない重複も検出(意味理解)
  • 新規顧客や小規模データセットでも同じ品質
  • 汚れたデータパターンから学習するリスクなし

顧客ごとのMLトレーニングのリスク

ゴミを入れればゴミが出る

既存のデータが汚れていれば、モデルは欠陥のあるパターンから学習し、既存の問題を永続化または増幅する可能性があります。

コールドスタート問題

カスタムモデルは学習に時間とデータが必要です。新規顧客や小規模データセットでは初期の結果が悪くなります。

過去への過学習

モデルは過去の重複がどのようなものだったかを学習します。新しいパターン(買収、命名規則の変更)は見逃される可能性があります。

ブラックボックスの決定

顧客が「なぜこれらをマージしたのか?」と尋ねても、明確な答えがありません。私たちのアプローチは明示的なルール+AIスコアを表示します。

モデルドリフト

継続的な再トレーニングがなければ、データパターンの進化に伴い精度が低下し、時間の経過とともにサイレント障害が発生します。

コンプライアンスリスク

規制産業では説明可能な決定が必要です。「MLモデルが決定した」は監査での許容される回答ではありません。

私たちのエンベディングベースのアプローチは、すでに欠陥がある可能性のある顧客固有のパターンから学習するのではなく、意味的類似性を普遍的に理解する事前学習済み基盤モデルを使用します。

従来のルール vs AIマッチング

ルールが見逃すものをAIマッチングが検出する様子をご覧ください。

Feature従来のルールAIマッチング
「John Smith」vs「Johnny Smith」
「Acme Corp」vs「ACME Corporation」場合による
タイプミスとスペルミス限定的はい
異なるフィールドフォーマット
信頼度パーセンテージ
説明可能性いいえはい

役職:

レコード A

名前: Bill Johnson

会社: Tech Solutions Inc

役職: VP Sales

レコード B

名前: William Johnson

会社: TechSolutions

役職: Vice President of Sales

AIマッチ信頼度94%

「これらのレコードはおそらく同一人物を指しています。BillはWilliamの一般的なニックネームであり、会社名は同じ会社のバリエーションです。役職はセマンティックに同等です。」