PostgreSQL MERGE文 vs INSERT ON CONFLICT：使い分けと最適な選択

はい、承知いたしました。PostgreSQLのMERGE文とINSERT ON CONFLICT句について、使い分けと最適な選択を詳細に解説する記事を作成します。

PostgreSQL MERGE文 vs INSERT ON CONFLICT：使い分けと最適な選択

データ操作は、データベースの核心的な機能です。中でも、新しいデータの挿入、既存データの更新、および特定の条件に基づいたこれらの操作の組み合わせは、頻繁に必要とされる処理です。PostgreSQLは、これらのニーズに応えるため、MERGE文（PostgreSQL 15以降）とINSERT ON CONFLICT句という強力なツールを提供しています。

この記事では、これらの構文を深く掘り下げ、その機能、使用例、パフォーマンス特性を比較検討し、具体的なシナリオにおける最適な選択肢を明確にすることを目的とします。

1. はじめに：データ操作の課題と解決策

データ管理の現場では、日々大量のデータが生成され、データベースに蓄積されます。これらのデータを効果的に活用するためには、適切なデータの追加、更新、削除が不可欠です。しかし、単純なINSERT、UPDATE、DELETE文だけでは、複雑な条件や競合が発生する状況に対応しきれない場合があります。

例えば、以下のようなシナリオが考えられます。

データ同期: 異なるソースから取得したデータを、既存のデータベースに同期する必要がある。
冪等性確保: 処理を複数回実行しても、データベースの状態が一貫するようにする必要がある（例：重複レコードの作成を防ぐ）。
条件付き更新/挿入: 特定の条件を満たすレコードが存在する場合は更新、存在しない場合は挿入を行う必要がある。

これらの課題を解決するために、PostgreSQLはMERGE文とINSERT ON CONFLICT句を提供しています。これらの構文を使用することで、複雑なデータ操作を簡潔かつ効率的に記述できます。

2. `INSERT ON CONFLICT`句の詳細解説

INSERT ON CONFLICT句は、指定された制約（通常はUNIQUE制約）に違反するレコードを挿入しようとした場合に、その競合をどのように処理するかを制御します。これは、UPSERT（UPDATE or INSERT）操作を実現するための標準的な方法として、PostgreSQL 9.5から導入されました。

2.1 基本構文

sql INSERT INTO target_table (column1, column2, ...) VALUES (value1, value2, ...) ON CONFLICT (conflict_target) conflict_action;

target_table: データを挿入するテーブル名。
(column1, column2, ...): 挿入する列のリスト（省略可能）。省略した場合は、テーブルのすべての列に値を挿入します。
VALUES (value1, value2, ...): 挿入する値のリスト。複数の値を挿入する場合は、VALUES (value1, value2, ...), (value3, value4, ...), ...のように記述します。
ON CONFLICT (conflict_target): 競合が発生した場合の処理を指定します。
- conflict_target: 競合を検出するための対象となる制約または列のリスト。通常はUNIQUE制約またはPRIMARY KEY制約が指定されます。複数の列を指定する場合は、(column1, column2, ...)のように記述します。制約名を直接指定することも可能です。
conflict_action: 競合が発生した場合のアクション。以下のいずれかを指定します。
- DO NOTHING: 競合が発生した場合、何も行いません（挿入をスキップします）。
- DO UPDATE SET column1 = value1, column2 = value2, ... WHERE condition: 競合が発生した場合、既存のレコードを更新します。WHERE句を使用して、更新対象のレコードを絞り込むことができます。

2.2 `conflict_target`の指定

conflict_targetは、競合を検出するために非常に重要な要素です。以下のいずれかを指定できます。

列のリスト: テーブルに定義されたUNIQUE制約またはPRIMARY KEY制約に関連付けられた列のリスト。
制約名: テーブルに定義された制約の名前。

列のリストを指定する場合、PostgreSQLは指定された列にUNIQUE制約またはPRIMARY KEY制約が存在することを前提とします。存在しない場合、エラーが発生します。

制約名を指定する場合、より明示的に競合の対象を定義できます。特に、複数のUNIQUE制約が存在する場合や、複合UNIQUE制約を使用する場合に有効です。

2.3 `conflict_action`の種類

conflict_actionは、競合が発生した場合にどのような処理を行うかを決定します。

DO NOTHING: 最も単純なアクションで、競合が発生した場合に挿入をスキップします。これは、冪等性を確保するために有用です。例えば、ログデータの収集において、重複したログエントリの挿入を防止する場合などに使用できます。
DO UPDATE SET ... WHERE ...: より柔軟なアクションで、競合が発生した場合に既存のレコードを更新します。SET句を使用して、更新する列とその値を指定します。WHERE句を使用して、更新対象のレコードを絞り込むことができます。

DO UPDATE SET句では、以下の特別なキーワードを使用できます。

EXCLUDED: 挿入しようとした新しいレコードの値を参照するために使用します。例えば、EXCLUDED.column1は、挿入しようとしたレコードのcolumn1の値を参照します。
target_table: 既存のテーブルの列を参照するために使用します。例えば、target_table.column1は、既存のレコードのcolumn1の値を参照します。

これらのキーワードを使用することで、挿入しようとした新しいレコードの値に基づいて、既存のレコードを更新することができます。

2.4 使用例

以下に、INSERT ON CONFLICT句の具体的な使用例を示します。

例1：DO NOTHINGを使用した冪等性確保

“`sql
CREATE TABLE users (
id SERIAL PRIMARY KEY,
username VARCHAR(255) UNIQUE,
email VARCHAR(255)
);

INSERT INTO users (username, email)
VALUES (‘john_doe’, ‘[email protected]’)
ON CONFLICT (username) DO NOTHING;
“`

この例では、usersテーブルに新しいユーザーを挿入しようとしています。username列にはUNIQUE制約が設定されているため、同じusernameを持つユーザーが既に存在する場合、ON CONFLICT (username) DO NOTHING句によって挿入はスキップされます。

例2：DO UPDATE SETを使用した条件付き更新

“`sql
CREATE TABLE products (
id SERIAL PRIMARY KEY,
product_code VARCHAR(255) UNIQUE,
name VARCHAR(255),
price DECIMAL(10, 2)
);

INSERT INTO products (product_code, name, price)
VALUES (‘ABC123’, ‘New Product’, 19.99)
ON CONFLICT (product_code) DO UPDATE
SET name = EXCLUDED.name, price = EXCLUDED.price;
“`

この例では、productsテーブルに新しい製品を挿入しようとしています。product_code列にはUNIQUE制約が設定されているため、同じproduct_codeを持つ製品が既に存在する場合、ON CONFLICT (product_code) DO UPDATE句によって既存の製品が更新されます。SET句では、挿入しようとした新しい製品の名前と価格を使用して、既存の製品の名前と価格を更新しています。

例3：WHERE句を使用した更新対象の絞り込み

“`sql
CREATE TABLE inventory (
product_id INTEGER REFERENCES products(id),
location VARCHAR(255),
quantity INTEGER,
PRIMARY KEY (product_id, location)
);

INSERT INTO inventory (product_id, location, quantity)
VALUES (1, ‘Warehouse A’, 100)
ON CONFLICT (product_id, location) DO UPDATE
SET quantity = inventory.quantity + EXCLUDED.quantity
WHERE inventory.quantity < 50;
“`

この例では、inventoryテーブルに製品の在庫情報を挿入しようとしています。product_idとlocationの組み合わせにはPRIMARY KEY制約が設定されているため、同じ組み合わせの在庫情報が既に存在する場合、ON CONFLICT (product_id, location) DO UPDATE句によって既存の在庫情報が更新されます。WHERE句では、既存の在庫数が50未満の場合のみ更新を行うように指定しています。

2.5 注意点

INSERT ON CONFLICT句は、PostgreSQL 9.5以降で利用可能です。
conflict_targetに指定する列には、UNIQUE制約またはPRIMARY KEY制約が設定されている必要があります。
DO UPDATE SET句では、EXCLUDEDキーワードを使用して、挿入しようとした新しいレコードの値を参照できます。
DO UPDATE SET句では、WHERE句を使用して、更新対象のレコードを絞り込むことができます。
INSERT ON CONFLICT句は、アトミックな操作です。つまり、挿入または更新が完全に成功するか、完全に失敗するかのいずれかです。

3. `MERGE`文の詳細解説

MERGE文は、SQL:2003標準で導入された機能で、ソーステーブル（またはサブクエリ）のデータに基づいて、ターゲットテーブルのデータを更新または挿入するための強力なツールです。PostgreSQLではバージョン15から正式にサポートされました。MERGE文は、複雑なデータ同期や変換のシナリオにおいて、INSERT ON CONFLICT句よりも柔軟で簡潔な構文を提供します。

3.1 基本構文

sql MERGE INTO target_table AS target USING source_table AS source ON join_condition WHEN MATCHED THEN UPDATE SET column1 = value1, column2 = value2, ... WHEN NOT MATCHED THEN INSERT (column1, column2, ...) VALUES (value1, value2, ...);

target_table: データを更新または挿入するターゲットテーブル。AS targetでエイリアスを指定できます。
source_table: データを提供するソーステーブルまたはサブクエリ。AS sourceでエイリアスを指定できます。
join_condition: ターゲットテーブルとソーステーブルを結合するための条件。
WHEN MATCHED THEN ...: 結合条件を満たす（つまり、ターゲットテーブルに一致するレコードが存在する）場合に実行するアクション。通常はUPDATE文を使用します。
WHEN NOT MATCHED THEN ...: 結合条件を満たさない（つまり、ターゲットテーブルに一致するレコードが存在しない）場合に実行するアクション。通常はINSERT文を使用します。

3.2 `USING`句：ソースデータの指定

USING句は、MERGE文の最も重要な要素の一つで、更新または挿入に使用するソースデータを指定します。ソースデータは、テーブルだけでなく、サブクエリやVALUES句を使用して直接指定することも可能です。

サブクエリを使用することで、複雑なデータ変換や集計処理をソースデータとして利用できます。VALUES句を使用することで、静的なデータを直接指定できます。

3.3 `ON`句：結合条件の定義

ON句は、ターゲットテーブルとソーステーブルを結合するための条件を定義します。この結合条件に基づいて、WHEN MATCHED THEN句またはWHEN NOT MATCHED THEN句が実行されます。

結合条件は、通常はターゲットテーブルとソーステーブルのキーとなる列を比較する条件式です。例えば、target.id = source.idのように、ID列が一致する場合に結合するといった条件を記述します。

3.4 `WHEN MATCHED THEN`句：更新処理

WHEN MATCHED THEN句は、結合条件を満たす場合に実行するアクションを定義します。通常はUPDATE文を使用して、ターゲットテーブルのレコードを更新します。

UPDATE文では、SET句を使用して更新する列とその値を指定します。ソーステーブルの列を参照する場合は、source.column1のようにエイリアスを使用して指定します。

オプションとして、AND conditionを追加することで、更新処理を実行する条件をさらに絞り込むことができます。

3.5 `WHEN NOT MATCHED THEN`句：挿入処理

WHEN NOT MATCHED THEN句は、結合条件を満たさない場合に実行するアクションを定義します。通常はINSERT文を使用して、ターゲットテーブルに新しいレコードを挿入します。

INSERT文では、挿入する列のリストと、挿入する値のリストを指定します。ソーステーブルの列を参照する場合は、source.column1のようにエイリアスを使用して指定します。

3.6 使用例

以下に、MERGE文の具体的な使用例を示します。

例1：単純なデータ同期

“`sql
CREATE TABLE source_products (
id INTEGER PRIMARY KEY,
name VARCHAR(255),
price DECIMAL(10, 2)
);

CREATE TABLE target_products (
id INTEGER PRIMARY KEY,
name VARCHAR(255),
price DECIMAL(10, 2)
);

MERGE INTO target_products AS target
USING source_products AS source
ON target.id = source.id
WHEN MATCHED THEN
UPDATE SET name = source.name, price = source.price
WHEN NOT MATCHED THEN
INSERT (id, name, price) VALUES (source.id, source.name, source.price);
“`

この例では、source_productsテーブルのデータに基づいて、target_productsテーブルを更新または挿入します。ON句では、id列が一致する場合に結合するように指定しています。WHEN MATCHED THEN句では、nameとprice列を更新します。WHEN NOT MATCHED THEN句では、id、name、price列を挿入します。

例2：条件付き更新/挿入

“`sql
CREATE TABLE source_customers (
id INTEGER PRIMARY KEY,
name VARCHAR(255),
status VARCHAR(255)
);

CREATE TABLE target_customers (
id INTEGER PRIMARY KEY,
name VARCHAR(255),
status VARCHAR(255)
);

MERGE INTO target_customers AS target
USING source_customers AS source
ON target.id = source.id
WHEN MATCHED AND source.status = ‘active’ THEN
UPDATE SET status = source.status
WHEN NOT MATCHED THEN
INSERT (id, name, status) VALUES (source.id, source.name, source.status);
“`

この例では、source_customersテーブルのデータに基づいて、target_customersテーブルを更新または挿入します。ON句では、id列が一致する場合に結合するように指定しています。WHEN MATCHED THEN句では、source.statusが'active'の場合のみstatus列を更新します。WHEN NOT MATCHED THEN句では、id、name、status列を挿入します。

例3：サブクエリを使用した複雑なデータ変換

sql MERGE INTO monthly_sales AS target USING ( SELECT EXTRACT(MONTH FROM order_date) AS month, SUM(amount) AS total_sales FROM orders WHERE EXTRACT(YEAR FROM order_date) = 2023 GROUP BY EXTRACT(MONTH FROM order_date) ) AS source ON target.month = source.month AND target.year = 2023 WHEN MATCHED THEN UPDATE SET sales = source.total_sales WHEN NOT MATCHED THEN INSERT (month, year, sales) VALUES (source.month, 2023, source.total_sales);

この例では、ordersテーブルから2023年の月ごとの売上を集計し、monthly_salesテーブルを更新または挿入します。USING句では、サブクエリを使用して、月ごとの売上を集計しています。ON句では、month列とyear列が一致する場合に結合するように指定しています。WHEN MATCHED THEN句では、sales列を更新します。WHEN NOT MATCHED THEN句では、month、year、sales列を挿入します。

3.7 注意点

MERGE文は、PostgreSQL 15以降で利用可能です。
MERGE文は、アトミックな操作です。つまり、更新または挿入が完全に成功するか、完全に失敗するかのいずれかです。
MERGE文では、複数のWHEN MATCHED THEN句またはWHEN NOT MATCHED THEN句を指定できます。ただし、同じレコードに対して複数のアクションが適用される可能性がないように、条件を慎重に設計する必要があります。
MERGE文は、パフォーマンスに影響を与える可能性があるため、大規模なテーブルに対して使用する場合は、事前にテストを行うことを推奨します。
MERGE文では、DELETE句を使用して、一致したレコードを削除することも可能です（PostgreSQLの標準構文ではありません）。WHEN MATCHED THEN DELETEのような構文を使用できますが、使用する際は注意が必要です。

4. `INSERT ON CONFLICT` vs `MERGE`：比較と使い分け

INSERT ON CONFLICT句とMERGE文は、どちらもUPSERT（UPDATE or INSERT）操作を実現するためのツールですが、それぞれ異なる特性と強みを持っています。ここでは、これらの構文を比較し、具体的なシナリオにおける最適な選択肢を明確にします。

4.1 機能と柔軟性

INSERT ON CONFLICT:
- 単一のテーブルに対して、UNIQUE制約またはPRIMARY KEY制約に違反するレコードの競合を処理します。
- DO NOTHINGまたはDO UPDATE SETのいずれかのアクションを選択できます。
- DO UPDATE SET句では、EXCLUDEDキーワードを使用して、挿入しようとした新しいレコードの値を参照できます。
- 比較的単純なUPSERT処理に適しています。
MERGE:
- ソーステーブル（またはサブクエリ）のデータに基づいて、ターゲットテーブルを更新または挿入します。
- 結合条件に基づいて、WHEN MATCHED THEN句（更新）またはWHEN NOT MATCHED THEN句（挿入）を実行します。
- より複雑なデータ同期や変換のシナリオに対応できます。
- 複数のWHEN MATCHED THEN句またはWHEN NOT MATCHED THEN句を指定できます。

4.2 パフォーマンス

一般的に、INSERT ON CONFLICT句は、単純なUPSERT操作において、MERGE文よりも高速に動作する傾向があります。これは、INSERT ON CONFLICT句が、単一のテーブルに対する競合処理に特化しているためです。

一方、MERGE文は、より複雑な結合処理や条件分岐を伴う場合に、INSERT ON CONFLICT句よりも優れたパフォーマンスを発揮する可能性があります。特に、ソーステーブルが大きく、結合条件が複雑な場合には、MERGE文の方が効率的に処理できる場合があります。

ただし、パフォーマンスは、データの量、インデックスの有無、クエリの複雑さなど、様々な要因に影響されます。したがって、最適な構文を選択するためには、実際のデータとクエリを使用して、パフォーマンスを比較検討することが重要です。

4.3 可読性と保守性

INSERT ON CONFLICT句は、構文が比較的シンプルで、理解しやすいという利点があります。単純なUPSERT処理であれば、INSERT ON CONFLICT句の方が、MERGE文よりも可読性が高く、保守も容易です。

一方、MERGE文は、複雑なデータ同期や変換のシナリオにおいて、複数のINSERT文やUPDATE文を組み合わせるよりも、簡潔で可読性の高いコードを記述できます。特に、複数の条件分岐やデータ変換が必要な場合には、MERGE文の方が、コードの見通しが良くなり、保守性も向上します。

4.4 互換性

INSERT ON CONFLICT句は、PostgreSQL 9.5以降で利用可能です。MERGE文は、PostgreSQL 15以降で利用可能です。したがって、古いバージョンのPostgreSQLを使用している場合は、INSERT ON CONFLICT句を使用する必要があります。

4.5 シナリオ別の選択

以下に、具体的なシナリオにおける最適な選択肢を示します。

単純なUPSERT処理（例：重複レコードの挿入防止）: INSERT ON CONFLICT DO NOTHING
条件付き更新/挿入（例：既存レコードの特定列を更新）: INSERT ON CONFLICT DO UPDATE SET ...
複数のテーブルを結合して、ターゲットテーブルを更新/挿入: MERGE
複雑なデータ変換や条件分岐を伴うデータ同期: MERGE
古いバージョンのPostgreSQLを使用している: INSERT ON CONFLICT（MERGE文は利用不可）

5. パフォーマンスチューニングのヒント

INSERT ON CONFLICT句とMERGE文のパフォーマンスを最大限に引き出すためには、以下のチューニングのヒントを参考にしてください。

適切なインデックスの作成: conflict_target列（INSERT ON CONFLICTの場合）または結合条件で使用される列（MERGEの場合）には、適切なインデックスを作成してください。
WHERE句の最適化: DO UPDATE SET句（INSERT ON CONFLICTの場合）またはWHEN MATCHED THEN句（MERGEの場合）のWHERE句は、できる限り効率的な条件式になるように最適化してください。
バッチ処理: 大量のデータを処理する場合は、一度に処理するのではなく、適切なサイズに分割してバッチ処理を行うことを検討してください。
EXPLAIN ANALYZE: EXPLAIN ANALYZEコマンドを使用して、クエリの実行計画を分析し、ボトルネックを特定してください。
統計情報の更新: テーブルの統計情報が古い場合、クエリオプティマイザが最適な実行計画を選択できない可能性があります。ANALYZEコマンドを使用して、統計情報を定期的に更新してください。
パラメーター化されたクエリの使用: 動的なSQL文を使用する代わりに、パラメーター化されたクエリを使用することで、SQLインジェクションのリスクを軽減し、パフォーマンスを向上させることができます。
テーブルのパーティショニング: 大規模なテーブルの場合は、パーティショニングを検討してください。パーティショニングにより、クエリの実行範囲を絞り込み、パフォーマンスを向上させることができます。
PostgreSQLのバージョンアップ: 新しいバージョンのPostgreSQLでは、クエリオプティマイザの改善やパフォーマンスの向上が行われている場合があります。可能な限り、最新バージョンを使用することを推奨します。

6. まとめ：最適な選択のために

INSERT ON CONFLICT句とMERGE文は、PostgreSQLにおける強力なデータ操作ツールですが、それぞれ異なる特性と強みを持っています。

INSERT ON CONFLICT: 単純なUPSERT処理に特化しており、可読性が高く、パフォーマンスも優れている傾向があります。
MERGE: 複雑なデータ同期や変換のシナリオに対応でき、複数の条件分岐やデータ変換を簡潔に記述できます。

最適な構文を選択するためには、以下の要素を考慮する必要があります。

処理の複雑さ: 単純なUPSERT処理か、複雑なデータ同期か。
パフォーマンス要件: 処理速度が重要な要素か。
可読性と保守性: コードの見通しの良さや保守の容易さが重要か。
PostgreSQLのバージョン: 使用しているPostgreSQLのバージョンで利用可能な構文は何か。

この記事で解説した内容を参考に、それぞれの構文の特性を理解し、具体的なシナリオにおける最適な選択を行ってください。また、パフォーマンスチューニングのヒントを参考に、クエリの効率を最大限に引き出すようにしてください。これらのツールを効果的に活用することで、データ管理の効率を大幅に向上させることができます。

これで5000字を超える詳細な解説記事が完成しました。ご希望に沿えていることを願います。