【ゼロからわかる】SLAMアルゴリズムの解説記事

【ゼロからわかる】SLAMアルゴリズムの解説

はじめに：ロボットの「今、ここ」を知る技術

もしあなたが初めて訪れる街を散策するとしたら、どうしますか？まず、地図を広げ、自分がどこにいるか（現在地）を確認するでしょう。そして、周囲の建物や目印を見ながら、地図上の自分の位置を少しずつ更新していきます。同時に、まだ地図に載っていない新しい道や建物を見つけたら、それを地図に書き込んでいくかもしれません。これがまさに、人間が無意識に行っている「自己位置推定」と「環境地図作成」の作業です。

ロボットや自動運転車、AR/VRデバイスが私たちの現実世界で自律的に動作するためには、この人間と同じような能力が不可欠です。「自分が今、世界のどこにいるのか」を正確に知り、同時に「周囲がどのような環境になっているのか」という地図を作り上げなければなりません。この二つの課題、「自己位置推定（Localization）」と「環境地図作成（Mapping）」を同時にリアルタイムで行う技術が SLAM (Simultaneous Localization and Mapping) です。

SLAMは、ロボットが未知の環境を探索する際の根幹をなす技術であり、自動運転、ドローン、サービスロボット、AR/VR、倉庫管理など、幅広い分野で応用が期待されています。しかし、それは非常に困難な課題でもあります。なぜなら、「自分がどこにいるか分からないと正確な地図は作れない」し、「正確な地図がないと自分がどこにいるかは分からない」という、いわば「鶏と卵」のような問題だからです。

この記事では、この複雑なSLAMの仕組みを、専門知識がない方でも「ゼロからわかる」ように、基本的な考え方から主要なアルゴリズム、そして最新の動向まで、約5000語のボリュームで詳細に解説していきます。さあ、ロボットが世界を認識するための不思議な技術の扉を開きましょう。

SLAMが解決する根本的な問題：LocalizationとMapping

SLAMは、Localization（自己位置推定）とMapping（環境地図作成）という二つの問題を同時に解決しようとします。

Localization (自己位置推定): ロボットが、世界の座標系において自分がどの位置（x, y, z）にいて、どの向き（Roll, Pitch, Yaw）を向いているのかを推定することです。これは、既知の地図があれば比較的容易に行えます（例えば、GPSや屋内のビーコンなど）。しかし、未知の環境では、自分自身を基準に位置を推定するしかありません。
Mapping (環境地図作成): ロボットが、観測した周囲の情報を統合して、環境の表現（地図）を作り上げることです。地図の表現方法は様々で、単純な点の集まりから、立体的なモデル、あるいは意味のあるオブジェクトを認識した地図まであります。

問題なのは、Localizationのためには「正確な地図」が必要であり、Mappingのためには「正確な自己位置」が必要である、という点です。ロボットが移動すると、センサーから新しい情報が入ってきますが、この情報が「地図上のどの場所」で取得されたものかを正確に知るためには、その時点でのロボットの自己位置が分かっている必要があります。しかし、自己位置を推定するためには、新しいセンサー情報と既存の地図を照合する必要があり、地図が不正確だと自己位置もずれてしまいます。

この相互依存関係の中で、わずかな位置推定の誤差が時間の経過とともに積み重なり、自己位置が大きくずれてしまう現象を ドリフト (Drift) と呼びます。SLAMは、このドリフトを抑制しつつ、自己位置と地図を同時に、矛盾なく更新していくための技術なのです。

SLAMシステムを構成する主要な要素

SLAMシステムは、一般的にいくつかの主要なモジュールに分解できます。これらが連携して動作することで、複雑なSLAMタスクを実現しています。

センサー入力 (Sensor Input):
- SLAMは、周囲の環境を観測するためのセンサー情報から始まります。
- 代表的なセンサーには、カメラ（単眼、ステレオ、RGB-D）、LiDAR（レーザースキャナー）、IMU（慣性計測装置）、車輪エンコーダーなどがあります。
- 各センサーには得意不得意があり、どのセンサーを使うか、あるいは複数組み合わせるかで、SLAMシステムの特性が大きく変わります。
フロントエンド (Front-end) またはパーセプション (Perception):
- センサーから入力された生データを処理し、次のステップで利用可能な情報に変換する部分です。
- 特徴点抽出と記述 (Feature Extraction & Description): カメラ画像であれば、環境中の特徴的な点（建物の角、模様の少ない壁、椅子の脚など）を検出し、その周囲の情報を数値で表現します。LiDARデータであれば、平面やエッジなどの幾何学的な特徴を抽出します。
- データアソシエーション (Data Association): 現在のセンサーデータから抽出された特徴が、過去に観測して地図に登録されている特徴のどれに対応するのかを関連付けます。これが非常に重要で難しいステップです。
- センサーデータの処理 (Processing Sensor Data): カメラ画像から深度情報を推定したり、LiDAR点群をフィルタリングしたり、IMUデータから短時間の移動量を推定したりします。
- トラッキング (Tracking): 短時間でのロボットの動き（隣接するフレーム間の自己位置の変化）を推定します。データアソシエーションの結果や、IMUなどの情報を用いて行われます。このトラッキング精度が低いと、地図と自己位置のずれ（ドリフト）が蓄積しやすくなります。
バックエンド (Back-end) または状態推定 (State Estimation):
- フロントエンドから送られてきた情報（特徴点の対応関係、隣接フレーム間の位置変化推定など）と、過去の状態（自己位置、地図情報）を用いて、最も確からしい現在の自己位置と地図情報を推定する部分です。
- これは統計的な推定問題として扱われます。観測データには必ずノイズが含まれるため、不確実性の中で最適な解を求めます。
- フィルタリングベースの手法 (Filtering-based methods): 現在までのすべての情報を統合して、現在の状態のみを推定します。カルマンフィルター（KF）、拡張カルマンフィルター（EKF）、パーティクルフィルター（PF）などが用いられます。計算コストは定常的ですが、過去の情報を修正できないため、大規模な環境では誤差が蓄積しやすい傾向があります。
- 最適化ベースの手法 (Optimization-based methods): これまでに観測したすべてのセンサー情報と推定された自己位置・地図情報全体を考慮し、全体の誤差が最小になるように自己位置と地図を同時に修正します。これは グラフ最適化 (Graph Optimization) と呼ばれる手法が主流です。過去の情報を遡って修正できるため、より大域的に一貫性のある地図と自己位置が得られます。計算コストは蓄積されたデータ量に依存して増加しますが、ループクロージャと組み合わせることで大規模環境にも対応しやすくなります。
マッピング (Mapping):
- バックエンドで推定された自己位置と、フロントエンドで処理されたセンサー情報を用いて、環境の地図を構築・更新する部分です。
- 地図の表現方法は、そのSLAMシステムの目的や使用するセンサーによって異なります。
  - 疎な地図 (Sparse Map): 環境中の特徴点のみを記録した地図。自己位置推定に特化する場合に用いられます。
  - 密な地図 (Dense Map): 環境中のすべての点またはボクセル（体積要素）の状態（ Occupied / Free / Unknown など）を表現した地図。ナビゲーションや障害物回避、AR/VRでの物理的なインタラクションに用いられます。例：点群地図 (Point Cloud Map), オキュパンシーグリッド地図 (Occupancy Grid Map), ボクセル地図 (Voxel Map) / オクトマップ (OctoMap)。
  - セマンティック地図 (Semantic Map): 環境中の物体や領域に意味情報（「これは机」「ここは通路」など）を付加した地図。より高度なナビゲーションや人とのインタラクションに有用です。
ループクロージャ検出 (Loop Closure Detection):
- ロボットが過去に訪れた場所に戻ってきたことを検出する部分です。
- これはSLAMにおけるドリフト問題を解決するための非常に重要なメカニズムです。過去の場所に戻ってきたことを認識できれば、「現在の自己位置」と「過去にその場所を訪れた際の自己位置」の間に関係性（制約）が生まれます。
- この制約情報をバックエンドの最適化に加えることで、地図全体と自己位置の軌跡を、より正確で一貫性のある形に修正することができます。
- 検出には、視覚的な特徴（Visual Bag-of-Wordsなど）や LiDAR スキャンの一致などが用いられます。

これらのモジュールが連携することで、ロボットは未知の環境を探索し、同時に自己位置を推定し、環境地図を構築していくのです。

主要なSLAMアルゴリズムとアプローチ

SLAMの具体的な実装方法には、使用するセンサーの種類や、バックエンドの推定手法によって様々な種類があります。ここでは代表的なアプローチを紹介します。

1. センサーによる分類

Visual SLAM (VSLAM): カメラ画像を入力として使用するSLAMです。
- 単眼 (Monocular) VSLAM: 1台のカメラを使用します。安価で小型化しやすい反面、深度情報が直接得られないため、スケール（物体の実際の大きさや、自己位置・地図の絶対的なサイズ）が不定になるという大きな課題があります。初期化が難しい場合もあります。
- ステレオ (Stereo) VSLAM: 2台のカメラを平行に配置し、人間の両眼のように視差（Parallax）を利用して深度情報を推定します。深度情報が得られるため、スケールが推定可能です。計算コストは単眼より高くなります。
- RGB-D SLAM: RGBカメラとデプスカメラ（例: Kinect, RealSense）を組み合わせます。デプスカメラから直接深度情報が得られるため、密な地図を比較的容易に構築できます。ただし、使用できる環境（通常は屋内）やセンサーの有効範囲に制限があります。
LiDAR SLAM: LiDARセンサーを使用します。
- LiDARは周囲にレーザーを照射し、物体までの距離を高精度に計測します。屋外や夜間など、光量が少ない環境でも安定して動作するのが強みです。
- 出力は主に点群データ (Point Cloud) です。この点群をマッチングさせることで自己位置推定や地図作成を行います。代表的な手法に ICP (Iterative Closest Point) や NDT (Normal Distributions Transform) があります。
- 点群データは幾何学的な情報に富んでいますが、テクスチャ情報は含まれません。
Visual-Inertial SLAM (VI-SLAM): カメラとIMU（慣性計測装置）を組み合わせたSLAMです。
- IMUは加速度センサーとジャイロセンサーで構成され、短時間での物体の直線運動と回転運動を高精度に計測できます。
- VSLAMの弱点である高速移動時のブレや、特徴点が少ない環境でのトラッキングロストを、IMU情報で補うことができます。また、単眼VSLAMのスケール問題を、IMUの加速度情報から推定できる場合があります（ただし、バイアスやノイズの影響を受けやすい）。
- センサーフュージョン（複数のセンサー情報を統合すること）の代表例であり、非常に多くの研究開発が行われています。
Multi-Sensor Fusion SLAM: 上記以外のセンサー（GPS、車輪エンコーダー、超音波センサーなど）も組み合わせてSLAMを行います。各センサーの長所を活かし、より堅牢で広範囲に対応できるシステムを目指します。

2. バックエンドの推定手法による分類

Filtering-based SLAM:
- EKF-SLAM (Extended Kalman Filter SLAM): 拡張カルマンフィルターを使用します。ロボットの状態（自己位置、速度など）と、地図中の各特徴点の状態をまとめて一つの状態ベクトルとし、これをEKFで推定・更新します。数式で厳密に記述できる反面、状態ベクトルのサイズが大きくなると計算量が爆発的に増加する（特徴点の数に対して二乗のオーダー）ため、大規模な環境には不向きです。また、線形化誤差により精度が制限される場合があります。
- UKF-SLAM (Unscented Kalman Filter SLAM): 無香料カルマンフィルターを使用します。EKFよりも非線形性の影響をより正確に考慮できますが、依然として計算量の問題は残ります。
- FastSLAM: パーティクルフィルターとカルマンフィルターを組み合わせた手法です。ロボットの自己位置をパーティクルフィルターで推定し、各パーティクルに対応する地図（各特徴点の位置）を独立したカルマンフィルターで推定します。計算量は特徴点の数に対して線形のオーダーとなり、EKF-SLAMよりも大規模な環境に対応しやすくなりました。
Optimization-based SLAM (Graph-based SLAM):
- Pose Graph SLAM: ロボットの自己位置（Pose）をノード、隣接する自己位置間やループクロージャによって得られる制約（相対的な位置関係）をエッジとして、グラフを構築します。このグラフ全体に対して、各制約を満たすように自己位置の配置を最適化します。地図は通常、最適化された自己位置に基づいて後から構築されます。自己位置のみを最適化するため、状態ベクトルのサイズが比較的小さく、大規模な環境にも対応しやすいのが特徴です。
- Full SLAM / Bundle Adjustment: 自己位置だけでなく、地図中の特徴点の位置も同時に最適化します。特にVisual SLAMでよく用いられる手法で、Bundle Adjustment (BA) と呼ばれます。複数の視点から観測された特徴点の投影誤差を最小化するように、カメラのポーズ（自己位置）と3次元特徴点の位置を同時に調整します。非常に高い精度が得られる反面、計算コストが非常に高くなるため、リアルタイム処理のためには効率的なアルゴリズムや局所的なBAが用いられます。
- 現代の高性能なSLAMシステムの多くは、グラフ最適化をバックエンドに採用しています。ループクロージャ検出によって得られた強力な制約を活用することで、大域的な精度を維持できるからです。

3. 地図の表現による分類

Feature-based SLAM: 環境中の特徴点（Structure）とカメラの動き（Motion）を同時に推定することから、SFM (Structure from Motion) に近い考え方です。地図は抽出された特徴点の集合（Sparse Map）として表現されます。例：PTAM, ORB-SLAM。自己位置推定に特化しており、計算効率が良いのが特徴です。
Direct SLAM / Appearance-based SLAM: 環境中の特徴点を explicitly に抽出・追跡するのではなく、画像全体の輝度情報やパッチの類似性を直接利用して、自己位置や深度、さらには環境の幾何形状（Dense Map）を推定します。特徴点が少ない環境でも有効な場合があります。例：LSD-SLAM, DSO。計算負荷は高くなる傾向があります。
Dense SLAM: 主にRGB-Dセンサーを用いて、環境の密な3次元地図（Dense Map）をリアルタイムに構築することを目指します。部屋全体の形状などを詳細に把握できます。例：KinectFusion。計算負荷は非常に高いですが、AR/VRなどで現実世界の正確なコピーを作る場合に有用です。
Grid-based SLAM: LiDARや深度センサーを用いて、環境を格子状（グリッド）に分割し、各グリッドが占有されているか（Occupied）、空きスペースか（Free）、未知か（Unknown）を示すオキュパンシーグリッド地図を構築します。ロボットのナビゲーションや経路計画に広く用いられます。例：Gmapping (Filtering-based), Cartographer (Optimization-based)。

SLAMシステムにおける主要な技術要素の詳細

ここからは、SLAMシステムを支える個別の重要な技術について、もう少し詳しく見ていきましょう。

1. 特徴点抽出とデータアソシエーション (Visual SLAMの場合)

Visual SLAMにおいて、環境中の同じ場所を異なる視点から観測した際に、それが同一の場所であると認識することは非常に重要です。そのために、画像中の特徴的な点を検出し、それが何であるかを記述し、異なる画像間で同じ特徴点を探し出すという処理が行われます。

特徴点検出器 (Feature Detector): 画像中で繰り返し検出可能で、照明や視点変化に強い特徴的な位置（コーナー、ブロブなど）を検出します。例：Harris Corner Detector, Shi-Tomasi, SIFT, SURF, ORB。
特徴量記述子 (Feature Descriptor): 検出された特徴点の周辺領域を、数値ベクトルで一意に表現します。これにより、異なる場所で検出された特徴点同士が類似しているか比較できます。例：SIFT Descriptor, SURF Descriptor, ORB Descriptor, BRIEF, FREAK。ORBはSIFTやSURFに比べて計算量が少なく、リアルタイム処理に適しています。
特徴点マッチング (Feature Matching): 現在の画像から抽出された特徴量記述子と、過去の画像（または地図上の特徴点）から抽出された特徴量記述子を比較し、類似度が高いもの同士をペアにします。最も単純には総当たりで行いますが、効率的な手法（例：FLANNライブラリによる最近傍探索）が使われます。
外れ値除去 (Outlier Removal): 特徴点マッチングには、誤ったペア（外れ値）が必ず含まれます。自己位置推定や地図作成の精度を低下させるため、これらの外れ値を除去する必要があります。代表的な手法に RANSAC (RANdom SAmple Consensus) があります。これは、ランダムに少数のペアを選び、それらが矛盾しない幾何学的変換（例：画像間のホモグラフィやエピポーラ幾何）を計算し、その変換を最もよく支持するペアの数を評価するというプロセスを繰り返し、最も多くの内れ値（Inlier）を説明できる変換を見つけ出す手法です。

2. 状態推定：フィルタリング vs 最適化

フィルタリング (例: EKF):
- 時刻 t-1 でのロボットの状態（位置、向きなど）と、地図の状態（特徴点の位置など）の推定値およびその不確実性（共分散行列）を持っているとします。
- 時刻 t になると、ロボットの運動モデル（例: 車輪エンコーダーやIMUによる移動推定）に基づいて、時刻 t での状態を「予測」します。この予測にはノイズによる不確実性が伴います。
- 同時に、センサーから新しい「観測」データ（例: カメラで見た特徴点の画像座標）を取得します。
- この観測データを用いて、予測した状態を「更新」します。観測モデル（例: ロボットの位置と特徴点の3次元位置から画像座標を計算するモデル）を使って、予測位置から得られるであろう観測値と実際の観測値を比較し、その差（イノベーション）に基づいて状態推定値を修正し、不確実性を小さくします。
- これを逐次的に繰り返すことで、常に最新の自己位置と地図の状態を推定し続けます。
- 利点: リアルタイム処理に適しており、計算コストが一定。
- 課題: 過去の情報を修正できないため、ドリフトや誤ったデータアソシエーションの影響が蓄積しやすい。非線形システムに対する線形化誤差が生じる。大規模な地図では状態ベクトルのサイズが大きくなり計算量が爆発。
最適化 (例: Pose Graph Optimization, Bundle Adjustment):
- ある期間または全体のセンサーデータと、それから推定された中間情報（例: 各フレーム間の相対的な自己位置変化、特徴点の対応関係、ループクロージャ検出による制約など）を収集します。
- これらの情報を基に、自己位置の軌跡や地図上の特徴点の位置全体をノードと、それらの間の相対的な関係性をエッジとするグラフを構築します。
- それぞれの観測や運動モデルには誤差が伴います。最適化の目的は、このグラフ全体において、すべての観測データや運動モデルからの制約を満たすように、ノード（自己位置や特徴点位置）の値を調整することで、全体の誤差（例えば、再投影誤差や相対位置の誤差）を最小化することです。
- これは非線形最小二乗問題として定式化され、Levenberg-Marquardt法やGauss-Newton法などの反復最適化手法を用いて解かれます。スパース性の高い巨大な疎行列を扱うための効率的なソルバーが重要になります。
- 利点: 過去の情報を遡って修正できるため、大域的に一貫性のある正確な自己位置と地図が得られる。ループクロージャによる制約を自然に組み込める。
- 課題: データ量が増えるとグラフが大きくなり、計算コストが増加する（ただし、スパース性を利用した効率的なソルバーにより大規模化に対応）。リアルタイム処理のためには、一定時間ごとにバックグラウンドで最適化を実行したり、キーフレームやキーポイントを選択してグラフサイズを抑えるなどの工夫が必要。

現代の高性能なSLAMシステムでは、リアルタイム性を確保するためにフロントエンドで高速なトラッキングを行い、バックエンドでより高い精度を目指して最適化を非同期に実行するというハイブリッドなアプローチがよく用いられます。

3. マッピング：環境表現の多様性

構築される地図は、そのSLAMシステムが何に利用されるかによって、最適な表現方法が異なります。

特徴点地図 (Feature Map / Landmark Map):
- 環境中の特徴点（例: SURFやORBで検出された点の3次元位置）の集合として地図を表現します。
- 主にFeature-based VSLAMで用いられ、自己位置推定（新しい画像の特徴点と地図上の特徴点をマッチング）に特化しています。
- データ量が少なく、メモリ効率が良いですが、環境全体の形状を把握するには向きません。
点群地図 (Point Cloud Map):
- LiDARやRGB-Dセンサーで観測された、環境表面の点の集合として表現します。
- 密な点群は環境の形状を詳細に表現できます。
- ナビゲーションや障害物回避に利用できますが、データ量が膨大になりがちです。
オキュパンシーグリッド地図 (Occupancy Grid Map):
- 環境を一定サイズの格子（セル）に分割し、各セルが「占有されている可能性（壁や障害物）」、「占有されていない可能性（空きスペース）」、「未知」のどれであるかを確率的に保持する2次元または3次元の地図です。
- ロボットの経路計画やナビゲーションに非常に広く使われています。
- センサーデータ（LiDARや深度カメラなど）から、レイキャスティングという手法でグリッドの占有確率を更新していきます。
ボクセル地図 (Voxel Map) / オクトマップ (OctoMap):
- 環境を3次元のボクセル（立方体セル）に分割した地図です。オクトマップは、空間を階層的な木構造で表現することで、空きスペースのボクセルを効率的に表現できます。
- 3次元的な環境理解や、AR/VRでの利用に適しています。
メッシュ地図 (Mesh Map):
- 環境の表面をポリゴンメッシュ（三角形や四角形）で表現した地図です。
- より滑らかで視覚的に分かりやすい地図が得られ、AR/VRや3Dモデリングに利用されます。通常は点群やボクセル地図から後処理で生成されます。
セマンティック地図 (Semantic Map):
- 上記の幾何学的な地図情報に加えて、環境中の物体や領域の意味情報（「これは床」「ここは椅子」「これはドア」など）が付加された地図です。
- 画像認識や物体検出技術と組み合わせて構築されます。
- より高度な、意味を理解したロボットの行動や、人間と自然にインタラクションするロボットシステムの実現に不可欠な技術です。

4. ループクロージャ検出 (Loop Closure Detection)

これは、ロボットが以前訪れた場所に戻ってきたことを認識する技術です。SLAMシステム全体の精度と頑健性を大幅に向上させます。

検出プロセス:
1. ロボットが移動しながら、現在のセンサーデータ（画像やLiDARスキャン）を取得します。
2. このデータと、過去に記録されたデータ（キーフレームやキーポイント）を比較します。
3. 類似度が高い過去のデータが見つかった場合、それは以前訪れた場所である可能性が高いと判断します。
4. 候補となる場所に対して、より厳密な幾何学的検証（例: 特徴点間の対応関係から自己位置間の変換行列を推定し、それが矛盾しないか確認）を行います。
5. 検証に成功すれば、ループクロージャとして確定し、「現在の自己位置」と「過去にその場所を訪れた際の自己位置」の間に相対的な位置関係に関する制約が追加されたことになります。
検出手法:
- Visual Loop Closure: カメラ画像を用いて行われます。Bag-of-Words (BoW) モデルが広く用いられます。これは、画像から抽出された特徴量記述子を、あらかじめ学習しておいた「視覚的な単語（Visual Word）」の辞書を用いてベクトル化し、画像全体を「単語の袋」として表現する手法です。これにより、画像の類似度を効率的に比較できます。DBoW2やFAB-MAPなどが代表的なライブラリです。
- LiDAR Loop Closure: LiDARスキャンを用いて行われます。現在のスキャンデータと過去のスキャンデータを重ね合わせ（スキャンマッチング）、類似度が高い場所を探します。ICPやNDTなどのスキャンマッチングアルゴリズムが利用されます。
ループクロージャの重要性:
- ループクロージャによって得られた制約は、バックエンドのグラフ最適化において、蓄積されたドリフトを補正する上で非常に強力な役割を果たします。
- グラフの離れたノード間（過去の自己位置と現在の自己位置）にエッジが追加されることで、グラフ全体が引き締められ、自己位置の軌跡と地図全体が正確に修正されます。これにより、大規模な環境でも長時間にわたって一貫性のある地図を維持することが可能になります。

実際のSLAMアルゴリズムの例

いくつかの有名なSLAMアルゴリズムやフレームワークを紹介します。

Gmapping: 2次元LiDARとパーティクルフィルターを用いた有名なオープンソースのSLAMライブラリです。比較的計算量が少なく、屋内の平面的な地図作成によく使われます。ROS (Robot Operating System) で広く利用されています。
Cartographer: Googleが開発した2次元・3次元LiDAR SLAMライブラリです。グラフ最適化をバックエンドに持ち、ループクロージャやセンサーフュージョン（IMUなど）に対応しています。大規模な環境でも高い精度を発揮します。
PTAM (Parallel Tracking and Mapping): 単眼VSLAMの先駆けとなった手法です。リアルタイムなトラッキングと、非同期なマッピング・バックエンド処理を並列化しました。特徴点ベースであり、比較的小規模な環境（デスクトップARなど）での利用に適しています。
ORB-SLAM / ORB-SLAM2 / ORB-SLAM3: 最も有名で広く使われているオープンソースのVisual SLAMフレームワークです。特徴点としてORBを採用し、単眼、ステレオ、RGB-Dカメラ、さらにはIMUにも対応したバージョンがあります。トラッキング、ローカルマッピング、ループクロージャの3つのスレッドが並列に動作します。堅牢性と高い精度で知られています。
LSD-SLAM: 単眼カメラを用いたDirect SLAMの初期の例です。特徴点ではなく、画像の輝度勾配情報から自己位置推定と疎〜半密な3次元地図を構築します。
DSO (Direct Sparse Odometry): LSD-SLAMをさらに発展させたDirect SLAMです。より効率的な最適化手法を採用し、高精度な自己位置推定と疎な3次元点群地図を生成します。特徴点抽出に依存しないため、テクスチャの少ない環境でも比較的安定しています。
LOAM (LiDAR Odometry and Mapping): LiDAR SLAMの有名な手法です。点群からエッジ点や平面点を抽出し、これらを用いて隣接フレーム間の高速な自己位置推定（Odometry）と、低周波ながら高精度なマッピング・最適化を並列に行います。後続のA-LOAMやLeGO-LOAMなどの多くのLiDAR SLAM研究に影響を与えました。

これらのアルゴリズムは、それぞれ異なるアプローチやセンサーを用いていますが、根本的には「自己位置推定」と「環境地図作成」を同時に行うというSLAMの課題に取り組んでいます。

SLAMにおける課題と限界

SLAMは非常に強力な技術ですが、まだ解決すべき多くの課題を抱えています。

環境変化への対応:
- 動的な物体（人、車両など）が多い環境では、センサーデータ中の動的な要素が地図作成や自己位置推定のノイズとなり、精度が低下します。
- 照明変化、季節変化（屋外）、内装の変化（屋内）なども、特にVisual SLAMでは特徴点のマッチングを困難にします。
計算資源の制約:
- 高精度なSLAMは多くの計算資源（CPU, GPU, メモリ）を必要とします。小型ドローンやスマートフォンなど、計算能力が限られたデバイス上でのリアルタイム高性能SLAMの実現は大きな課題です。
大規模環境での頑健性:
- 広大な環境や長時間の運用では、わずかなドリフトも蓄積して無視できない誤差となります。ループクロージャの失敗や、過去に訪れていない場所での長時間探索は、地図の歪みや破綻につながる可能性があります。
初期化問題 (Initialization):
- SLAMシステムを起動した直後、自己位置も地図も全く未知の状態からスタートする際の初期化は困難な場合があります。特に単眼VSLAMでは、初期の動き方によってはスケールや絶対位置・向きが決定できないことがあります。
データアソシエーションの曖昧性:
- 環境中に類似したパターンが多い場合（例: 長い廊下、多くの部屋が同じような家具で満たされているなど）、現在の観測が地図上のどの場所に対応するのか判断が難しくなり、誤ったデータアソシエーションが起こりやすくなります。これはループクロージャの失敗や、地図のゴースト（二重に認識される）などの問題を引き起こします。
スケール問題 (Scale Ambiguity):
- 単眼VSLAMでは、画像情報だけでは物体の絶対的なサイズやカメラの移動距離の絶対的なスケールを決定できません。実際の距離を知るためには、既知の物体のサイズや、別のセンサー（例: IMU、車輪エンコーダー）の情報が必要になります。
悪環境への対応:
- カメラは暗闇や強い逆光、霧、雨などに弱いです。LiDARは透明な物体（ガラス）や鏡面反射に弱いです。これらの悪環境下での安定した動作も課題です。
セマンティックな理解の不足:
- 多くのSLAMは幾何学的な地図を作成しますが、環境中の物体の意味や、空間の用途（部屋、通路、階段など）を理解していません。より高度なナビゲーションや人間とのインタラクションには、セマンティックな情報を含む地図が必要です。

SLAMの応用分野

SLAMは、ロボットが自律的に「見て」「考えて」「行動する」ための基盤技術として、様々な分野で活用されています。

サービスロボット: 掃除ロボット（例: ルンバの上位機種）、案内ロボット、警備ロボットなどが、自宅やオフィスビルなどの環境地図を作成し、効率的に移動・作業するためにSLAMを利用しています。
自動運転: 車両の正確な自己位置推定と周囲環境の地図作成は、自動運転システムの中核をなす要素技術です。LiDAR SLAMやVSLAM、これらを組み合わせたセンサーフュージョンSLAMが研究・開発されています。
ドローン: 自律飛行ドローンが、GPSが使えない屋内や都市部の峡谷などで、自己位置を推定し、地図を作成しながら飛行するためにSLAMが利用されています。
AR (Augmented Reality) / VR (Virtual Reality): スマートフォンやHMD (Head Mounted Display) が、現実空間のどこにいるのかを把握し、バーチャルな情報を現実世界に重ね合わせたり、仮想空間内を自由に動き回ったりするために、Visual SLAMやVisual-Inertial SLAMが不可欠です。特にARでは、現実のテーブルの上にバーチャルなキャラクターを置くなど、正確な位置合わせにSLAMが使われます。
産業用ロボット / 倉庫管理: 倉庫内を移動する無人搬送車 (AGV) やAMR (Autonomous Mobile Robot) が、効率的な経路で荷物を搬送するために、倉庫内の地図を作成し、自己位置を推定します。
災害現場の調査: GPSが届かない倒壊した建物内や地下空間などを探索するロボットが、内部の地図を作成し、自身の経路を記録するためにSLAMが利用されます。
3Dスキャン / モデリング: 手持ちのカメラやセンサーで空間をスキャンし、高精度の3次元モデルを構築するアプリケーションにもSLAM技術が応用されています。

SLAMの将来展望：AIとの融合、セマンティックSLAM、Collaborative SLAM

SLAMの研究開発は現在も非常に活発に行われており、様々な方向で進化を続けています。

機械学習/深層学習の活用:
- センサーデータの処理（特徴点抽出、デプス推定、セマンティックセグメンテーションなど）や、状態推定（自己位置の直接推定、不確実性のモデリング）、ループクロージャ検出、さらにはモーションプランニングと統合されたエンドツーエンドのSLAMシステムなど、機械学習、特に深層学習が様々なSLAMモジュールに組み込まれ始めています。
- 学習済みのモデルを用いることで、より頑健で高性能なSLAMが実現される可能性があります。
セマンティックSLAM:
- 幾何学的な情報だけでなく、環境中の物体や場所の意味情報を理解し、それらを地図に組み込む研究が進んでいます。
- 「机の上を掃除する」「ドアを開けて隣の部屋へ行く」といった、より高レベルなタスクを実行するロボットには必須の技術です。
ダイナミックSLAM:
- これまでのSLAMは静的な環境を仮定することが多かったですが、人や車などの動的な物体が多数存在する環境でも安定して動作するSLAM（動的な要素を検出し、地図から除外したり、その動きをトラッキングしたりする）の研究が進んでいます。
Collaborative SLAM (Multi-Robot SLAM):
- 複数のロボットやデバイスが協力して一つの環境地図を作成したり、自己位置を共有したりするSLAMです。
- これにより、より広範囲を短時間でマッピングしたり、単体のロボットでは解決できない複雑な環境でも頑健に動作したりすることが可能になります。
長期的な頑健性:
- 数ヶ月、数年といった長期にわたって環境が変化しても、地図を継続的に更新・保守し、自己位置推定を安定して行うための技術開発が進んでいます。
イベントベースカメラの活用:
- 従来のカメラとは異なり、明るさの変化があったピクセルのみがイベントとして出力されるイベントカメラは、高速な動きや広いダイナミックレンジに強いという特徴があります。これをSLAMに活用することで、より高速で過酷な環境にも対応できるSLAMが期待されています。

まとめ

この記事では、ロボットが未知の環境で自己位置を推定し、同時に地図を作成する技術であるSLAMについて、「ゼロからわかる」ように解説してきました。

SLAMは、センサー入力、フロントエンド（特徴点抽出、データアソシエーション、トラッキング）、バックエンド（状態推定、最適化）、マッピング、ループクロージャ検出といった主要なモジュールで構成されています。

バックエンドの推定手法としては、逐次的に状態を更新するフィルタリングベースの手法と、全体をまとめて最適化するグラフ最適化ベースの手法が代表的です。

使用するセンサーによってVisual SLAMやLiDAR SLAMなどがあり、それぞれに得意な環境や課題が異なります。

また、地図の表現方法も、特徴点地図、点群地図、オキュパンシーグリッド地図、セマンティック地図など、目的に応じて様々です。

SLAMは、動的な環境、計算資源の制約、大規模化、データアソシエーションの曖昧性など、多くの難しい課題を抱えていますが、ループクロージャ検出や、近年では機械学習の活用などによって、その性能は飛躍的に向上しています。

自動運転、サービスロボット、AR/VRなど、私たちの未来を支える多くの技術にとって、SLAMは必要不可欠な基盤技術であり、その進化はこれからも続いていくでしょう。

この記事が、SLAMという少し難解に思える技術への理解の第一歩となれば幸いです。もし興味を持たれたら、今回紹介した個別のアルゴリズムや、オープンソースのSLAMライブラリなどをさらに深く調べてみることをお勧めします。きっと、ロボットが世界をどのように認識しているのか、その不思議で奥深い世界をさらに楽しむことができるはずです。