失敗しない!HiFiゲノムアセンブリのプロトコルと手順


失敗しない!HiFiゲノムアセンブリのプロトコルと手順

— 高精度で完全なゲノム構築のための実践ガイド —

はじめに

近年のシークエンシング技術の急速な発展により、生物の全ゲノム情報を解読することが以前にも増して容易になってきました。特に、リード長が短いながら大量のデータを取得できる第二世代シークエンサー(NGS)は、リシーケンシングやトランスクリプトーム解析などで大きな成果を上げてきました。しかし、NGSの短いリードでは、繰り返し配列の多い領域や構造的に複雑な領域を完全に解読し、つなぎ合わせる(アセンブルする)ことが困難であり、結果として多くのギャップを含む断片的なゲノム配列(アセンブリ)しか得られないという課題がありました。

この課題を克服するために登場したのが、第三世代シークエンサーに代表される「ロングリードシークエンシング」技術です。中でも、PacBio社が提供する「HiFi(High-Fidelity)リード」は、従来のロングリード(Continuous Long Reads; CLR)の「長い」という特徴に加え、「高精度」であるという画期的な特性を併せ持ちます。HiFiリードは、DNA分子を何度も繰り返し読み取ることで、個々の塩基配列決定の精度を99.9%以上にまで高めています。これにより、長い繰り返し配列も正確に解読し、ゲノム全体をほぼギャップのない、高精度なコンティグ(つながった配列断片)としてアセンブルすることが可能になりました。

HiFiリードを用いたゲノムアセンブリは、従来のNGSアセンブリでは不可能だった領域( centromere, telomere, ribosomal DNA arraysなど)の解読を可能にし、構造変異解析やフェイジング(対立遺伝子の分離)解析において強力なツールとなっています。高品質なリファレンスゲノムを構築することは、進化研究、集団遺伝学、育種、病原体の追跡など、幅広い分野の研究基盤となります。

しかし、どれほど優れたHiFi技術を用いても、「失敗しない」ゲノムアセンブリを達成するには、適切な実験プロトコルとバイオインフォマティクス解析手順を正確に実行することが不可欠です。特に、シークエンシング前のサンプル準備(DNA抽出・品質管理)は、アセンブリの成否を分ける最も重要なステップの一つです。また、得られたHiFiリードの品質管理、適切なアセンブラの選択とパラメータ設定、そして最終的なアセンブリの評価も、高品質な結果を得るためには欠かせません。

本記事では、「失敗しない」という観点から、HiFiゲノムアセンブリを行う上で必要なプロトコルと手順を、準備段階から最終評価まで詳細に解説します。特に、各ステップでの「なぜそれが必要なのか」「失敗する原因は何か」「どうすれば回避できるか」といった実践的な知識に焦点を当てます。本ガイドが、読者の皆様が高精度で完全なゲノムアセンブリを成功させるための一助となれば幸いです。

HiFiゲノムアセンブリの全体像

HiFiゲノムアセンブリのワークフローは、大きく以下のステップに分けられます。各ステップでの注意点が、失敗を避けるための鍵となります。

  1. 実験計画(Planning): 目標設定、ゲノム特性の把握、必要なカバレッジの計算、予算・リソースの確認。
  2. サンプル準備(Sample Preparation): 高品質・高分子量(HMW)DNAの抽出、徹底的な品質管理(QC)。
  3. ライブラリ調製(Library Preparation): PacBio SMRTbellライブラリの作製。サイズセレクションを含む場合がある。
  4. シークエンシング(Sequencing): PacBio Sequel II/IIeまたはRevioシステムでのシークエンシング。
  5. バイオインフォマティクス解析(Bioinformatics Analysis):
    • リードの品質管理(QC)
    • HiFiリードを用いたアセンブリ実行
    • アセンブリのポスドク処理(ポリッシング、スキャッフォールディングなど)
  6. アセンブリの評価・検証(Validation and Assessment): アセンブリの品質(コンティグ性、網羅性、正確性)の評価。

これらのステップを順を追って、詳細に見ていきましょう。

1. 実験計画 (Planning): 成功への第一歩

アセンブリプロジェクトの成功は、最初の計画段階で大きく左右されます。以下の点を明確にすることが重要です。

  • プロジェクトの目標設定:

    • 対象生物のゲノムサイズはどのくらいか? (公表されている近縁種などの情報があれば参考に)
    • 単相(haploid)か複相(diploid, polyploid)か?特に複相の場合、ヘテロ接合度(Heterozygosity)はどの程度か?(後述のアセンブラ選択やカバレッジ計算に影響)
    • どのレベルの完成度を目指すか?(ドラフトレベル、コンティグレベル、スキャッフォールドレベル、染色体レベルなど)
    • アセンブリしたゲノムを何に利用するか?(構造変異解析、遺伝子アノテーション、比較ゲノミクスなど)
  • 必要なカバレッジの計算:

    • HiFiアセンブリに必要なカバレッジは、NGSアセンブリよりも少なくて済む傾向がありますが、それでもゲノムサイズと複雑性(ヘテロ接合度など)によって変動します。
    • 一般的に、単純なゲノム(低ヘテロ接合度、単相)であれば10-15xのカバレッジでも十分なコンティグ性が得られることが多いです。
    • しかし、ヘテロ接合度が高いゲノムや、ポリプロイドゲノム、繰り返し配列が多いゲノムの場合は、20-30x以上のカバレッジが必要となる場合があります。HiFiアセンブラの中には、ヘテロ接合体を分離するために追加のカバレッジを必要とするものもあります。
    • 失敗の回避: カバレッジ不足は、コンティグ性の低下、ギャップの増加、繰り返し配列やヘテロ接合領域の正確なアセンブリ失敗に直結します。必要と予想されるカバレッジを確保するためのシークエンシング量を正確に見積もりましょう。ゲノムサイズ(Mbp)× 目標カバレッジ(x)÷ HiFiリードの平均長(bp)÷ SMRTセルあたりのHiFiリード出力数 で必要なSMRTセルの数を概算できます。(ただし、実際の出力はDNA品質やライブラリ調製に強く依存します)。
  • サンプル選択:

    • ゲノムアセンブリには、可能な限り高品質で汚染のないサンプルを選択することが重要です。
    • 遺伝的に均一な系統やクローン株、あるいは明確な由来が分かっている個体を選ぶと、アセンブリが容易になる場合があります。
    • 複相ゲノムの場合でフェイジングも目的とする場合は、両親のサンプル情報(トリオアセンブリ)が役立つことがあります。
  • 予算とスケジュール:

    • DNA抽出、ライブラリ調製、シークエンシング、そしてバイオインフォマティクス解析にかかるコストと時間を現実的に見積もります。特にシークエンシングコストは、必要なカバレッジによって大きく変動します。
  • バイオインフォマティクスリソース:

    • HiFiアセンブリは、大量のデータを扱い、計算資源を多く消費します。
    • 十分なCPUコア数、RAM容量、ストレージ容量を持つサーバーやクラウド環境が必要です。特にアセンブリ段階では多くのRAMを消費します。必要なリソース量を事前に確認し、準備しましょう。
    • アセンブリや評価のためのソフトウェアのインストールや実行環境の整備も必要です。

2. サンプル準備 (Sample Preparation): 成否を分ける鍵

「ゲノムアセンブリはDNA品質で決まる」と言われるほど、最初のDNA抽出は極めて重要です。HiFiシークエンシングでは、高分子量(High Molecular Weight; HMW)のDNAが必須です。

  • なぜHMW DNAが重要か?

    • PacBio HiFiリードは、DNA分子を何度も繰り返し読み取ることで高精度を実現します。そのため、元のDNA分子が長いほど、より多くのパス数(繰り返し読み取り回数)が得られ、高精度なHiFiリード(CCSリード)が生成されやすくなります。
    • 平均リード長が長いほど、繰り返し配列や構造的に複雑な領域を跨いで読み取れる可能性が高まり、よりコンティグ性の高いアセンブリが得られます。
    • 元のDNAが断片化している(HMWでない)と、短いリードしか生成されず、HiFi技術の利点が活かせません。
  • HMW DNA抽出のポイント:

    • 細胞壁の破砕: 対象生物(植物、動物、微生物、真菌など)によって適切な破砕方法が異なります。機械的な破砕(乳鉢と乳棒でのすりつぶし、ビーズ式破砕器など)は、過度なせん断を避けるよう慎重に行います。酵素処理(セルラーゼ、キチナーゼ、リゾチームなど)も有効な場合があります。
    • タンパク質・RNAの除去: プロテイナーゼK処理やRNase処理を行います。フェノール・クロロホルム抽出は効果的ですが、界面に残るDNAを失わないよう注意が必要です。
    • 多糖類・フェノール化合物などの除去: これらの夾雑物は、酵素反応やシークエンシングを阻害します。特定の植物種などでは、CTAB法がこれらの除去に効果的です。市販のキットを使用する場合でも、HMW DNA抽出に特化したキットを選択し、プロトコルを厳守します。
    • DNAの回収: エタノール沈殿やイソプロパノール沈殿でDNAを回収します。沈殿したDNAは非常に壊れやすいため、優しく扱い、ピペッティングは太いチップを使用するなど、物理的なせん断を最小限に抑えます。
    • 溶解: 沈殿したDNAは、TEバッファー(EDTA入り)など、DNAを安定化させるバッファーにゆっくりと溶解させます。溶解には時間がかかる場合があるので、一晩冷蔵庫に置くなどして、焦らず自然に溶解させます。ボルテックスはDNAをせん断するため絶対に行いません。
  • 徹底的な品質管理 (QC) – 抽出後:

    • 収量と濃度: Qubit Fluorometer(dsDNAに特化)を用いて正確な二本鎖DNA濃度を測定します。NanoDropなどの吸光光度計は、RNAや夾雑物の影響を受けやすいため、濃度測定には推奨されません。必要なDNA量(通常はライブラリ調製に5-10 µg以上が必要)が確保できているか確認します。
    • 純度: 吸光度比(A260/280 および A260/230)を確認します。A260/280は1.8-2.0、A260/230は2.0-2.2程度が良好な純度の目安です。低い場合は、タンパク質やフェノール、多糖類などの夾雑物が疑われます。これらの夾雑物はシークエンシングを阻害するため、抽出をやり直すか、精製ステップを追加する必要があります。
    • 完全性(鎖長): これがHMW DNA抽出の最も重要なQCです。
      • アガロースゲル電気泳動: 標準的な方法です。抽出したDNAを低濃度のアガロースゲル(0.7-1.0%)で泳動します。良好なHMW DNAであれば、レーンの最上部(ウェル付近)にシャープな高分子量バンドとして観察されます。スメア状になっている場合や、低分子量側にバンドが多く見られる場合は、DNAが断片化していることを示します。
      • パルスフィールドゲル電気泳動(PFGE): より大きなDNA断片(数100 kbp~Mbp)の鎖長を評価できる最も適切な方法です。アセンブリレベルのHMW DNAを確認するにはPFGEが推奨されます。
      • 自動フラグメント解析装置(例: Fragment Analyzer, TapeStation, Femto Pulse): 特定の鎖長範囲(通常は数kbp~100 kbp程度)の分解能が高く、HMW DNAの主成分のピーク位置や、低分子量コンタミネーションの有無を定量的に評価できます。PacBio社はFemto Pulseなどによる評価を推奨しています。
    • 失敗の回避: ここでのQC不足が、後続のライブラリ調製やシークエンシングでの失敗(CCS収量低下、リード長低下)に直結します。要求される品質基準(例: 平均鎖長 > 20-50 kbp、OD比良好、スメアなし)を満たしているか、厳密に確認します。品質が悪ければ、迷わずDNA抽出をやり直しましょう。

3. ライブラリ調製 (Library Preparation): SMRTbellの作製

高品質なHMW DNAが準備できたら、PacBioシークエンシング用のSMRTbellライブラリを調製します。プロトコルは使用するキットやターゲットとするリード長によって若干異なりますが、基本的なステップは以下の通りです。

  • インプットDNA量: 使用するHMW DNAの量(Qubit測定値)は、キットの要求量(例: 5-10 µg)を満たしている必要があります。量が少ないと、ライブラリ収量が低下し、シークエンシングに必要な濃度を確保できない可能性があります。
  • エンドリペアとAテール付加: DNA断片の両末端を平滑化し、アデニン(A)を付加します。これにより、後続のアダプターライゲーション効率が向上します。
  • SMRTbellアダプターのライゲーション: PacBio独自のループ状アダプターをDNA断片の両末端に連結します。このアダプターを介してポリメラーゼが環状化されたテンプレート上を繰り返し移動できるようになります。
  • エクソヌクレアーゼ処理: ライゲーションされなかった直線状DNA(元のゲノムDNAやアダプター)を分解・除去します。これにより、SMRTbell構造を持つ分子のみが残ります。
  • サイズセレクション(オプション、推奨): HiFiリードは、特定のリード長範囲(例えば15-20 kbp)で最も効率良く高精度なCCSリードが生成されます。インプットDNAの平均鎖長がターゲットよりも長い場合、特定の鎖長範囲のSMRTbell分子を精製するためにサイズセレクションを行うことがあります。
    • 目的: ライブラリのサイズ分布を整え、シークエンシング効率を最大化する。
    • 方法: AMPure PBビーズを用いたバインド&エリュート、あるいは自動サイズセレクション装置(Pippin Ultra, SageELFなど)が用いられます。
    • 注意点: サイズセレクションはDNAをロスするステップでもあるため、十分なインプットDNA量と、ターゲット鎖長に応じた適切なプロトコル選択が必要です。
  • ライブラリのクリーンアップ: ビーズ精製などにより、不要な試薬や低分子DNAフラグメントを除去します。
  • ライブラリの品質管理 (QC) – ライブラリ調製後:
    • 濃度: Qubitを用いてライブラリの濃度を測定します。シークエンシングに必要な濃度が確保できているか確認します。
    • サイズ分布: 自動フラグメント解析装置(Fragment Analyzer, TapeStation, Femto Pulseなど)を用いて、ライブラリのサイズ分布を確認します。ターゲットとする鎖長範囲に主成分のピークがあり、アダプターダイマーなどの低分子コンタミネーションが少ないことを確認します。
    • 失敗の回避: ライブラリ濃度が低い、サイズ分布が適切でない(短すぎる、スメア状)、アダプターダイマーが多いといった問題は、シークエンシングの収量低下やリード長低下につながります。ライブラリQCの結果が悪ければ、ライブラリ調製をやり直す必要があります。特にインプットDNAの品質が悪かった場合、ライブラリ調製も失敗しがちです。

4. シークエンシング (Sequencing): HiFiリードの生成

調製したSMRTbellライブラリをPacBio Sequel II/IIeまたはRevioシステムでシークエンシングします。

  • SMRTセル: PacBioのシークエンシングは、数百万個の微小なウェルを持つSMRTセル上で行われます。各ウェルにはDNAポリメラーゼが固定されており、SMRTbell分子が結合します。
  • Circular Consensus Sequencing (CCS): SMRTbell分子がポリメラーゼによって繰り返し読み取られます。この生のリード(Subreads)はエラーを含みますが、環状テンプレート上を何度も読むことで、同一の箇所が繰り返しカバーされます。これらのSubreadsをアライメントし、コンセンサス配列を計算することで、高精度なHiFiリード(CCSリード)が生成されます。パス数(繰り返し読み取り回数)が多いほど、HiFiリードの精度は高くなります。
  • ロード濃度: SMRTセルにロードするライブラリの濃度は、シークエンシングの収量とリード長分布に影響します。適切なロード濃度は、ライブラリのサイズ分布や使用するSMRTセル(8M vs 1M)、ポリメラーゼキットなどによって最適化されています。キットの推奨プロトコルに従います。
  • ランタイム: シークエンシング時間は、目的とするリード長とポリメラーゼの読み取り速度によって決まります。長いリードが必要な場合は、より長いランタイムを設定します。
  • 出力ファイル: シークエンシング後、Rawデータ(Subreads)と、それから生成されたHiFiリード(CCSリード)を含むBAMファイルが生成されます。

  • 失敗の回避:

    • 収量不足: ライブラリ濃度が低い、ロード濃度が不適切、SMRTセルや試薬の問題、あるいはHMW DNAの品質が悪かった(目に見えない阻害物質など)といった原因が考えられます。必要なカバレッジが得られなかった場合は、追加のシークエンシングが必要になります。
    • HiFiリード長の低下: 主にインプットDNAの鎖長が短いことが原因です。ライブラリ調製の際のせん断やサイズセレクションの失敗も考えられます。リード長が短いと、ロングリードの利点が失われます。
    • HiFiリード精度の低下: 主にパス数が少ないことが原因です。これは、インプットDNAの鎖長が短いか、シークエンシング条件が最適でなかった場合に起こります。

5. バイオインフォマティクス解析 (Bioinformatics Analysis): アセンブリ本体

シークエンシングによって得られたHiFiリードを用いて、いよいよゲノムアセンブリを行います。

  • リードの品質管理 (QC):

    • アセンブリを実行する前に、得られたHiFiリードの品質を評価します。
    • 使用するツール(例: pbmm2, sequeltools, HiFiStats.py,あるいは独自のスクリプト)
    • チェック項目:
      • 総リード数、総塩基数: 目標とするカバレッジが達成できているか確認します。(総塩基数 ÷ 予想ゲノムサイズ = 実カバレッジ)
      • HiFiリードの平均長、サイズ分布: HMW DNAが適切に準備され、ロングリードが得られているか確認します。
      • HiFiリードの精度(QV値): 一般的にQV > 20 (精度99%), QV > 30 (精度99.9%), QV > 40 (精度99.99%) が目安です。HiFiリードは通常QV > 30以上の高い精度を持ちます。
      • パス数分布: HiFiリードの精度と関連します。
    • 失敗の回避: ここでリードの品質やカバレッジが不足していることが判明した場合、アセンブリを実行しても高品質な結果は期待できません。ウェットラボに戻って再シークエンシングを検討する必要があります。汚染リード(宿主以外の生物のリードなど)が含まれていないか確認することも重要です。
  • アセンブリアルゴリズムとツールの選択:

    • HiFiリードは、その長いが比較的高精度という特性から、従来のロングリード(CLR)向けアセンブラ(FALCON, Canuなど)やNGSアセンブラとは異なるアプローチが用いられます。
    • HiFiアセンブリに特化した、またはHiFiリードに最適化されたアセンブラが開発されています。主なものとして:
      • HiFiASM: 現在最も広く使われているHiFiアセンブラの一つです。特にヘテロ接合性の高いゲノムのフェイジングに優れており、プライマリーコンティグ(Primary Contig)と代替コンティグ(Alternate Contig)として対立遺伝子を分離して出力できます。Hi-Cデータや親の情報(トリオアセンブリ)を組み合わせてフェイジング精度を高める機能も持ちます。高いRAM容量を要求します。
      • verkko: HiFiリードとHi-Cデータを組み合わせて、染色体レベルに近いスキャッフォールドを構築することに特化したアセンブラです。特に複雑なゲノムや反復配列の多いゲノムに有効です。
      • hifigap: HiFiリードで構築されたコンティグ間のギャップを、同じHiFiリードを用いて埋めるツール。
    • 失敗の回避: 対象生物のゲノム特性(サイズ、ヘテロ接合度、反復配列の多さなど)や、達成したいアセンブリのレベル(コンティグ性、フェイジングの必要性など)に応じて、最適なアセンブラを選択することが重要です。特にHiFiASMは多くのケースで良好な結果をもたらすため、最初の選択肢として推奨されることが多いです。
  • アセンブリ実行:

    • 選択したアセンブラの実行方法に従って、HiFiリードを入力としてアセンブリを実行します。
    • 例: HiFiASMの基本的な実行コマンド
      bash
      hifiasm -o assembly.asm -t <threads> <hifi_reads.bam>

      • -o: 出力ファイル名のプレフィックスを指定
      • -t: 使用するCPUスレッド数
      • <hifi_reads.bam>: 入力となるHiFiリードのBAMファイル
    • ヘテロ接合体のアセンブリ:
      • HiFiASMでヘテロ接合体のアセンブリとフェイジングを行う場合、追加のパラメータ(例: --hap-sep 0 または --hap-sep 1)や、Hi-Cデータ(-h1 <hi_c_read1.fq.gz> -h2 <hi_c_read2.fq.gz>)を入力として加えることで、プライマリーパスと代替パス(対立遺伝子)を分離したグラフを構築し、出力することができます。
      • トリオアセンブリを行う場合は、両親のHiFiリードをそれぞれ指定するパラメータ(例: --parent_hifi <parent1_hifi.bam>,<parent2_hifi.bam>)を使用します。
    • パラメータ設定: アセンブラには様々なパラメータがありますが、多くの場合、デフォルト設定でも良好な結果が得られます。ただし、ゲノム特性に合わせて調整が必要な場合もあります。アセンブラのドキュメントをよく確認しましょう。
    • 計算資源: アセンブリは多くのメモリとCPU時間を消費します。必要なリソース(特にRAM)が確保できているか、実行前に確認します。ログファイルを確認し、リソース超過で落ちていないか、エラーが出ていないか監視します。
    • 失敗の回避: 不適切なアセンブラの選択、パラメータ設定ミス、計算資源不足、入力リードの品質問題などがアセンブリ失敗の原因となります。アセンブラの出力ログを注意深く確認し、問題が発生していないかチェックすることが重要です。特にメモリ不足は途中で処理が停止する一般的な原因です。
  • アセンブリのポスドク処理:

    • ポリッシング(Polishing): HiFiリードは高精度ですが、アセンブルされたコンティグにわずかなエラー(特にインデル)が残る可能性があります。アセンブリに使用したのと同じHiFiリードを用いて、コンティグ配列を修正するポリッシングを行うことで、最終的なアセンブリの正確性をさらに向上させることができます。HiFiASMは内部的にポリッシングを行いますが、別のツール(例: arrow, racon – 通常はロングリード用だがHiFiにも使える場合がある)を用いる場合もあります。
    • スキャッフォールディング(Scaffolding): アセンブラは通常、コンティグ(ギャップのない配列断片)を出力します。これらのコンティグ間の相対的な位置や向きを決定し、ギャップを既知の長さでつなぎ合わせるのがスキャッフォールディングです。HiFiアセンブリでは非常に長いコンティグが得られるため、従来NGSで必要だったようなスキャッフォールディングの必要性は低い場合が多いです。しかし、染色体レベルのアセンブリを目指す場合や、物理的な地図情報(Hi-C, Optical map)を組み合わせる場合は、スキャッフォールディングが有効です。verkkoや3D-DNA(Hi-C用)、Bionano Solve(Optical map用)などのツールが使用されます。
    • ギャップフィル(Gap Filling): スキャッフォールディングによって生じたギャップを、リード情報などを用いて埋める処理です。HiFiアセンブリ由来のギャップは非常に少ないため、あまり必要とされないかもしれません。
    • 重複コンティグの除去: ヘテロ接合体のアセンブリにおいて、完全に同一ではないが非常に類似した重複コンティグが生成されることがあります。これらは冗長なため、重複除去ツール(例: purge_dups, purge_haplotigs)を用いて、プライマリーコンティグセットから削除することがあります。HiFiASMはプライマリー/代替コンティグとして出力するため、重複除去は代替コンティグに対する処理として行われることが多いです。
    • 失敗の回避: ポスドク処理はアセンブリの完成度を高めますが、誤った処理(例: 誤ったスキャッフォールディングによるキメラ構造の生成)はアセンブリの品質を低下させる可能性があります。特にスキャッフォールディングは、追加データ(Hi-Cなど)の品質とツールのパラメータに大きく依存します。

6. アセンブリの評価・検証 (Validation and Assessment): 「失敗」ではないことの確認

アセンブリが完了したら、その品質を客観的に評価することが極めて重要です。評価を怠ると、後続解析で誤った結論を導く可能性があります。

  • コンティグ性の評価:

    • N50/L50: 最も一般的に使用される指標です。N50とは、全アセンブリ長の50%をカバーするのに必要なコンティグを、長い順に並べた時に、そのセットに含まれる最も短いコンティグの長さです。L50は、その時に必要なコンティグの数です。N50が大きいほど、コンティグ性は高い(アセンブリが連続している)ことを意味します。HiFiアセンブリでは、kbpからMbpオーダーのN50が期待できます。
    • 総アセンブリ長: アセンブリされた全コンティグ長の合計。予想されるゲノムサイズと比較します。
    • コンティグ数: コンティグ数が少ないほど、コンティグ性は高いと言えます。
  • 網羅性(Completeness)の評価:

    • BUSCO (Benchmarking Universal Single-Copy Orthologs): アセンブリの網羅性を評価する最も標準的なツールです。進化的に保存されている単一コピー遺伝子セット(対象生物群によって異なる)が、アセンブリ中にどの程度完全な形で存在するかを評価します。結果は、完全一致(Complete Single-copy)、重複(Complete Duplicated)、断片化(Fragmented)、欠落(Missing)として報告され、全体の割合で示されます。高いComplete BUSCOスコアは、アセンブリが高い網羅性を持つことを示唆します。
    • K-mer解析: リードのk-mer(特定の長さの連続した塩基配列)分布とアセンブリのk-mer分布を比較することで、アセンブリがどれだけ元のゲノム情報を含んでいるかを評価できます。read-only k-mersが多い場合は、アセンブリから漏れている領域があることを示唆します。
  • 正確性(Accuracy)の評価:

    • リードのアライメント: アセンブリに使用したHiFiリードや、別途取得したNGSリードを、アセンブルされたコンティグにマッピングします。高い割合(99%以上)のリードがゲノムにマップされ、高いマッピング精度(数%以下の不一致率)であれば、アセンブリの正確性は高いと言えます。
    • QV値: アセンブラによっては、コンティグの塩基精度を示すQV値を出力します。QV > 40 (精度99.99%) 以上が望ましいです。
    • 既知配列との比較: ターゲット生物の特定の既知遺伝子配列やオルガネラゲノムなどが存在する場合、それらがアセンブリ中に完全かつ正確な配列として存在するか確認します。
    • キメラ構造のチェック: 異なるゲノム領域が誤って連結されたキメラコンティグが存在しないか確認します。リードのアライメントパターンや、光学地図などの物理マップとの比較が有効です。
  • ゲノムサイズの評価:

    • フローサイトメトリーやK-mer解析(例: GenomeScope)など、シークエンシングデータとは独立したゲノムサイズ推定値と比較します。アセンブリ長がこれらの推定値と大きく異なる場合、問題(重複コンティグの過剰な存在、あるいは欠落領域の多さ)がある可能性があります。
  • 視覚化による評価:

    • dot plot: アセンブリ配列と、既知のリファレンスゲノム(もしあれば)を比較するdot plotを作成します。これは、大きな構造変異、再配置、またはキメラコンティグの存在を一目で確認するのに役立ちます。MUMmerやminimap2/asmcompなどのツールが使用されます。
    • アセンブリグラフ: アセンブラの出力するグラフ構造を視覚化ツール(例: Bandage)で確認することで、複雑な領域(繰り返し配列、ヘテロ接合領域)がどのように解決されているかを理解するのに役立ちます。
  • 失敗の回避: 評価ステップは、アセンブリの「失敗」を早期に発見し、必要に応じて再解析や再シークエンシングを判断するための最後の砦です。必ず複数の指標(コンティグ性、網羅性、正確性)を用いて多角的に評価します。BUSCOスコアが低い場合や、アセンブリ長が推定ゲノムサイズから大きく乖離している場合は、アセンブリプロセスのどこかに問題があった可能性が高いです。

トラブルシューティングとよくある失敗の原因

ここまで各ステップでの注意点を述べてきましたが、改めてHiFiゲノムアセンブリで「失敗」する主な原因とその対処法をまとめます。

  1. 失敗原因: DNA品質が悪い(特にHMWでない、断片化している)
    • 影響: 短いリードしか生成されず、高いパス数を得られない -> 高精度なHiFiリードが少なくなる -> 平均HiFiリード長が短くなる -> コンティグ性が低下し、繰り返し配列やヘテロ接合領域を解決できない。
    • 対処法: これが最も重要。 DNA抽出プロトコルを見直し、せん断を最小限に抑えたHMW DNA抽出法を試す。抽出後のQC(特に鎖長評価:PFGEやFemto Pulse)を厳密に行い、基準を満たさない場合は必ず抽出をやり直す。市販のHMW DNA抽出キットの利用も検討する。
  2. 失敗原因: DNAサンプルに夾雑物が多い
    • 影響: ライブラリ調製やシークエンシング反応が阻害され、ライブラリ収量低下、シークエンシング収量低下、リード品質低下につながる。他の生物のDNAが混入していると、キメラアセンブリや汚染コンティグが生成される。
    • 対処法: DNA抽出プロトコルを改善し、夾雑物除去ステップを強化する。抽出後のQC(OD比)をチェックする。汚染が疑われる場合は、再度精製を行うか抽出をやり直す。アセンブリ後、アセンブリ配列をNCBI nr/ntデータベースなどでBLAST検索し、由来不明のコンティグがないか確認する。
  3. 失敗原因: シークエンシングカバレッジが不足している
    • 影響: アセンブリグラフに断絶が生じ、コンティグ性が低下する。特にヘテロ接合性の高い領域や繰り返し配列領域の解決に必要な情報が不足し、ギャップや断片化の原因となる。
    • 対処法: 計画段階で必要なカバレッジを正確に見積もる。リードQCで実カバレッジを確認し、不足している場合は追加でシークエンシングを行う。特に複雑なゲノムでは、初期見積もりよりも多めのカバレッジを検討する。
  4. 失敗原因: ヘテロ接合度が高い、あるいはポリプロイドゲノムである
    • 影響: アセンブラが対立遺伝子を重複コンティグとして誤ってアセンブルしたり、逆に一つに混ぜてしまったり(ホモポリマーエラーのような見かけ上の高エラー率)、繰り返し配列と区別できなかったりして、アセンブリが断片化したり冗長になったりする。
    • 対処法: ヘテロ接合体アセンブリに対応したアセンブラ(例: HiFiASMのhap-sep機能、verkko)を使用する。可能であれば、両親のリードを用いたトリオアセンブリを行う。アセンブリ後にpurge_dupsなどのツールで重複コンティグを整理する。
  5. 失敗原因: バイオインフォマティクス解析の設定ミス、または計算資源不足
    • 影響: アセンブラが正常に完了しない、エラーが発生する、アセンブリ結果の品質が最適でない。特にメモリ不足は一般的な失敗原因。
    • 対処法: 使用するアセンブラのドキュメントを熟読し、推奨されるパラメータや必要な計算資源(特にRAM)を確認する。実行前に十分なリソースを確保する。実行中のログファイルを注意深く確認し、エラーメッセージやリソースに関する警告を見落とさない。クラウドコンピューティングなど、必要に応じてスケーラブルな環境を利用する。
  6. 失敗原因: アセンブリ結果の評価・検証を怠る
    • 影響: 見かけ上アセンブリが完了していても、実際には品質が低い(断片化、不正確、網羅性不足)ことに気づかず、後続の解析で誤った結論を導く。
    • 対処法: 必ず複数の客観的な評価指標(N50, BUSCO, QV, アライメント率, dot plotなど)を用いてアセンブリ品質を確認する。既知の情報(ゲノムサイズ推定値、関連配列)との整合性をチェックする。問題があれば、アセンブリパラメータの調整、使用アセンブラの変更、あるいはウェットラボに戻って再シークエンシングを検討する。

HiFiゲノムアセンブリの今後の展望

PacBioはRevioシステムを発表し、HiFiリードの出力能力を飛躍的に向上させました。これにより、より大規模なゲノムや、より多くのサンプルでのHiFiアセンブリが容易になり、コスト効率も改善されています。

また、HiFiリードと他の技術(例えば、高精度なロングリードであるONT(Oxford Nanopore Technologies)の超長リード、Hi-Cデータ、光学マップ、RNA-Seqデータなど)を組み合わせることで、さらに高精度で完全な、そしてアノテーション情報やエピゲノム情報を含む「プラチナムスタンダード」レベルのゲノムアセンブリを構築する研究が進んでいます。

バイオインフォマティクス側でも、HiFiリードの特性を最大限に活かすための新しいアセンブラや解析ツールが継続的に開発されています。特に、複雑な構造変異の検出や、ポリプロイドゲノムの正確なアセンブリ・フェイジングに関する技術は進化を続けています。

これらの進歩により、HiFiゲノムアセンブリは、これまで困難だった多くの生物種の高品質なリファレンスゲノム構築を可能にし、生命科学研究を新たな段階に進めていくでしょう。

結論

HiFiゲノムアセンブリは、従来の技術では困難だった高精度でコンティグ性の高いゲノム配列を構築するための強力な技術です。しかし、その成功は、単に高価なシークエンサーを使えば達成できるものではありません。

「失敗しない」アセンブリを実現するためには、

  1. 周到な実験計画: 目標を明確にし、必要なリソース(カバレッジ、計算資源)を正確に見積もる。
  2. ** meticulousなウェットラボ作業: 特に、高分子量(HMW)DNAの抽出とその徹底的な品質管理**が最も重要。ここでの妥協は、以降のステップ全てに悪影響を及ぼす。
  3. 適切なバイオインフォマティクス解析: リードQC、対象ゲノムに適したアセンブラの選択、適切なパラメータ設定、そしてポスドク処理。
  4. 厳密なアセンブリ評価: 得られたアセンブリが本当に高品質であるかを、複数の指標を用いて客観的に確認する。

これらのステップを丁寧に、そして正確に実行することが求められます。特に、ウェットラボとバイオインフォマティクスの間の密な連携と、各ステップでの厳格な品質管理が成功の鍵となります。

本記事で紹介したプロトコルと手順、そしてトラブルシューティングの情報を参考に、皆様がHiFiゲノムアセンブリプロジェクトを成功させ、その後の研究で大きな成果を上げられることを願っています。


コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール