研究者必見!HiFiアセンブリプロトコル導入ガイド

研究者必見!HiFiアセンブリプロトコル導入ガイド

はじめに:ゲノムアセンブリの新たな地平へ

生物の設計図であるゲノムDNAの配列情報を正確に解読することは、生命科学研究の根幹をなす技術であり、様々な生命現象の理解、疾患の原因解明、さらには育種や合成生物学など、幅広い分野において不可欠です。ゲノム解読の中心的な技術が「ゲノムアセンブリ」です。ゲノムアセンブリとは、次世代シーケンサー(Next-Generation Sequencer, NGS)によって断片化された大量の短いDNA配列(リード)をつなぎ合わせ、元のゲノム配列を再構築するプロセスを指します。

これまでゲノムアセンブリの主流であったのは、Illuminaなどのプラットフォームから出力される「ショートリード」を利用した手法です。ショートリードは、その圧倒的なシーケンス量と低コストという利点から、多くのゲノムプロジェクトで活用されてきました。しかし、ショートリードは長さが数百塩基対程度と短いため、ゲノム内に存在する数千塩基対、あるいはそれ以上の長さを持つ反復配列(繰り返し配列)や、構造的な多様性を持つ領域(インデル、転座、逆位など)を正確に再構築することが困難であるという根本的な課題を抱えていました。これらの繰り返し配列は、セントロメア、テロメア、リボソームDNA領域など、ゲノム機能上非常に重要な領域に多く存在するため、ショートリードによるアセンブリではこれらの領域が断片化したり、完全に欠落したりすることが少なくありませんでした。結果として、出来上がるアセンブリ配列は多くのギャップを含み、コンティグ(連続した配列断片)やスキャフォールド(コンティグを既知の距離や方向で連結したもの)の長さが短く、ゲノム全体の構造を正確に捉えることが難しいという限界がありました。

このショートリードの限界を克服するために登場したのが、PacBioやOxford Nanopore Technologiesといったプラットフォームが提供する「ロングリード」シーケンス技術です。ロングリードは、その名の通り、数万塩基対、長いものでは100万塩基対を超えるリード長を持つことが可能です。これにより、ショートリードでは跨ぐことができなかった長い繰り返し配列を一度に読み取る(スパンする)ことが可能になり、より連続性の高いアセンブリ、すなわち長いコンティグやスキャフォールドの構築が期待されました。特にPacBioの初期の技術であるContinuous Long Reads (CLRs) は、このロングリードアセンブリに革命をもたらしました。しかし、初期のロングリード、特にCLRsは、リード長が長い一方で個々のリードの精度が比較的低い(エラー率が高い)という課題がありました。アセンブリの際には、この高いエラー率を克服するために大量のカバレッジが必要となったり、エラー訂正に複雑なアルゴリズムを要したりしました。

このような背景の中、PacBioが開発した最新のロングリード技術が「HiFiリード」です。HiFiリードは、従来のCLRsの「長いリード長」という利点に加え、大幅に改善された「高い精度」を同時に実現した画期的な技術です。HiFiは “High-Fidelity”(高精度)を意味し、その名の通り、個々のリードの精度が99%を超える、ショートリードに匹敵する、あるいはそれ以上の精度を誇ります。このHiFiリードの登場は、ゲノムアセンブリの分野に新たな可能性をもたらしました。長いリード長と高い精度を兼ね備えたHiFiリードを用いることで、繰り返し配列を正確にスパンしつつ、エラーによる誤アセンブリのリスクを低減し、これまでにない高品質かつ連続性の高いゲノムアセンブリを実現することが可能になったのです。HiFiリードによるアセンブリは、特にヒトゲノムのような複雑なゲノムや、高いヘテロ接合性を持つ生物、繰り返し配列が豊富な植物ゲノムなどのアセンブリにおいて、その威力を最大限に発揮します。

本記事では、研究者がHiFiリードを用いたゲノムアセンブリ(以下、HiFiアセンブリ)を成功させるために必要な知識と、実践的なプロトコルについて、詳細かつ体系的に解説します。HiFiリードの基本原理から、実際の実験計画、サンプル調製、シーケンス、バイオインフォマティクス解析(アセンブリ、評価、アノテーション)、そしてトラブルシューティングに至るまで、ステップを追って具体的に説明します。本ガイドが、皆様のゲノム研究をさらに加速させる一助となれば幸いです。

1. HiFiリードとは?PacBioシーケンス技術の進化

HiFiリードは、PacBioのSMRT(Single Molecule, Real-Time)シーケンス技術の進化によって生まれました。SMRTシーケンスは、小さなウェル(ゼロモード導波管, ZMW)の中で単一のDNAポリメラーゼが鋳型DNA鎖を合成する様子をリアルタイムで光学的に検出する技術です。蛍光標識された各塩基(A, T, C, G)がポリメラーゼによって取り込まれる際に発する光を検出し、DNA配列を読み取ります。

PacBioの初期のSMRTシーケンスでは、鋳型DNAの片端からもう一方の端までを一度に読み取る「Continuous Long Reads (CLRs)」が主流でした。CLRsは非常に長いリードを生成できるという画期的な特徴を持っていましたが、1パスあたりの精度は85-90%程度と比較的低いという欠点がありました。このエラーは主にランダムエラーであり、高いカバレッジを得て多数のリードを重ね合わせることで補正可能でしたが、アセンブリにおいてはその後のエラー訂正ステップが重要でした。

HiFiリードは、このCLRsの欠点を克服するために開発された「Circular Consensus Sequencing (CCS)」という戦略に基づいています。CCSでは、鋳型となるDNA断片の両端にアダプター配列を連結し、環状のSMRTbellライブラリを作製します。シーケンスの際には、この環状鋳型をポリメラーゼが繰り返し周回して読み取ります。つまり、鋳型DNAの短い断片について、両方の鎖を複数回(例えば10回以上)シーケンスするのです。そして、得られた複数回の読み取り(サブリード)をアライメントし、コンセンサス配列を計算することで、最終的なHiFiリードが得られます。

HiFiリードの特徴:

  • 長さ: HiFiリードの典型的な長さは、鋳型DNAのインサートサイズによって決定されます。一般的に、10 kbから25 kb程度のインサートサイズがよく用いられますが、最大で約25 kb程度までの鋳型から高品質なHiFiリードが得られます。これはCLRsの最大リード長に比べると短いですが、繰り返し配列や構造バリアントを跨ぐには十分な長さです。
  • 精度: CCSプロセスによって、同一のDNA断片を複数回読み取り、そのコンセンサス配列を計算するため、個々のHiFiリードの精度は非常に高くなります。典型的な精度は99%を超え、ランダムエラー率は1%未満です。これはショートリードに匹敵する、あるいはそれ以上の精度であり、アセンブリ後に追加のエラー訂正を行う必要がほとんどありません。

他のリードタイプとの比較:

リードタイプ プラットフォーム例 リード長範囲 精度(典型) 特徴 アセンブリへの影響
ショートリード Illumina 50 bp – 300 bp >99% 高いスループット、低コスト 短いコンティグ、繰り返し配列・構造バリアントのギャップ/誤アセンブリ
ロングリード (CLR) PacBio (旧) 数 kb – >100 kb 85-90% 非常に長いリード 長いコンティグの可能性、しかし高いエラー率がアセンブリの複雑さを増す
ロングリード (ONT) Oxford Nanopore Technologies 数 kb – >1 Mb 85-95% (Raw) 非常に長いリード、リアルタイム解析可能 CLRと同様、高いエラー率への対応が必要(後処理で精度向上も可能)
HiFiリード PacBio (Sequel II/IIe, Revio) 10 kb – 25 kb >99% 長いリード長と高い精度を両立 非常に連続性が高く、エラーが少ないアセンブリ、繰り返し配列・構造バリアントの正確な解読

HiFiリードのメリットとデメリット:

  • メリット:

    • 高品質なアセンブリ: 長いリード長と高い精度により、非常に連続性が高く、エラーの少ないデノボアセンブリが可能。
    • 繰り返し配列の解決: 数十 kb程度の長い繰り返し配列もスパンできるため、セントロメア近傍、テロメア、 rDNAクラスターなどの困難な領域のアセンブリ精度が大幅に向上。
    • 構造バリアントの検出: 長いリードが構造バリアント(欠失、挿入、逆位、転座など)の境界を容易に跨ぐため、検出精度と解像度が向上。
    • ハプロタイプアセンブリ: ヘテロ接合性の高い個体の場合、HiFiリードがハプロタイプ特異的なアセンブリ(phased assembly)を可能にし、両アレルの配列情報を高精度に取得できる。
    • 計算リソースの効率化: 高精度なリードはエラー訂正の必要がないため、アセンブリアルゴリズムが比較的シンプルになり、CLRアセンブリに比べて計算時間が短縮される傾向がある(ただし、データ量は多い)。
  • デメリット:

    • コスト: ショートリードに比べて、1塩基あたりのシーケンスコストが高い傾向がある。
    • データ量: 高精度を得るために、同一の断片を複数回読み取るCCSプロセスが必要なため、生データ量(サブリード)は多くなる。ただし、最終的なHiFiリードデータとしては、必要なカバレッジにもよるが、ショートリードと同等かやや多程度のデータ量となることが多い。
    • DNA品質の要求: HiFiリード生成には、インサートサイズに応じた、損傷のない高分子量DNAが必要。DNA抽出が困難なサンプルでは、HiFiリード生成が難しい場合がある。

HiFiリードがゲノムアセンブリにもたらす変革:

HiFiリードは、ゲノムアセンブリの風景を一変させました。従来のショートリードアセンブリでは達成が困難であった、ゲノムの隅々までをカバーする、染色体レベルに近い連続性を持つアセンブリ(chromosome-level assembly)が、HiFiリードのみでも実現可能になってきています。これにより、これまで「暗黒領域」とされてきた繰り返し配列領域や、複雑な構造を持つ領域の研究が飛躍的に進んでいます。例えば、ヒトゲノムプロジェクトの最終段階であるTelomere-to-Telomere (T2T) コンソーシアムは、HiFiリードとONT超ロングリード、光学マッピング、Hi-Cなどの技術を組み合わせることで、セントロメアを含むすべての染色体のテロメアからテロメアまでを完全にクローズしたアセンブリを達成しました。これはHiFiリードがなければ不可能だったでしょう。

2. HiFiアセンブリの優位性:なぜHiFiを選ぶべきか

HiFiアセンブリの最大の優位性は、長いリード長と高い精度がもたらす、これまでにないレベルの「高品質」と「連続性」です。具体的に、HiFiアセンブリがどのように従来の技術を凌駕するのか、その優位性を詳細に見ていきましょう。

  1. 繰り返し配列領域の解決:

    • ゲノムの大部分を占める繰り返し配列は、ショートリードアセンブリの最大の障壁でした。短いリードでは、繰り返し配列内の特定の場所を特定できず、リードを正しく配置することができません。
    • HiFiリードは、典型的に10-25 kbの長さを持つため、数 kbから10数 kb程度の繰り返し配列を完全に跨いで読み取ることができます。これにより、繰り返し配列の内部構造を正確に把握し、繰り返し配列を挟むuniqueな領域を連結することが可能になります。
    • 特に、ヒトゲノムのセントロメアや、植物ゲノムに多量に存在するトランスポゾン由来の繰り返し配列(LTRレトロトランスポゾンなど)のアセンブリ精度が劇的に向上します。これにより、これらの機能的に重要な領域の研究が加速します。
  2. 構造バリアント(SV)の検出精度向上:

    • SVは、1 kb以上のゲノム構造変化(欠失、挿入、重複、逆位、転座など)を指し、ヒトの疾患や表現型の多様性に大きく寄与することが知られています。
    • ショートリードによるSV検出は、リードのカバレッジの変化や、リードのアライメントが期待される位置からずれること(split reads, discordant pairs)に依存するため、検出できるSVのサイズや種類に限界があり、偽陽性・偽陰性も多く発生します。
    • HiFiリードはSVの境界を高い精度で跨ぐことができるため、SVの正確な位置、タイプ、およびブレークポイント(切断点)を単一のリード内で同定することが可能です。これにより、SV検出の精度と解像度が大幅に向上し、これまで見過ごされてきた多くのSVを網羅的に検出できるようになります。
  3. ハプロタイプアセンブリの可能性:

    • ヒトを含む多くの真核生物は二倍体であり、両親から受け継いだ2組の染色体(ハプロタイプ)を持ちます。従来のデノボアセンブリの多くは、これら2つのハプロタイプを区別せず、単一のコンセンサス配列(モノプロタイプ)としてアセンブリしていました。しかし、ハプロタイプごとに配列が異なる領域(ヘテロ接合サイト)はゲノム機能や多様性に重要な役割を果たします。
    • HiFiリードは、その長いリード長により、複数のヘテロ接合サイトを含む領域を一度に読み取ることができます。これにより、リードをハプロタイプごとに分類(フェージング)し、それぞれ独立したハプロタイプ配列としてアセンブリすることが可能になります。
    • HiFiASMなどのツールは、HiFiリードのみを用いて、高い精度でハプロタイプ特異的なアセンブリ(phased assemblyまたはdiploid assembly)を実行する機能を持ちます。これにより、個体の両アレルの全配列情報を取得し、ハプロタイプレベルでの研究を深化させることができます。
  4. 複雑なゲノムへの適用:

    • 繰り返し配列が多く、遺伝子重複やポリploidityが頻繁に起こる植物ゲノムや、高いヘテロ接合性を持つ野生動物のゲノムは、従来のショートリードアセンブリにとって特に困難な対象でした。
    • HiFiアセンブリは、これらの複雑なゲノムに対しても、高い連続性と精度でアセンブリを実行できます。特にポリploidityを持つゲノムの場合でも、ある程度の深度でシーケンスすれば、各サブゲノムを分離してアセンブリできる可能性があります。
  5. トランスクリプトーム、エピゲノム解析への応用可能性:

    • HiFiシーケンスは、ゲノムアセンブリだけでなく、他のアプリケーションにも応用可能です。例えば、環状RNAやisoformの解析には、HiFiシーケンスを用いたFull-length cDNA (Iso-Seq) 解析が有効です。HiFiリードの高い精度により、正確なトランスクリプトーム解析が可能になります。
    • 特定の制限酵素切断部位をマークしたDNAをHiFiシーケンスすることで、エピゲノム解析や高次構造解析(HiFi-Cなど)にも応用が広がりつつあります。

これらの優位性により、HiFiアセンブリは、モデル生物だけでなく、これまで詳細なゲノム情報が不足していた非モデル生物や、疾患サンプルにおける網羅的なゲノム構造解析、集団遺伝学におけるハプロタイプレベルの解析など、幅広い研究分野において標準的な手法になりつつあります。

3. HiFiアセンブリプロトコル概論:ワークフローの理解

HiFiリードを用いたゲノムアセンブリは、基本的なDNAシーケンスプロジェクトと同様のワークフローに従いますが、HiFiリードの特性を最大限に活かすための特別な考慮事項があります。基本的なワークフローは以下のステップで構成されます。

  1. サンプル調製とDNA抽出: 高品質かつ高分子量のゲノムDNAを準備します。HiFiリード生成には、比較的長いインサートサイズを必要とするため、DNAの断片化や劣化を最小限に抑えることが重要です。
  2. ライブラリ調製とシーケンス: 抽出したゲノムDNAを用いて、PacBio SMRTbellライブラリを作製し、PacBio Sequel II/IIeまたはRevioシステムでシーケンスを実行します。HiFiリード生成のためのCCSプロセスがこのステップで行われます。
  3. クオリティコントロール (QC) と前処理: 生成された生データ(サブリード)およびHiFiリードの品質を評価し、必要に応じて前処理(CCSリード生成、アダプター除去など)を行います。
  4. HiFiアセンブリアルゴリズムとツールの選択: ゲノムの特性(サイズ、複雑性、ヘテロ接合性など)や研究目的に合わせて、最適なアセンブリツールを選択します。
  5. アセンブリの実行: 選択したツールを用いて、HiFiリードからゲノム配列を再構築します。
  6. アセンブリ結果の評価: 得られたアセンブリ配列の連続性、網羅性、正確性を様々な指標とツールを用いて評価します。
  7. 後処理とアノテーション: アセンブリ配列の重複除去、ギャップ閉鎖(必要に応じて)、繰り返し配列のマスキング、遺伝子・non-coding RNAなどのアノテーションを行います。

これらのステップの中で、特にHiFiリードに特有の重要なポイントは、ステップ1の「高分子量DNAの準備」と、ステップ2の「適切なインサートサイズでのライブラリ調製とシーケンス」、そしてステップ4以降の「HiFiリード専用/最適化されたアセンブリツールの使用」です。

従来のショートリードプロジェクトと比較して、HiFiアセンブリプロジェクトの計画段階で特に注意すべき点は以下の通りです。

  • DNA抽出プロトコルの選定: DNAの断片化を避けるために、フェノール・クロロホルム抽出やカラム精製などの標準的な手法よりも、細胞を穏やかに溶解し、機械的なせん断を最小限に抑えるプロトコル(例: Qiagen Genomic-tip, Circulomics Nanobindなど)が推奨されます。
  • DNA品質の評価: 量だけでなく、分子量分布(パルスフィールドゲル電気泳動やFragment Analyzerなどを使用)、純度(Nanodrop, Qubit)、そしてDNAの損傷度(Covaris G-tubeなどによる断片化試験)を厳密に評価する必要があります。
  • シーケンスカバレッジの計算: 必要なカバレッジは、ゲノムサイズ、複雑性、ヘテロ接合性のレベル、そして使用するアセンブリツールによって異なります。一般的に、デノボアセンブリには15-25xのカバレッジが推奨されますが、複雑なゲノムやハプロタイプアセンブリには30-60x、あるいはそれ以上のカバレッジが必要となる場合があります。PacBioのウェブサイトやアセンブリツールのドキュメントを参照して、適切なカバレッジを計算することが重要です。必要なカバレッジと想定されるHiFiリードの長さ(インサートサイズ)から、必要なSMRT Cellの数やランの回数を決定します。
  • 計算リソースの準備: HiFiアセンブリは、ショートリードアセンブリに比べてリード数が少ない場合でも、各リードが長いため、必要なメモリ(RAM)が多くなる傾向があります。特に巨大なゲノムや高いカバレッジでのアセンブリには、高性能なサーバーと十分なストレージ容量が必要になります。アセンブリツールのドキュメントで推奨される計算リソースを確認しておくことが不可欠です。

これらの計画段階での適切な準備が、高品質なHiFiアセンブリを成功させるための鍵となります。次章からは、各ステップについてさらに詳細に解説します。

4. ステップごとの詳細解説

ここでは、HiFiアセンブリプロトコルの各ステップについて、研究者が実際に行う作業に焦点を当てて詳細に解説します。

ステップ 1: サンプル調製とDNA抽出

高品質なHiFiアセンブリの成否は、まさにこの最初のステップにかかっていると言っても過言ではありません。HiFiリードを生成するためには、損傷がなく、インサートサイズに見合った長さの、高分子量(High Molecular Weight, HMW)ゲノムDNAが必要です。DNAが断片化していたり、RNAや多糖類などの夾雑物が混入していたりすると、ライブラリ調製効率が低下したり、HiFiリード生成がうまくいかなかったり、シーケンスデータやアセンブリの品質が著しく劣化したりします。

重要性(高分子量DNAの確保):
PacBio HiFiシーケンスでは、典型的に10 kbから25 kb程度のインサートサイズを目指します。これは、短いリードでは跨げない繰り返し配列をスパンし、高精度なCCSリードを生成するために必要だからです。インサートサイズよりもDNA断片が短い場合、CCSプロセスを十分に周回できず、短い、あるいは低精度なHiFiリードしか得られません。したがって、可能な限り長いDNA断片を維持したまま抽出する必要があります。細胞の溶解やDNA精製過程での機械的なせん断(激しいピペッティング、ボルテックス、遠心分離など)や化学的・酵素的な分解(ヌクレアーゼの混入、不適切なバッファー、長時間のインキュベーションなど)を避けることが極めて重要です。

必要なDNA量と濃度:
ライブラリ調製キット(例: PacBio SMRTbell Library Prep Kit)によって推奨されるDNAの開始量は異なりますが、一般的に、数マイクログラム(µg)の高分子量DNAが最低でも必要となります。Revioシステム向けのライブラリ調製では、より少ない開始量で対応できるキットも出てきています。DNA濃度も重要で、通常20 ng/µL以上の濃度が推奨されます。これは、ライブラリ調製酵素反応の効率に関わるためです。

推奨される抽出キット/プロトコル:
高分子量DNA抽出に特化した市販のキットやプロトコルが多数存在します。目的の生物種やサンプルタイプ(組織、細胞、血液、植物など)によって最適なものが異なります。
* カラムベースのキット: Qiagen Genomic-tipシリーズ(G20, G100, G500など)は、アニオン交換カラムを用いて夾雑物を除去し、比較的穏やかにDNAを回収できます。動物組織や培養細胞などによく用いられます。
* 磁気ビーズベースのキット: Circulomics Nanobind Big DNA Kitやその他の磁気ビーズベースのキットは、ビーズへの結合・遊離を利用してDNAを精製します。比較的迅速に実施でき、高い収量とHMW DNAが得られやすいとされます。植物など、多糖類が多いサンプル向けのキットも開発されています。
* 標準的な手法の改良: フェノール・クロロホルム抽出後、エタノール沈殿する際に、DNAを溶解するバッファー(例: Tris-EDTA pH 8.0)にRNase Aを添加してRNAを除去したり、沈殿物を溶解するのに時間をかけたり(冷蔵庫で一晩など)、機械的な操作を極力避けるなどの工夫でHMW DNAが得られることがあります。

DNA品質評価:
抽出したDNAの品質評価は必須です。
* 分子量: パルスフィールドゲル電気泳動(PFGE)は、数十 kbから数 MbのDNA断片を分離できる標準的な手法です。DNAがシャープなバンドとして高分子量側に検出されれば良好です。Agilent Fragment AnalyzerやBioanalyzer、TapeStationなどのマイクロフルイディクス電気泳動装置も、より簡便に分子量分布を確認できます。目的のインサートサイズ(例えば15-20 kb)よりも十分に長い断片が多く含まれているかを確認します。
* 純度: 核酸濃度(260 nm吸光度)はQubitなどの蛍光定量法で測定することが推奨されます(NanodropはRNAや夾雑物の影響を受けやすい)。260/280 nm比および260/230 nm比を確認し、タンパク質や塩、多糖類などの混入がないか評価します(通常、それぞれ約1.8-2.0が良好)。
* DNA損傷: DNAが酸化やせん断によって損傷していると、ライブラリ調製効率が低下します。Covaris G-tubeなどを用いて特定のサイズに断片化し、その効率を確認するアッセイや、Q-PCRベースのDNA断片化アッセイなどが利用できますが、これらは必須ではありません。むしろ、上記2点の評価を丁寧に行うことが重要です。

注意点:
* RNA混入: RNAはライブラリ調製を阻害したり、定量値を歪めたりします。RNase処理を行うか、RNAを除去する抽出プロトコルを選択してください。
* ゲノムDNAのせん断: ゲノムDNAを扱う際は、ピペッティングは太いチップでゆっくり行い、ボルテックスは避け、優しく転倒混和する、遠心分離の時間を最小限にするなど、最大限に機械的な操作を避けてください。
* 汚染: 細菌や真菌などのDNA混入は、アセンブリ結果を汚染します。可能な限り無菌的な操作を心がけ、抽出キットや試薬のコンタミネーションにも注意してください。

ステップ 2: ライブラリ調製とシーケンス

高品質なHMW DNAが準備できたら、HiFiリード生成のためのSMRTbellライブラリを調製し、シーケンスを行います。

SMRTbellライブラリの構築:
SMRTbellライブラリは、抽出したゲノムDNAを目的のインサートサイズ(例: 15 kb)に断片化(シェアリング)し、両端を修復して平滑末端にし、アダプター配列を連結することで作製されます。このアダプター配列は、鋳型DNAの両端を連結して環状構造を形成するための重要な役割を果たします。キットには通常、DNA断片化用の試薬(エンザイマティックシェアリング)や、末端修復・アダプターライゲーションに必要な酵素、バッファーなどが含まれています。断片化サイズは、キットのプロトコルに従って調整します(例: Incubation timeの変更)。

HiFiリード生成の原理(Circular Consensus Sequencing – CCS):
ライブラリはSMRTbell構造(環状)になっているため、PacBioシーケンサー上ではポリメラーゼがこの環状鋳型を繰り返し周回して読み取ります。各周回で得られる読み取りを「サブリード」と呼びます。CCSソフトウェアは、同一のSMRTbellから得られた複数のサブリードをアライメントし、エラーを含むサブリードから正確なコンセンサス配列を計算します。このコンセンサス配列が「HiFiリード」です。HiFiリードの精度は、同一SMRTbellからのサブリード数(パス数)が増えるほど向上します。一般的に、10パス以上でのコンセンサスが推奨されます。

最適なインサートサイズとリード長の選択:
目的とする研究対象(ゲノムサイズ、繰り返し配列の量など)とアセンブリ戦略によって最適なインサートサイズは異なります。
* 一般的な細菌ゲノム(数 Mb)や、比較的繰り返し配列が少ないゲノムであれば、10 kb程度のインサートサイズでも十分な連続性が得られることが多いです。
* ヒトゲノム(3 Gb)や、繰り返し配列が豊富な植物ゲノムの場合、15-20 kb、可能であれば25 kb程度の長いインサートサイズを目指すことで、より多くの繰り返し配列をスパンでき、アセンブリの連続性が向上します。
ただし、インサートサイズを長くするほど、高品質なHMW DNAをより高い収量で得るのが難しくなり、ライブラリ調製効率も低下する傾向があります。サンプルの特性と目標とするアセンブリ品質を考慮して、現実的なインサートサイズを選択します。

必要なシーケンスカバレッジの計算方法:
アセンブリに必要なカバレッジ(ゲノムサイズあたりにリードが重なる回数)は、非常に重要なパラメータです。カバレッジが低すぎると、ゲノム全体をカバーできず、アセンブリが断片化したり、ギャップが多くなったりします。カバレッジが高すぎても、計算リソースを無駄にするだけでなく、繰り返し配列の誤アセンブリやキメラコンティグの原因になる可能性もあります。
必要なカバレッジは、ゲノムサイズ、ゲノムの複雑性(ヘテロ接合性、繰り返し配列の量)、そして使用するアセンブリツールによって異なります。
一般的な目安:
* 単純なゲノム(細菌、酵母など):15-20x
* 一般的な真核生物ゲノム(哺乳類、昆虫など):20-30x
* 複雑なゲノム(植物、高いヘテロ接合性、ポリploidity):30-60x以上

カバレッジの計算式: 必要なカバレッジ = (必要な総塩基数) / (ゲノムサイズ)
必要な総塩基数 = (1 SMRT Cell あたりのHiFiリードの総塩基数) * (必要なSMRT Cell数)

PacBio Revioシステムは、1 SMRT Cellあたり最大約100 GbのHiFiデータ(約2500万リード、平均リード長15 kbの場合)を生成できます。Sequel II/IIeは1 SMRT Cellあたり約15-20 Gbです。
例: ヒトゲノム (3 Gb) を30xカバレッジでシーケンスする場合、必要な総塩基数は 3 Gb * 30 = 90 Gb です。Revioを使用する場合、1 SMRT Cellでほぼ90 Gbのデータが得られるため、1 SMRT Cellランで十分な可能性が高いです。Sequel II/IIeの場合、90 Gb / 15 Gb/SMRT Cell = 6 SMRT Cell 必要となります。

PacBio sequencer (Sequel II/IIe, Revio) の特徴:
* Sequel II/IIe: HiFiリード生成を可能にした最初のプラットフォームです。1 SMRT Cellあたり約15-20 GbのHiFiデータを出力できます。現在も多くの研究室で稼働しています。
* Revio: Sequel IIeの後継機であり、スループットが大幅に向上しました。1 SMRT Cellあたり最大約100 GbのHiFiデータを出力できます。これにより、大規模なゲノムプロジェクトや、多数のサンプルを並行して処理することがより効率的に行えるようになりました。

ラン計画とデータ生成:
ライブラリ調製後、クオリティ評価(Qubit定量、TapeStationなどでのサイズ分布確認)を行い、シーケンスに供します。シーケンス施設やプロバイダーに依頼する場合は、目的とするインサートサイズ、必要なカバレッジ、使用するプラットフォーム(Sequel IIe or Revio)を明確に伝えます。シーケンスラン後、Fastq形式のHiFiリードデータが出力されます。

ステップ 3: クオリティコントロール (QC) と前処理

シーケンスで得られたデータについて、品質評価と前処理を行います。

生データのQC (Subreads):
PacBioシーケンサーから最初に出力されるのは、SMRTbellを周回して得られた個々の「サブリード」を含むBAMファイルです。
* pbindex コマンドでBAMファイルにインデックスを付けます。
* bax2bam (旧ツール) や pbccs ツールの一部として、サブリードの長さ分布や品質スコア分布を確認できます。サブリードのリード長分布が、目的のインサートサイズやライブラリ調製時の断片化サイズと一致しているか確認します。

CCSリード生成 (pacbio-ccs, ccs tool):
サブリードからHiFiリード(CCSリード)を生成します。
pbccs または単に ccs というコマンドラインツール(Biocondaなどでインストール可能)を使用します。
ccs input.subreads.bam output.hifi.bam --min-passes <N> --min-rq <Q> --max-length <L>
* input.subreads.bam: 生のサブリードBAMファイル
* output.hifi.bam: 出力されるHiFiリードBAMファイル
* --min-passes <N>: HiFiリードとして出力するために必要な最小パス数(例: 10)
* --min-rq <Q>: HiFiリードとして出力するために必要な最小リード品質(例: 0.99 or QV20)
* --max-length <L>: 出力するHiFiリードの最大長(ライブラリのインサートサイズ上限に合わせる、例: 25000)

CCSプロセスにより、HiFiリードのBAMファイルと、オプションでFastqファイルが生成されます。アセンブリツールの多くはBAM形式のHiFiリードを直接入力として使用できます。

HiFiリードデータのQC:
生成されたHiFiリード(FastqまたはBAM)の品質を評価します。
* HiFi read stats: PacBioのBioinformatics Toolsに含まれるツールなどで、HiFiリードの総数、合計塩基数、平均リード長、リード長分布、リード品質分布などを確認します。必要なカバレッジが達成されているか、平均リード長が期待通りか、リード品質が高いか(QV20以上が多いか)などを確認します。
* FastQC: 一般的なシーケンスデータのQCツールですが、HiFiリードにも適用可能です。アダプター配列の混入や塩基組成の偏りなどをチェックします。
* Meryl (k-mer based QC): Merylなどのk-mer計算ツールを用いて、データのユニークなk-mer数や、カバレッジに基づくk-mer頻度分布を確認することで、ゲノムサイズ推定やデータの品質、混入の有無などを評価できます。単一のピークを持つ正規分布に近いk-mer頻度分布は、良好なデータ品質を示唆します。

キメラリードの除去、アダプタークリーニング:
ccs ツールは基本的なアダプター除去を行います。特別なアダプターやキメラリードの疑いがある場合は、TrimGalore!やAdapterRemovalなどのツールでさらにクリーニングを行うことも可能ですが、HiFiリードはCCSプロセスで精度が高いため、過度な前処理は通常不要です。

計算リソースの準備:
HiFiアセンブリには、特にメモリ(RAM)とストレージが必要です。ゲノムサイズが大きくなるほど、必要なリソースも増加します。
* RAM: 数十 GBから数 TB(テラバイト)が必要になることがあります。アセンブリツールのドキュメントで推奨仕様を確認してください。例えば、HiFiASMでヒトゲノムをアセンブリするには、最低でも約128 GB、推奨は256 GB以上のRAMが必要です。
* CPU: コア数が多いほど計算は高速化されます。数十から数百のCPUコアを持つサーバーが望ましいです。
* ストレージ: 入力データ(BAMファイル)、中間ファイル、最終出力ファイルを含め、ゲノムサイズの数十倍から数百倍のストレージ容量が必要になります。高速なSSDストレージが推奨されます。

ステップ 4: HiFiアセンブリアルゴリズムとツールの選択

HiFiリードの登場に伴い、様々なアセンブリアルゴリズムとツールが開発されました。従来のショートリードやCLR向けのアセンブリツールをそのまま使うのではなく、HiFiリードの特性(長いリード長と高い精度)を活かすように設計または改良されたツールを選択することが重要です。

代表的なアセンブリツール:

  1. HiFiASM:

    • HiFiリードに特化した、現在最も広く利用されているツールの一つです。
    • 特徴: 高速、メモリ効率が良い(HiFiリード専用のため)、ハプロタイプアセンブリに強い(モノプロタイプ、フェーズ済みプライマリー、フェーズ済みオルタネートの3種類のグラフ/配列を出力可能)。重複グラフアプローチを採用。
    • メリット: HiFiリードの長所を最大限に活かし、高品質なモノプロタイプアセンブリと、詳細なハプロタイプ情報を同時に得られます。使い方が比較的シンプルです。
    • デメリット: HiFiリード以外のデータタイプ(ショートリード、ONTリードなど)は原則として入力できません。
  2. Verkko:

    • HiFiリードとHi-C(高次クロマチン構造解析)データ、オプションでONT超ロングリードなどを組み合わせて、染色体レベルの完全なアセンブリを目指すツールです。
    • 特徴: マルチプルデータタイプ対応、特にHi-Cデータによるスキャフォールディング機能が強力。染色体レベルの完全長アセンブリに特化。HiFiリードの正確性とHi-Cの長距離情報を統合。
    • メリット: 染色体全体を数本のコンティグ/スキャフォールドで表現する、非常に連続性の高いアセンブリが得られます。テロメアからセントロメアを跨ぐ完全なアセンブリに適しています。
    • デメリット: Hi-Cデータが必要(HiFiリードのみでも実行可能だが、Verkkoの真価は発揮されにくい)。HiFiASMなどに比べて計算リソースを多く必要とする場合があります。
  3. Flye:

    • 元々はロングリード(CLR, ONT)向けに開発されたツールですが、HiFiリードにも対応しています。グラフベースのアプローチ。
    • 特徴: マルチプルリードタイプ対応、高速。
    • メリット: ONTリードなど他のロングリードデータと組み合わせてアセンブリしたい場合に有用です。HiFiASMが登場する以前はHiFiアセンブリによく使われていました。
    • デメリット: ハプロタイプアセンブリ機能はHiFiASMほど洗練されていない場合があります。
  4. FALCON / FALCON-Unzip:

    • PacBioのCLR向けに開発された初期の代表的なアセンブリツールです。FALCONはモノプロタイプアセンブリ、FALCON-Unzipはハプロタイプ分解を行います。
    • 特徴: CLRアセンブリの実績が豊富。
    • メリット: CLRデータとHiFiデータを組み合わせる場合に検討の余地があります。
    • デメリット: HiFiASMなど、HiFiリードに特化して開発された新しいツールの方が、HiFiリードの精度をより効果的に活用できるため、現在では主流ではありません。計算リソースも多く必要とする場合があります。

ツールの選定基準:

  • ゲノムサイズと複雑性: 巨大で複雑なゲノムや、高いヘテロ接合性を持つゲノムには、HiFiASMやVerkkoのようなHiFiに最適化されたツールが適しています。
  • ハプロタイプ分解の要否: 両ハプロタイプを個別にアセンブリしたい場合は、HiFiASMの–haplotype-modeオプションやFALCON-Unzipなどが強力な選択肢となります。
  • 利用可能なデータタイプ: HiFiリードのみを使用する場合はHiFiASMが有力候補です。Hi-Cデータなど他のデータも利用できる場合はVerkkoが魅力的です。
  • 計算リソース: 各ツールで必要なRAMやCPUリソースは異なります。利用可能な計算環境に合わせて選択します。HiFiASMは比較的メモリ効率が良いとされます。
  • コミュニティサポートとドキュメント: ツールの開発状況、活発なユーザーコミュニティ、詳細なドキュメントの有無も重要な選定基準です。主要なツールはGitHubなどでソースコードやWikiが公開されています。

アセンブリ戦略:

  • デノボアセンブリ (De Novo Assembly): リファレンスゲノムが存在しない生物種や、リファレンスゲノムと大きく異なるゲノムをアセンブリする場合に使用します。HiFiアセンブリの最も一般的な用途です。
  • リファレンスガイドアセンブリ (Reference-guided Assembly): 近縁種のリファレンスゲノムが存在する場合に、そのリファレンスをガイドとしてアセンブリやスキャフォールディングを行う手法です。ただし、HiFiリードの高い連続性があれば、デノボアセンブリだけでも非常に高品質な結果が得られるため、必須ではありません。リファレンスゲノムとの構造的な違いを調べたい場合には、デノボアセンブリ後、リファレンスとの比較解析(アライメントやドットプロットなど)を行う方が適切です。

ステップ 5: アセンブリの実行

選択したアセンブリツールをインストールし、HiFiリードを入力としてアセンブリを実行します。ツールは通常、Linux環境でコマンドラインから実行します。

選択したツールのインストールと設定:
ほとんどのHiFiアセンブリツールは、GitHubなどでソースコードが公開されており、自分でコンパイルしてインストールするか、conda (特にBioconda) などのパッケージマネージャーを使ってインストールできます。Biocondaを利用するのが最も手軽で、依存関係も自動で解決されるため推奨されます。

例(Biocondaでのインストール):
conda install -c bioconda hifiasm
conda install -c bioconda verkko
conda install -c bioconda flye

コマンドライン実行例:

  • HiFiASM:

    • モノプロタイプアセンブリ:
      hifiasm -o output.asm -t <num_threads> input.hifi.bam

      • -o output.asm: 出力ファイルのプレフィックス
      • -t <num_threads>: 使用するCPUコア数
      • input.hifi.bam: 入力HiFiリードBAMファイル
    • ハプロタイプアセンブリ(両親のリードがある場合など、別途フェージング情報を使用する場合):
      hifiasm -o output.asm -t <num_threads> --primary -1 paternal.hifi.bam -2 maternal.hifi.bam input.hifi.bam

      • --primary: フェーズ済みプライマリーアセンブリも出力
      • -1, -2: 両親由来のリード(オプション、親の情報なしでもハプロタイプ分解可能)
    • ハプロタイプアセンブリ(親の情報なし、入力HiFiリードからハプロタイプ分解):
      hifiasm -o output.asm -t <num_threads> --haplotype-mode cis input.hifi.bam
      または
      hifiasm -o output.asm -t <num_threads> --haplotype-mode trans input.hifi.bam
      (cis/transモードはデータの特性や目的に応じて選択)

  • Verkko: (HiFiとHi-Cを使用する場合の例)

    • verkko --hifi hifi.bam --hic {HiC_R1.fastq.gz} {HiC_R2.fastq.gz} --assembly verkko_assembly
      • --hifi hifi.bam: 入力HiFiリードBAMファイル
      • --hic {R1.fastq.gz} {R2.fastq.gz}: 入力Hi-CリードFastqファイル(ペアエンド)
      • --assembly verkko_assembly: 出力ディレクトリ名
  • Flye: (HiFiリードのみの場合の例)

    • flye --pacbio-hifi input.hifi.fastq.gz --genome-size <estimated_genome_size> -o flye_assembly -t <num_threads>
      • --pacbio-hifi: 入力ファイルタイプ指定
      • --genome-size <estimated_genome_size>: 推定ゲノムサイズ(MやG単位で指定、例: 3g)
      • -o flye_assembly: 出力ディレクトリ名

パラメータチューニングの重要性:
多くのツールには様々なオプションがありますが、多くの場合、デフォルト設定で良好な結果が得られます。ただし、ゲノムの特性に合わせて一部のパラメータを調整する必要がある場合があります。例えば、極端に高い/低いカバレッジのデータや、高いヘテロ接合性を持つゲノムの場合などです。ツールのドキュメントをよく読み、各パラメータの意味を理解することが重要です。

並列計算の利用:
アセンブリは計算負荷が高いため、複数のCPUコア(スレッド)を利用して並列計算を行うことが必須です。使用可能なサーバーのCPUコア数を指定して、計算時間を短縮します(例: -t 64)。ただし、指定するスレッド数を増やしても、処理速度が頭打ちになることや、必要なメモリ量が増加することもあるため、サーバーのリソース状況に合わせて適切に設定します。

ステップ 6: アセンブリ結果の評価

アセンブリが完了したら、得られた配列の品質と連続性を定量的に評価します。評価は、アセンブリの成功を確認し、異なるアセンブリ結果を比較するために不可欠です。

評価指標:

  • N50, NGA50: アセンブリの連続性を示す最も一般的な指標です。
    • N50: アセンブリ配列を長い順に並べたとき、その長さの合計がゲノムサイズ(またはアセンブリされた総塩基数)の50%に達する最小のコンティグ長。N50が大きいほど、アセンブリの連続性が高いことを意味します。
    • NGA50 (NGS-aligned 50): リファレンスゲノムがある場合に、アセンブリ配列をリファレンスにアライメントし、誤アライメント(misassemblies)で分断されたコンティグを考慮した上で計算されるN50。N50よりも厳密な連続性の指標であり、リファレンスとの比較評価に有用です。
  • ゲノムサイズ: アセンブリされた総塩基数が、目的のゲノムサイズ(推定値や近縁種の値)と大きくかけ離れていないか確認します。ハプロタイプアセンブリの場合、モノプロタイプアセンブリの約2倍のサイズになるのが理想的です。
  • コンティグ数: コンティグ数が少ないほど、アセンブリの連続性が高いことを意味します。理想的には、染色体数に近いコンティグ数になることを目指します(完全長アセンブリの場合)。
  • ギャップ数: アセンブリ内の既知のギャップ(通常’N’で示される)の数。HiFiアセンブリでは、ギャップはほとんど含まれないか、非常に少ないことが多いです。
  • BUSCO スコア: アセンブリ配列中に、進化的に保存されている単一コピー遺伝子セット(BUSCOs)がどの程度含まれているかを評価します。ゲノムの網羅性(欠落領域がないか)を示す指標となります。完全にアセンブリされていれば、多くのBUSCOsが「Complete Single-copy」として検出されます。
  • アライメント率とカバレッジ: 元のHiFiリードや、可能であればショートリードなどをアセンブリされた配列にマッピングし、リードの大部分がユニークな位置に適切にマップされるか、ゲノム全体がリードで均一にカバーされているかを確認します。アライメント率が低い場合や、特定の領域にリードがマップされない場合は、アセンブリに問題がある可能性があります。

評価ツール:

  • QUAST-LG: ロングリードによるアセンブリ評価に特化したツールです。N50, NGA50, ゲノムサイズ、コンティグ数、誤アセンブリ箇所などを詳細に報告します。リファレンスゲノムがある場合は、それとの比較評価も可能です。
  • BUSCO: 特定の分類群(例: 真核生物、脊椎動物、特定の昆虫など)に特異的な遺伝子セットを用いて、アセンブリの遺伝子網羅性を評価します。
  • Minimap2 / Samtools / IGV: 元のリードをアセンブリされた配列にマッピングし、視覚的にアライメントやカバレッジを確認します。特定の興味のある領域や、評価ツールが指摘した問題箇所を詳細に調べるのに有用です。
  • Bandage: アセンブリグラフを視覚化するツールです。アセンブリグラフの構造を確認することで、繰り返し配列の処理状況やグラフの複雑性を直感的に把握できます。
  • Dot plots: アセンブリ配列とリファレンス配列(または他のアセンブリ結果)の間で全長の pairwise アライメントを行い、ドットプロットとして表示します。ゲノム構造の比較、転座や逆位などの大規模な構造変化、誤アセンブリ箇所の検出に非常に有用です。MummerやD-Geniesなどのツールで作成できます。

複数アセンブリ結果の比較:
異なるツールやパラメータ設定でアセンブリを行った場合、これらの評価指標や可視化ツールを用いて結果を比較し、最も連続性が高く、正確で、網羅性の高いアセンブリを選択します。例えば、N50やBUSCOスコアが高く、誤アセンブリ箇所が少ないアセンブリが良いと判断できます。

ステップ 7: 後処理とアノテーション

最終的なアセンブリ配列が得られたら、必要に応じて後処理を行い、遺伝子やその他の機能領域のアノテーションを行います。

コンティグの整列とスキャフォールディング(必要な場合):
HiFiアセンブリは非常に連続性が高いため、多くの場合、染色体数に近いコンティグが得られます。これらのコンティグが染色体に対応している場合、さらに長距離情報を利用して、コンティグの順序と向きを決定し、スキャフォールド化することで、染色体レベルのアセンブリに近づけることができます。
* Hi-Cデータとの統合: VerkkoのようにHi-Cデータを最初から統合するツールもあれば、HiFiASMなどのアセンブリ結果に対して、Juicebox Assembly ToolsやALLMAPSなどのツールを用いてHi-Cデータを活用してスキャフォールディングを行うことも可能です。
* 光学マッピングデータとの統合: BioNano Genomicsなどの光学マッピングシステムで得られた分子マーカーマップを用いて、コンティグを配置・向き付けし、スキャフォールディングを行うことも有効です。
* 遺伝地図やリファレンスゲノムとの比較: 遺伝地図や近縁種のリファレンスゲノムをガイドとして、コンティグを配置することもあります。

ギャップクロージング(多くの場合不要、または最小限):
HiFiアセンブリでは、ショートリードアセンブリのような多くのギャップ(N領域)は通常発生しません。もしアセンブリの評価で少数のギャップが見つかった場合でも、繰り返し配列内部の非常に難しい領域など、特定の箇所に限られることが多いです。必要であれば、GapCloserなどのツールを用いることも理論的には可能ですが、HiFiリード自体で埋められないギャップは、他の手法(例: PCR、Sangerシーケンス)でも埋めるのが難しい場合が多いです。

重複コンティグの処理(ハプロタイプ分解の有無による):
HiFiASMなどでハプロタイプアセンブリ(プライマリーとオルタネートのセット)を行った場合、プライマリーコンティグセットと、それに対応するオルタネートコンティグセット(ヘテロ接合領域のみを含む)が出力されます。モノプロタイプアセンブリが必要な場合は、プライマリーセットを使用します。ハプロタイプレベルでの解析を行う場合は、プライマリーとオルタネートの両方、あるいはフェーズ済みアセンブリを利用します。ツールの出力形式(例: HiFiASMのasm.bp.p_ctg.fa, asm.dp.ctg.fa, asm.hap1.p_ctg.fa, asm.hap2.p_ctg.faなど)を理解して、目的に合ったファイルを選択します。

繰り返し配列のマスキング (RepeatMasker):
アノテーションの前に、繰り返し配列をマスキングすることが推奨されます。これにより、後の遺伝子アノテーションで繰り返し配列が遺伝子として誤認識されるのを防ぎます。RepeatMaskerなどのツールを用いて、既知の繰り返し配列データベースや、Tephra、RepeatModelerなどを用いてアセンブリ配列から新規に構築した繰り返し配列ライブラリを基にマスキングを行います。

遺伝子アノテーション:
ゲノム配列上の遺伝子(タンパク質をコードする領域、non-coding RNAなど)を予測・同定します。アノテーションには様々な手法とツールがあります。
* ab initio予測: ゲノム配列の統計的特徴(コドン使用頻度、スプライシングサイトなど)に基づいて遺伝子を予測します(例: AUGUSTUS, SNAP, GeneMark-ES/ET)。
* 証拠ベースのアノテーション: 既知のタンパク質配列やcDNA/RNA-Seqデータなどをアセンブリ配列にマッピングし、それらを証拠として遺伝子構造を予測します(例: Exonerate, BLAT, StringTie, Trinity)。
* 統合ツール: 上記の手法を組み合わせて、より正確なアノテーションを行うツール(例: MAKER, BRAKER)。RNA-Seqデータがある場合は、BRAKER2などが特に有効です。HiFiリードを用いたIso-Seqデータも、正確な転写開始点/終点、スプライシングバリアントの同定に役立ちます。

non-coding RNA, 構造バリアントのアノテーション:
遺伝子以外にも、tRNA、rRNA、miRNAなどのnon-coding RNAや、上で検出した構造バリアント(SV)などもアノテーションします。 tRNAscan-SE (tRNA)、Barrnap (rRNA)、Infernal (miRNAなど特定のRNAファミリー) などのツールが利用できます。SVの検出とアノテーションは、HiFiリードの得意とする領域です。アセンブリ中にSVが検出される場合(例: HiFiASMのGFAファイルなど)や、アセンブリ後、リファレンスゲノムや他のアセンブリとの比較(Minimap2 + SVimなど)によって行います。

アセンブリ結果の公開:
研究成果を共有するために、アセンブリ配列と関連するメタデータを国際的な公共データベース(例: NCBI GenBank, ENA, DDBJ)に登録することが推奨されます。これにより、他の研究者がデータを利用できるようになります。

5. トラブルシューティングと注意点

HiFiアセンブリプロトコルを進める上で発生しうる問題と、その対処法について解説します。

DNA品質が低い場合:
* 問題: DNA収量が少ない、分子量が短い、RNAや夾雑物が多い、DNAが損傷している。
* 影響: ライブラリ調製効率の低下、HiFiリードの収量低下、短いリード長、低いHiFiリード品質、アセンブリの断片化、誤アセンブリ。
* 対処法:
* 原因を特定する(サンプルタイプ、抽出プロトコル、操作方法など)。
* HMW DNA抽出に特化したキットや改良プロトコルを試す。
* DNA抽出量を増やし、品質評価(分子量、純度)をより厳密に行う。
* 可能であれば、新鮮で量の多いサンプルを使用する。
* どうしてもHMW DNAが得られない場合、低分子量DNAにも対応できるロングリード技術(例: ONT)も検討する。

シーケンスカバレッジが不足/過剰な場合:
* 問題: 必要なカバレッジが得られなかった(不足)、または必要以上に多くのデータが生成された(過剰)。
* 影響:
* 不足: アセンブリの断片化、ゲノムのカバー率低下、信頼性の低いアセンブリ。
* 過剰: 不要なコスト増、計算リソースの浪費、アセンブリ時間の増加、複雑な繰り返し配列領域での誤アセンブリリスク上昇(まれ)。
* 対処法:
* 不足: 追加でシーケンスランを行う。ライブラリ調製のインプットDNA量が適切か、ライブラリ濃度が適切か、シーケンサーランの設定に問題がないか確認する。
* 過剰: サンプリング(リードのサブセットを使用)してアセンブリを実行する。ただし、カバレッジを減らしすぎると品質が低下する可能性があるため、試行錯誤が必要。
* 事前に正確なゲノムサイズを推定し、必要なカバレッジを計算するための計画を綿密に行う。PacBioの推奨カバレッジガイドラインを参考に、少し余裕を持たせたカバレッジを目標にする。

アセンブリが断片化する場合(N50が低い):
* 問題: 得られたアセンブリのコンティグ長が短い(N50が低い)。
* 影響: ゲノム全体の構造把握が困難、繰り返し配列領域の解決が不十分。
* 対処法:
* 入力HiFiリードの品質(リード長、精度)とカバレッジを確認する。リード長が短い、精度が低い、カバレッジが不足しているなどが原因のことが多い。その場合は、ステップ1, 2に戻って改善する。
* ゲノムの特性(繰り返し配列の量、ヘテロ接合性)に対してカバレッジが不足している可能性がある。カバレッジを増やして再アセンブリする。
* 使用しているアセンブリツールのパラメータを確認する。デフォルト設定で問題ないことが多いが、特殊なゲノムでは調整が必要な場合がある。
* より長いインサートサイズでライブラリを再調製し、シーケンスする。
* 異なるアセンブリツールを試してみる。
* Hi-Cデータなどの長距離情報を追加して、スキャフォールディングを試みる。

キメラコンティグ、誤アセンブリ:
* 問題: 実際には連続していないゲノム領域が誤って連結されている、または本来の順序や向きと異なってアセンブリされている。
* 影響: ゲノム構造の誤解釈、遺伝子構造予測の誤り。
* 対処法:
* アセンブリ評価ツール(QUAST-LGなど)で誤アセンブリ箇所を検出する。
* ドットプロットやIGVでのリードマッピングなどで、疑わしい箇所を視覚的に確認する。
* 元のHiFiリードの品質(特にキメラリードの可能性)を再評価する。
* カバレッジが過剰な場合に発生しやすいことがある(まれ)。
* リファレンスゲノムがある場合は、アライメントツール(Minimap2, Mugsyなど)を用いて比較し、構造的な違いや誤りを検出する。
* 異なるアセンブリツールやパラメータを試してみる。

ハプロタイプ分解がうまくいかない場合:
* 問題: ハプロタイプ特異的なアセンブリを試みても、両ハプロタイプがきれいに分離しない、または過度に断片化してしまう。
* 影響: 個体の両アレルの配列情報を正確に取得できない。
* 対処法:
* ゲノムのヘテロ接合性が低い場合、ハプロタイプ分解は困難です。
* HiFiリードのカバレッジが十分か確認する。ヘテロ接合サイトを跨ぐのに十分なカバレッジが必要(通常30x以上が推奨)。
* 使用しているアセンブリツール(HiFiASMなど)のハプロタイプ関連パラメータを確認する。
* 親の情報(シーケンスデータ)がある場合、それらをインプットとして使用することでフェージング精度が向上することがある。
* Hi-Cデータと組み合わせることで、ハプロタイプをフェージングできる場合がある。

計算リソースの問題:
* 問題: メモリが不足してアセンブリが途中で停止する、計算に非常に時間がかかる。
* 影響: プロジェクトの遅延、研究の停滞。
* 対処法:
* アセンブリツールのドキュメントで推奨されるメモリとCPUコア数を確認し、使用可能なサーバーリソースと比較する。
* より多くのRAMを搭載したサーバーを利用する。
* ゲノムサイズに対してカバレッジが高すぎる場合、リードをサンプリングしてカバレッジを減らす(ただし品質に影響する可能性)。
* 分散並列計算環境(クラスター)を利用できるか確認する。
* 計算効率の良いツールを選択する。HiFiASMは比較的メモリ効率が良いとされます。

非標準的なゲノム特性(例: 高いヘテロ接合性、ポリploidity):
* 問題: 高いヘテロ接合性や複数のセットの染色体(ポリploidity)を持つゲノムは、アセンブリが複雑になります。
* 影響: アセンブリが過剰に断片化する、異なるハプロタイプやサブゲノムがキメラになる、アセンブリサイズが期待と異なる。
* 対処法:
* 高いヘテロ接合性には、十分なカバレッジ(40-60x以上)とハプロタイプアセンブリ機能を持つツール(HiFiASMなど)を使用する。
* ポリploidityを持つゲノムの場合、各サブゲノムのコピー数や配列の類似性によってアセンブリの難易度が大きく変わります。カバレッジを増やして各サブゲノムを分離できるか試みるか、他の情報(例: サブゲノム特異的なマーカー、親のアセンブリなど)を組み合わせてアセンブリをガイドする必要があります。ポリploidityゲノムのアセンブリは現在も活発な研究テーマであり、専用のツールやアプローチが必要となる場合があります。

全般的な注意点:
* ドキュメントを熟読する: 使用するライブラリ調製キット、シーケンサー、アセンブリツールなどのドキュメントは非常に重要です。推奨プロトコルやパラメータ設定、トラブルシューティング情報などが記載されています。
* テストデータで試す: 比較的小さなデータセットや、公開されているテストデータを用いて、ツールのインストールや基本的なワークフローを試すことを推奨します。
* コミュニティを活用する: アセンブリツールには、ユーザーコミュニティやフォーラム(GitHub Discussions, Biostars, SeqAnswersなど)が存在することが多いです。問題が発生した場合、過去の議論を検索したり、質問を投稿したりすることで解決策が得られることがあります。
* バージョン管理: 使用するツールやソフトウェアのバージョンを記録しておき、結果の再現性を確保することが重要です。

6. 応用例と今後の展望

HiFiアセンブリ技術は、すでに様々な分野で革新的な研究を可能にしています。ここではいくつかの代表的な応用例と、今後の展望について触れます。

応用例:

  • ヒトゲノム: Telomere-to-Telomere (T2T) コンソーシアムによるヒトゲノムの完全なアセンブリは、HiFiリードとONT超ロングリードを組み合わせることで達成されました。これにより、これまで不明だったセントロメアやその他の繰り返し配列領域の配列が明らかになり、ヒトゲノムの完全な理解に向けた道が開かれました。HiFiアセンブリは、集団レベルでのヒトゲノム多様性(SVを含む)のカタログ化や、個人の精密医療におけるゲノム解析にも不可欠なツールとなっています。
  • 植物ゲノム: 植物ゲノムは、高い繰り返し配列含有量やポリploidityによりアセンブリが特に困難でした。HiFiアセンブリは、コムギのような大規模で複雑なゲノムでも、高い連続性でアセンブリすることを可能にしました。これにより、農作物の重要な形質に関わる遺伝子領域や、ゲノム構造変化の研究が進み、育種研究に貢献しています。
  • 動物ゲノム: モデル動物だけでなく、非モデル動物種のデノボゲノムアセンブリが進んでいます。HiFiアセンブリにより、複雑なゲノムを持つ多様な動物種の高品質なリファレンスゲノムが整備されつつあり、進化や生態、保全などの研究基盤となっています。
  • 微生物ゲノム: 細菌や真菌などの微生物ゲノムは、サイズが小さいものの、プラスミドやトランスポゾンなどの繰り返し配列、構造バリアントが機能に大きく関わります。HiFiアセンブリは、これらの要素を正確に捉え、完全な環状ゲノム配列やプラスミド配列をアセンブリすることを可能にします。薬剤耐性メカニズムの解明や、微生物叢の機能解析において重要な情報を提供します。
  • メタゲノムアセンブリへの応用: 複数の微生物種が混在する環境サンプル(土壌、腸内など)から抽出されたDNAをシーケンスし、各微生物種のゲノムを再構築するメタゲノムアセンブリにおいても、HiFiリードは有効です。ロングリードであるHiFiリードは、異なる微生物種のゲノム断片をより長く連結できるため、より連続性の高い、種レベルあるいは株レベルでのアセンブリを可能にし、コミュニティ内の微生物の機能ポテンシャルをより正確に評価できるようになります。

今後の展望:

  • さらなる精度とリード長の向上: シーケンス技術は常に進化しており、HiFiリードの精度やリード長がさらに向上する可能性があります。これにより、さらに困難なゲノム領域のアセンブリや、より微細な構造バリアントの検出が可能になるでしょう。
  • 計算効率化と使いやすさの向上: アセンブリアルゴリズムやソフトウェアは継続的に改良されており、計算効率や使いやすさが向上していくと予想されます。これにより、より多くの研究者がHiFiアセンブリ技術を利用できるようになるでしょう。
  • 新たなシーケンス技術との統合: PacBioのHiFi技術は、Oxford Nanopore Technologiesの超ロングリードや、Hi-C、光学マッピングなどの他の技術と組み合わせて使用されることで、その価値がさらに高まります。これらの技術を統合した、より高精度で完全なアセンブリを自動化するパイプラインやツールがさらに発展していくでしょう。
  • 機能解析への応用拡大: HiFiシーケンスは、ゲノムアセンブリに留まらず、Iso-Seqによるトランスクリプトーム解析や、新しいプロトコルによるエピゲノム解析など、様々なアプリケーションへの応用が拡大しています。ゲノム配列情報とこれらの機能情報を統合することで、生命現象のより深い理解が進むことが期待されます。

7. まとめ:高品質アセンブリが拓く未来

本記事では、研究者向けにPacBio HiFiアセンブリプロトコルの導入ガイドとして、その基本原理から詳細なステップ、評価、トラブルシューティング、そして応用例までを解説しました。

HiFiリードは、従来のロングリード技術の「長いリード長」とショートリード技術の「高い精度」という利点を兼ね備えた画期的な技術です。この特性により、HiFiアセンブリは、これまでのショートリードや初期ロングリードでは困難であった、繰り返し配列領域の正確なアセンブリ、構造バリアントの高解像度検出、そしてヘテロ接合性の高いゲノムにおけるハプロタイプレベルのアセンブリを可能にしました。

HiFiアセンブリを成功させるためには、高品質な高分子量DNAの準備、適切なライブラリ調製とシーケンス計画、そしてHiFiリードに最適化されたアセンブリツールの適切な選択と実行が不可欠です。さらに、得られたアセンブリ結果を様々な指標とツールを用いて厳密に評価し、必要に応じて後処理やアノテーションを行うことで、最終的な高品質ゲノムアセンブリデータが完成します。

確かに、HiFiアセンブリはショートリードと比較してコストや計算リソースが必要となる場合があります。しかし、その投資に見合う、あるいはそれ以上の価値を提供するのが、HiFiリードがもたらす「高品質」と「連続性」です。この高品質なゲノムアセンブリデータは、これまでの研究では見過ごされてきたゲノム構造や遺伝的要素に光を当て、新たな生物学的発見や深い洞察をもたらす可能性を秘めています。

生命科学研究は、ゲノム情報の解読とともに発展してきました。HiFiアセンブリ技術は、このゲノム解読の精度と深さをかつてないレベルに引き上げるものです。複雑なゲノムを持つ生物の研究、疾患ゲノム解析における構造バリアントの網羅的な検出、集団遺伝学や進化研究におけるハプロタイプレベルの解析など、HiFiアセンブリは様々な研究分野で新たな地平を切り開いています。

本ガイドで解説したプロトコルと注意点が、これからHiFiアセンブリを始めようとする研究者の方々にとって、高品質なゲノムアセンブリを成功させるための一助となり、皆様の研究から革新的な成果が生まれることを願っています。ゲノムアセンブリの新たな標準となりつつあるHiFi技術をぜひ導入し、あなたの研究を次のレベルへと進めてください。高品質なゲノムデータが、生命の神秘を解き明かす鍵となるでしょう。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール