NCBI nrの代替データベース
NCBI nrは、National Center for Biotechnology Informationが構築した非同一(non redundunt)、包括的なタンパク質配列のデータベースです。MascotではこのデータベースをPredefinedデータベースNCBIprotとして長らく提供していました。しかし、FASTAファイルは静かに廃止された模様で、最終バージョンは2024年2月のファイルのままとなっています。
NCBI FTPサイト上で最終更新時刻は2024年2月7日です:
README.txt 2024-01-25 15:59 365 nr.gz 2024-02-07 10:05 186G nr.gz.md5 2024-02-07 11:22 40
執筆時点(2025年10月)では、18ヶ月間更新されていません。ファイルはNCBI Insightsのブログ記事にリンクしており、FASTAファイルが廃止されたことを示唆しています。この件に関する他の公式発表を見つけることはできません。NCBIのドキュメントは更新されておらず、BLASTヘルプマニュアル(「/db/FASTA/」サブディレクトリ下のSequence filesセクション)でも、現在もnr.gzが有効なFASTAファイルとして参照されています。
完全なBLAST nrデータベースをコンパイルする方法
一方BLAST自体は廃止されておらず、あくまでも事前構築されたタンパク質FASTAファイルの提供が終了しただけです。ローカルコンピュータ上でBLAST nrデータベースをダウンロードしコンパイルすることは依然として可能です。発表内ではBLAST command line instructionsを参照しています。すなわち現段階で完全なnrデータベースをダウンロードするにはupdate_blastdb.plを使用する必要があります。その後さらにblastdbcmd.exeプログラムを使用することで、FASTA形式の(サブセットの)タンパク質配列を抽出できます。
私はblast+パッケージ2.16.0を以下からダウンロードしました:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/ 。実行するためには更にPerlのインストールも必要です。Linuxでは通常、OSの一部としてPerlが利用可能です。WindowsではStrawberry Perlなどを利用すると良いでしょう。
Perlをインストール後、blast+パッケージをインストールします。これにはダウンロードを開始するスクリプトが含まれています。例えばWindowsでは、スクリプトはインストールディレクトリに抽出されます:
perl "C:\Program Files\NCBI\blast-2.16.0+\bin\update_blastdb.pl" --source ncbi --decompress nr
このコマンドを実行することで、小分割されたデータベースをダウンロードします。
Downloading https://ftp.ncbi.nlm.nih.gov/blast/db/nr.000.tar.gz... Downloading https://ftp.ncbi.nlm.nih.gov/blast/db/nr.001.tar.gz...
全ての分割データのダウンロード完了後、FASTA形式のデータベースを抽出します:
perl "C:\Program Files\NCBI\blast-2.16.0+\bin\blastdbcmd.exe" -entry all -db nr -out nr.fasta
作成にはどれくらいの時間がかかるでしょうか。metadata fileによれば、2025年10月時点でgzip圧縮された128チャンクの総容量は306GBです。1Gbpsのインターネット接続環境であれば、理論上1時間でダウンロード完了可能ですが、それはあくまで理論値であり、実際にはNCBIサーバーの応答速度に依存します。100Mbpsで接続した場合、丸一日以上かかるでしょう。さらに、分割データのダウンロードは失敗することがあるため、コマンドを複数回実行する必要が生じる可能性があります。
2025年10月時点で、分割データ群のファイルサイズは解凍後、計590GBとなります。これはBLASTデータベースのサイズです。さらに、BLASTから抽出されるフォーマット済みFASTAファイル用のディスク容量も必要です(現在の約450GB)。合計では:
- gzip圧縮チャンク:306GB
- ファイル抽出後:590GB
- nr.fasta用:450GB
したがって、少なくとも1.5TBの空き容量を確保しておく必要があるでしょう。
2022年4月のブログ記事で、NCBI nrのサイズが約2年ごとに倍増し続けていると指摘しました。この傾向は現在も変わらず続いています。ですからこのブログ記事を2027年に読んでいる場合、少なくとも3TBの空きディスク容量が必要ということになるでしょう!
Mascot ServerでのNCBI nr利用
前述のブログ記事で予想した数値どおり、現在nrは約10億エントリーを収録していますが、Mascot Serverではこの膨大なデータベースを検索対象とすることができます。これほど大規模データベースを検索対象とできるのは、検索エンジンとしておそらく唯一でしょう。
設定を開始するには、ローカルMascot Serverのホームページから、Configuration Editor→Database Managerと移動します。続いて以下のように操作します。
- create a new databaseを選択
- “Use predefined definition template”オプションを選択し、テンプレートとしてNCBIprotを選択
- わかりやすい名前(例:`NCBI_nr_from_BLAST.`)を付ける
- “Next”をクリックすると、配列ファイルの保存場所を選択できます。十分な空き容量があるディレクトリまたはドライブを選択(* FASTAファイルの2倍の容量があれば十分です)
- "Create" をクリック
Createを押した時点では、データベース定義はFASTAファイルが設置されるのを準備しています。ご注意いただきたい事として、FASTAファイルを準備する方法としてウェブブラウザのファイルアップロード機能を使用しないでください!ウェブブラウザ自身が、450GBのファイルをネットワーク経由でアップロードするように設計されておらず、エラーとなります。代わりに、nr.fastaをMascot Serverハードドライブ上のデータベースの「current」ディレクトリに直接コピーしてください。その後、nr.fastaを、データベース名+今日の日付などバージョン情報を使用した名前に変更します。データベース定義は自動的に更新され、検出されたFASTAファイルが認識されたことを知らせる情報が表示されるはずです。続けて「Enable」をクリックして、データベース圧縮を開始します。
圧縮(実際にはインデックスファイルの作成)には、ディスク速度とプロセッサ速度に応じて数時間から1~2日程度の時間がかかります。
代替案
NCBI nrデータベースは膨大なサイズのため、常に最終手段としてご案内してきました。データベースのサイズは倍増しており、この傾向は強まっています。もしMASCOTと同じコンピューターにBLASTをインストールしている場合、タンパク質配列の生物種別のサブグループを抽出するための有用な方法があります。BLAST+ manualでは可能と記載されているにも関わらずチュートリアルが存在しません。(我々が作成すべきかもしれません。)
別の選択肢として、類似する別のPredefined データベースを使用する方法があります。Mascot Serverには、NCBInr(NCBIprot)以外の他の大規模データベース用の設定が同梱されています:
- UniProtKB/TrEBML (Trembl):自動生成したアノテーションと、大規模な機能特性解析データと関連付けられた未レビュー(unreviewed)のタンパク質配列を含みます。
- UniRef100(UniRef):UniProtKB由来の配列をもとに、非冗長(non-identical)な配列セットで、アイソフォームを含みます。
特に、TrEMBLの方をお勧めします。UniProtの次期リリース「2026_02」では、2025年10月に発表された再編成が行われ、「reference proteomes」の数が増加し、未注釈または注釈が不十分な配列の数が減少します。つまり、データベースの品質が大幅に向上すると同時に、生命の樹全体を包括的にカバーするようになります。そのため、今後はNCBI nrよりもTrEMBLの使用を推奨いたします。しかしながら、未知または特性化が不十分な生物種を研究している場合(メタプロテオミクスなど)、nrの利用は引き続き意味を持つでしょう。
Keywords: database manager, Fasta, NCBI, sysadmin