著者 : Richard Jacob   2020年9月16日投稿のブログ記事 (元の英文記事へのリンク)

データベース管理の極意

 データベース検索における 2 つの主要な入力データが、配列データベースと質量分析データです。Mascot Server でのデータベースの管理は長年にわたって進化しアップグレードを経て改善を続けてきました。しかしそれでもまだまだお客様の元で定期的に発生してしまう問題がいくつかございます。この記事ではデータベース管理のFAQを取り上げていきたいと思います。

よくあるエラーメッセージ

検索テストの設定時間

 新しいデータベースをアクティブにすると、Mascot Server はテスト検索を実行して、すべてが正常であるか確認します。NCBIprot や Uniref100 のような非常に大きなデータベースでは、このテスト検索が規定時間を超えてしまいタイムアウトすることがあります。

Error [M00103 - Job -11 - X02168:monitor] - Thu Aug 04 02:43:34 2020 -
Monitor test search on database NCBIprot timed out

 修正方法は、MASCOTのパラメータ設定をまとめた画面、Configuration Editor→Configuration Optionsにて、パラメータ「MonitorTestTimeout」の設定値を増やす事です。例えば数値を倍に設定し直した上で、Database Status ページのRetryリンクをクリックするか、Database ManagerのRecompressをクリックする事で、今度は検索テストが完了するのではないでしょうか。

登録データベース数

 Mascot Server で登録可能なデータベース数は、デフォルトで 256 となっています。これには、アクティブなデータベースだけでなく、非アクティブなデータベースも含みます。またアミノ酸配列データベースだけでなく塩基配列やスペクトルライブラリなどをすべて合わせた数字です。この数を超えると、以下のエラーが表示されます。

Error [M00043 - Job -11 - X00241:ms_controlfile] - Wed Dec 18 13:31:22 2019 -
Maximum number of active databases has been exceeded.
The database 'New_Database' will not be available.

 対処方法は簡単です。Configuration Editor → Configuration Optionsで表示されるパラメータ「MaxDatabases」を探してその値を大きくしてください。ただし値を大きくすると Mascot がより多くの メモリを使用することになるので、不必要に高い値に設定しないようにしてください。また、値を変更した後は MASCOTのプログラムを再起動する必要があります。

dataフォルダ内のファイルを必要以上に削除してしまった時

 時間の経過とともに検索結果やキャッシュディレクトリが蓄積され、最終的にはディスクが一杯になってしまうことがあります。古い結果を圧縮してキャッシュを空にするため、MASCOTでは tidy_data.pl というスクリプトを準備していて、ディスク使用量を最小限に抑えます。 もし、手動で mascot\data ディレクトリをクリーンアップする場合は、"data\test" ディレクトリを削除しないように注意してください。test" ディレクトリは、起動時に Mascot がチェックする各データベースのテスト検索結果を含んでおり非常に重要です。また、テスト検索用のテンプレートファイル do_not_delete.asc ファイルも含まれています。このファイルがない場合、新しいデータベースの追加時や Mascot Server の再起動時に以下のエラーが表示されます。

Cannot start new database. Missing source test .asc file:
'../data/test/do_not_delete.asc' [M00532]<BR>

 このエラーが出てしまったら、mascot\dataディレクトリにある "test "ディレクトリが存在するか、まずは確認してください。さらに、testディレクトリ内に "do_not_delete.asc "ファイルが存在することを確認してください。もしなかった場合は ここから同ファイルをダウンロードし再び同じフォルダに置いてください。

General tips

Accession parse rule 設定

 配列データベースのすべての登録データにはユニークな(一意な)識別子が必要です。Mascot は、データベースが構成される時に選択されているAccessionのparse ruleを使用して FASTA タイトル行から識別子を選択します。データベースをアクティブにすると、アクセッション番号が 50 文字を超えるというエラーが表示されることがあります。

Error [M00421 - Job -16 - X00293:compress] - Wed Jan 6 16:52:41 2020 - Warning
- accession [scaffold1-1000001_1005000-Diaphorina_103[3419-3460]] is longer than 50 characters

 修正方法は、設定の詳細画面に戻り(database manager,各データベース設定画面の「Show configuration details」ボタンを押す)、parse ruleを変更することです。まれに、既存のセットには無い新しいparse ruleをユーザー自身で作成する必要がある場合や、50文字未満のユニークなアクセッション番号が得られるようなparse ruleが見つからない、あるいは作成できない場合があります。そのような問題が起きるのは、ゲノムコードから生成されたカスタムデータベースであったり、記述行に異なるフォーマットを使用しているデータベースから引き出されたエントリーを寄せ集めたデータベースを使用しているケースです。 もしそのような問題でお困りの場合は、各エントリーにユニークな識別子を追加するスクリプトを提供する事ができます。

配列長の最大値

 個々のエントリーの配列の長さにはソフトウェア側で定めている既定値があります。デフォルトは Mascot 2.7 では 80,000、それ以前のバージョンでは 50,000 です。デフォルト設定値を超えると、以下のようなエラーが表示されます。

Error [M00238 - Job -16 - X00290:fasta] - Wed Nov 11 12:56:20 2019
- Sequence with more than 80000 residues ignored. (Accession number: NCLIV_chrIa-0R)

 この場合、Configuration Editor→Configuration options 画面で「MaxSequenceLen」オプションを編集する事で対処できます。MaxDatabasesオプションと同様の理由で不必要に高く設定しない事をお勧めしますが、とてつもなく古いコンピュータでない限り100万以上の値をセットしても十分に機能します。また、場合によっては、何百万ものヌクレオチドを含むシングルエントリーの完全ゲノムデータベースの使用を検討される事もあるかと思いますが、これは検索には不向きですので分割をお勧めします。私たちは、データベースを複数の重複エントリーに分割するスクリプトも提供しており、そちらのほうがより使いやすい検索結果となるためお勧めです。

カスタムデータベース

レアな生物種を取り扱っている時のデータベース

 農耕植物や畜舎動物のような、いわゆる実験室以外で扱われる生物種を扱う場合は、uniprot proteome templateを使用することをお勧めします。 あるいは、NCBIprotのアクセッション番号を使用したい場合は、https://www.ncbi.nlm.nih.gov/protein から 配列をダウンロードしてご利用ください。後者の場合は、種名またはTaxonomy IDを入力し、必要に応じてフィルタリングし、「Send to 」をクリックし、「File」を選択し、「FASTA」のフォーマットを選択する事でファイルを取得できます。

ご自身でデータベースを作成される場合にお勧めのFASTA先頭行フォーマット

 カスタムデータベースをご自身で作成する場合、FASTAの先頭行は「>ACCESSION Description 」のように、アクセッション文字列と説明文の間にスペースを入れたシンプルなフォーマットを使用する事をお勧めいたします。これにより、'simple_AA_template'というPredefined template を使ってMascot Serverに追加する事ができ、作業が非常に簡単になります。

20種類のアミノ酸を表すアルファベット以外の文字を有効に利用する

 20種類のアミノ酸以外のアミノ酸、非標準アミノ酸は、必要に応じて再定義することができる文字J、OおよびUを使用してデータベースでサポートされていますが、Uは一般的にセレノシステインのために使用されています。例えば、非標準残基は、N-linkedおよびO-linkedグリカンからのグリコシド開裂イオンをモデル化するために使用することができます。

塩基配列データベース

 Mascot Serverは塩基配列データベースの検索もサポートしており、その場で6フレームの翻訳を行います。stopコドンに遭遇した場合は、ギャップを残してすぐに翻訳を再開します。Proteome Discover のようなサードパーティのソフトウェアは核酸データベースの検索をサポートしていないため、塩基配列データベースで検索をしたい場合はMascot Server で直接データを検索する必要がある事に注意してください。

スペクトルライブラリ内の古い修飾名の拡張サポート

 スペクトルライブラリの非標準修飾名をサポートする新機能がMascot Server 2.7に追加されました。古いデータセット内にはPSI修飾命名法ガイドラインに適合しない古い修飾名や頭字語が残っており、その一部はNISTから公開されているスペクトルライブラリ内で使用されています。Mascot Server 2.7では、古い名前を新しいPSI名にマッピングするエイリアスファイルが導入されました。詳細は2020年2月のニュースレターの今月の小技に掲載されています。


Keywords: , , ,