2021年3月号

今月のブログでは、お客様がMascot Serverの最適CPUライセンス数を検討される際に役立ついくつかのご提案をいたします。

今月の論文では、PMF(Peptide Mass Fingerprinting)とMS/MSを相補的に使用して、古代のタンパク質の特性を明らかにした解析をご紹介します。

今月の小技では、最近のNCBI nrデータベースに関するご案内をいたします。

Mascotニューズレターのバックナンバーはこのページからご覧いただけます。日本語版は「Japanese」リンクをクリックしてください。また、Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。

Mascot Serverのライセンス数:いくつ必要か?

お客様からのよくある質問に、「十分な検索速度を得るためには、いくつのCPUライセンスを購入する必要がありますか?」というものがあります。検索エンジンがデータを分析する速度は、質量分析計がデータを取得する速度よりも速くしたいと考えるのが妥当でしょう。検索速度は、コンピュータのハードウェア性能と検索パラメータの両方に依存しますが、速度の検証のためにはやはりいくつかのサンプルファイルを実際に検索してその時間を参考にするのがよいと考えます。

弊社ではCPTACプロジェクトで公開されているデータセットを指定された検索条件で実行してみました。1CPUのMascot Serverライセンス(4コア)を使用した場合、1フラクションあたり2~3分で検索が完了しました(訳者注:日本でのみ、 ver.2.7から1CPUあたり6コアまで使用できるよう特別に変更しています)。7日間かけて測定したデータを、8時間以内に検索完了しました。

この例は早く検索が完了しましたが、場合によってはより多くのCPUライセンスを必要とするかもしれません。

  • サンプルが未知のバクテリア種からのもので、すべてのバクテリアの配列に対して検索しなければならない場合、先ほどの例では2~3分で済んだ各フラクションの検索が、20~30分かかる事もあります。この場合、2または3CPUライセンスの方が良いかもしれません。
  • コアラボを運営している場合や、質量分析装置が24時間365日稼働している場合、2~4CPUのライセンスが適しているかもしれません。
  • 大規模なコアラボや複数の機器を使用するラボであれば、5CPU以上が必要になるかもしれません。

Mascot Server ライセンス数についての詳細は、こちら(英語日本語訳)をご覧ください。

古代の骨におけるコラーゲン量とプロテオームの変化

Proteome Variation with Collagen Yield in Ancient Bone

Noemi Procopio, Rachel J.A. Hopkins, Virginia L. Harvey, and Michael Buckley

J. Proteome Res. 2021 Publication: February 2, 2021

著者らは、ブルガリアとハンガリーにある4つの異なる洞窟遺跡から採取した古代の骨試料中のタンパク質の残存状況を調査しました。29個の骨試料を穿孔して骨粉とし、これを溶媒で洗浄した後、塩酸で洗浄してインキュベートしました。バッファ交換後、サンプルはトリプシン切断処理をし、MALDI-TOF(PMF)とLC-MS/MSで同定解析をしました。データベースはSwiss-Prot、生物種のフィルターリングをかけずに検索しています。

MALDI-TOFの解析(著者らはZooarchaeology by Mass SpectrometryまたはZooMSと呼んでいる解析方法)から、29サンプル中22サンプルの生物種分類を確定[ ウシ(畜牛またはバイソン)(n = 6)、ウマ(n = 9)、ヒト(n = 2)、シカ(アカシカ、エルク)(n = 5)]することができました。またLC-MS/MSデータを用いて分類学上の分類をさらに精査した結果、29検体中25検体で種レベルの同定が確認され、残りの1検体はウシ科またはシカ科の可能性がある事がわかりました。

サンプルのコラーゲン収量(放射性炭素年代測定のためコラーゲンを抽出)とプロテオームの複雑さとの間に何かしらの傾向は見られませんでした。逆に言えば、コラーゲン収量が少ないと思われるサンプルでも、プロテオームに関する貴重な情報を得ることができます。

Mascotニューズレターで取り上げてほしい話題や研究論文がありましたらぜひご紹介ください。また、Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。

NCBI nrデータベースの扱いに関して

Mascot tip

NCBI nrデータベースに関連するサポートの質問は、定期的に、ある程度の頻度で寄せられます。このデータベースのサイズは非常に大きく頻繁に問題になります。圧縮されたファイルでも現在90GB以上あり、ダウンロードするにはよほど高速で安定したインターネット接続環境でないと難しいです。解凍されたFastaファイルはこの2倍の大きさなので、最新の状態にしておきたい場合は2つのファイルセットの存在を考慮して500 GBバイト以上のディスクスペースを確保する必要があります。タンパク質の登録エントリー数が現在約3億5千万件なので、Mascotが必要とする生物種の分類情報の紐づけとアクセッション文字列のインデックスの構築には何時間も、場合によっては何日もかかります。無事構築できたとしても、検索には非常に長い時間がかかり、大量のメモリを使用し非常にサイズの大きな結果ファイルと冗長な結果レポートが生成されます。

完全なデータベースを使用可能な状態にしておきたい何かしらの強い理由がない限り、NCBIprotをこれ以上利用されるのはお勧めできません。個々の種や科、極端な場合には様々な形で生物種情報を組み合わせたデータをダウンロードして検索する事をお勧めいたします。このヘルプページ、並びに日本語の設定資料では、その方法を説明しています。

NCBIprotに対する検索のように検索対象となるペプチド数が非常に多くなってしまうケースでは、統計的に有意といえる基準を超える一致を得るのが難しくなることも念頭に置いてください。大半の検索では、Uniprotプロテオーム・データベースなど、対象となる生物のプロテオームに近いデータベースを対象とした方が良い結果が得られるでしょう。(訳者注:現在 MASCOTではUniprotの個別生物種別のデータベースについてpredefinedの設定を準備しています。ご利用をご希望の場合、比較的簡単な操作で設定やファイル取得を行う事ができます)

お問い合せ

マトリックスサイエンス株式会社

〒110-0015

東京都台東区東上野1-6-10 ARTビル1F

info-jp@matrixscience.com

電話:03-5807-7895

ファクシミリ:03-5807-7896

Matrix Science logo