古代プロテオミクス(パレオプロテオミクス)
古代プロテオミクスは、質量分析の応用分野として拡大しています。古代のタンパク質(骨、皮膚、絹)、プロテオーム(エナメル質、卵殻、植物の種子)、そして最も野心的なところで言えばメタプロテオーム(歯石、食物残骸)の分析などを通じて、研究の分野横断的な役割を担っています。Chemical Reviewsに掲載されたWarinnerらによる最近のレビューは、様々なアプリケーションだけでなくサンプル処理やデータ解析の課題についてもカバーしており、一読の価値があります。今回この記事では、データ解析に関する重要な課題をいくつか取り上げます。
図: 上エジプトで発見され現在は大英博物館に展示されている、干し魚と帯状の織物が入った小さな陶器の器。(大英博物館の資産番号544687001)。
試料の採取とタンパク質の検出
古代プロテオミクスの第一の課題は、試料の採取と調製、特にタンパク質の検出です。 何百年も(あるいは何百万年も)土、微生物、水などの好ましくない物質に囲まれ、続成作用によりサンプルにタンパク質がほとんど残っていないかもしれません。 またタンパク質やペプチドが、様々な化学修飾や非特異切断を受けている可能性もあります。
十分な量のタンパク質やペプチドが得られるケースであれば、質量分析計はそれらを検出する事ができます。 データ依存取得(DDA)の手法がとられる事が一般的ですが、DDAもデータ非依存取得(DIA)も古代プロテオミクスには最適とは言えず、またMRM(PRM)を行うほど潤沢に試料があるケースはあまりありません。 WarinnerらはMS/MSの再現性を高めるため、LC、イオンモビリティその他の分離技術がより改善される必要があると強調しています。
配列データベース
検索対象となる配列データベースについてもいくつかの問題点があります。特に生物種の網羅性がないことが原因で、これは通常のメタプロテオミクスと同様の問題と言えます。NCBIのnrやUniProtには生物種の多様性に対して非常に広くカバーできているとはいえ、狭いエリアで生産される/生息する野菜、哺乳類、鳥類、魚類など、歴史的あるいは地理的に重要な種についてまではカバーされている事はあまりなく、それらのタンパク質はほとんど配列が登録されていません。これら問題に対しては、メタゲノミクス(あるいは古代ゲノミクス)を基にサンプル固有の配列データベースを作成するか、de novoシーケンスに挑戦するという選択肢があるでしょう。しかし、既知のタンパク質配列にマッピングされないペプチドを同定するというエキサイティングな課題をクリアできたとしても、元のタンパク質の特性や動物や植物の種を特定することに必ずしもつながるとは限らず、最終的に得られる情報は少ないかもしれません。
この問題に対する最も良い対処法は、可能な限り多種多様な種から構成される、より包括的な配列データベースを作成することでしょう。ターゲットの生物種がデータベースになかったとしても、同じ科や属の生物に対するマッチがあればそこから何らかのヒントが得られる事もあるでしょう。関連事項として、WarinnerらはEarth Biogenome Project、Vertebrate Genomes Project、Darwin Tree of Lifeプロジェクトを紹介しています。これらはいずれも優れたソリューションであり、また動物界や植物界の多様なゲノムを対象とした検索は、古代プロテオミクスだけでなく現代のサンプルにおいてメタプロテオミクス解析や近縁種のゲノムが読まれていないケースでの解析にも非常に有効と言えます。Mascotではどんなサイズの配列データベースでも、たとえ数十億のタンパク質でも扱えるので(関連ブログ記事:英語版、日本語版)データベースサイズは問題にはなりません。但しこうしたデータベースを利用した解析では、生物種情報によるフィルターリングが不可欠と言えるでしょう。
十分に包括的なデータベースが存在すると仮定した場合でも、その先に生物種の特定という別の難しい問題があります。タンパク質がトリプシンで消化されているのであれば、ペプチドの同定結果からタンパク質を推定する過程においてUniPeptを活用する(関連ブログ記事:英語版、日本語版)事をお勧めします。UniPeptではトリプシンペプチドがある種に固有のものであるかどうかを簡単に調べることができます。さらにWarinnerらは同定ペプチドが生物種にユニークでない場合でも、外部からの情報を使用して生物種の推定を可能にした例について注目しています。例えば野生羊と家畜羊の両方に共通するペプチドが同定された際、サンプルが野生羊の生息数が少ない北米の場所から採取されたのであれば家畜羊と推定する、といった具合です。現在のところこのような研究成果の多くは、解析データを探偵的に探っていく方法によるものです。
タンパク質の変性
脱アミド化のような続成作用に伴って発生する修飾は、古代のタンパク質の各種証明に利用するほどこの研究では一般的なものです。同定されたタンパク質にある程度予想されるレベルでこういった修飾がない場合、タンパク質はラボで混入した可能性があると疑います。また紹介しているレビューでは、古代プロテオミクスのサンプルにおいてMS/MSスペクトルの不一致の割合が高く、それが検索時指定されたなかった修飾が原因である可能性についても指摘しています。MascotのError Tolerant Search(拡張二段階検索)は、未知の修飾、アミノ酸置換、非特異的な切断を探し出すことができ、この問題に適用可能です。さらにMascot Server 2.8ではError tolerant Searchに対して新しい統計モデルを開発し(関連ブログ記事:英語版、日本語版)、修飾の同定やアミノ酸置換の結果に対する信頼性をさらに高めました。
もう1点、Mascotに同梱されているデフォルトのPercolatorもバージョンアップされ、追加されたfeature を利用する事で検索結果が改善し、非特異的な切断を伴うペプチドの同定率を大幅に向上させることができました。この事についても以前のブログ記事(英語版、日本語版)でご紹介しています。 半特異的または非特異的なペプチドの検索に必要な時間は膨大に膨れ上がりますが、MascotのCPUライセンスを追加することで検索を高速化することも可能です。
タンパク質の変性でもう一つ問題となるのが、予期せぬ架橋や縮合による新しいキメラ構造です。それらについてはMascotのクロスリンクペプチドの同定機能が役立つかもしれません。
スペクトルライブラリー
Warinnerらはスペクトルライブラリー(ピークリストのライブラリー)の使用について論じていませんが、明らかに使用が有効であろう例を2つご紹介します。
1つはコンタミネーションに対応したスペクトルライブラリーの作成です。古代プロテオミクスのサンプルには、通常の解析と共通する要素のコンタミ物質もある上、通常とは異なる外部環境からの混入もあるかもしれません。例えば遺跡や対象物の取り扱いにおける経緯に特有の要素もありえます。もし似たような条件から繰り返しサンプリングされるなど解析を通じた共通点がある場合、スペクトルライブラリーの作成がそれらに対応するため有効となる可能性があります。Mascotは配列データベースとピークリストライブラリーの統合検索をサポートしており、コンタミ物質の特定をライブラリーで、残りのターゲットタンパク質の特定を配列データベースでマッチングすることも可能です。
2つ目は、生物種の特定を行うためのスペクトルライブラリーの開発です。古代プロテオミクスでは残存率が高いコラーゲンが研究対象とされる事が多いです。Warinner らは、コラーゲンペプチドが羊とヤギの区別など特定の種のバイオマーカーとして機能する例をいくつか挙げています。もし再現性が十分であるならば、バイオマーカーとなるペプチドのピークリストをスペクトルライブラリーに収集することが可能で、そうする事により一般的なデータベース検索よりもはるかに迅速かつ信頼性の高い検索が可能になります。
ペプチドマスフィンガープリント法
現在古代プロテオミクスの多くはLC-MS/MSを使用しています。しかしMALDI-TOFとペプチドマスフィンガープリント(PMF)を組み合わせた方法を古代プロテオミクスに適用する方法( ZooMSと呼ばれる)にもまだ多くの使用例があります。 例えば羊皮紙に書かれた古い原稿に使われている動物の種類を調べる場合、サンプル収集は非侵襲性でなければならず、羊皮紙の表面からわずかな量の分子しか集められません。LC-MS/MSには十分な量を集められないケースでも、PMF法には適用可能なケースも出てくるでしょう。
Mascotはサービス提供当初からPMFをサポートしており、公開されている無料の試用版Mascotを使った検索はその多くがPMFです。Warinnerらのレビューを読んだ際衝撃的だったのは、古代プロテオミクスにおけるPMF解析の紹介の際、手作業によるピークアノテーションを説明している事でした。検索エンジンの利用を是非紹介したいです!MascotのPMF検索は、古代プロテオミクスでよく考慮するvariable modificationをすべてサポートしており、Mascot DistillerはピークピッキングとMSスキャンの可視化を容易にします。
Keywords: error tolerant, metaproteomics, paleoproteomics, PMF, spectral library