著者 : Ville Koskinen 　　2021年9月22日投稿のブログ記事 (元の英文記事へのリンク)

より多くのHLAペプチドを同定する

データベース検索による内在性のペプチドの同定は、難しい問題です。Mascotのno enzyme検索では、タンパク質のすべてのサブシーケンス（部分配列）について観測されたスペクトルとマッチングを行いますが、この場合プリカーサの質量誤差許容範囲を非常に狭くしたとしても、非常に大きな検索空間となってしまいます。検索空間が広がる事でMascot同定基準値が上がり同定ペプチド検出の感度が下がります。

MASCOTでは Validation用のプログラム、Percolatorを搭載しています。Percolatorの適用は、MASCOT単独では難しい問題に対してしばしば改善をもたらします。Mascot Server 2.8 では Percolatorにおいて計算の際考慮する項目である「feature」について新項目が追加されました。今回のブログ記事は、Percolatorの適用により内因性ペプチドの同定に大きな改善が見られた事例についてのご紹介となります。

MASCOT ver.2.8におけるPercolator利用に関して、上記内容の他に以下の点が改善されています。

Percolatorが最新バージョンに更新
検索パラメータから指定したFDRの設定値をPercolatorにも適用可能に
Percolatorのトレーニング時にランク2、3、またはそれ以下のマッチを考慮するかどうかを制御する新しいオプションが追加

合成HLAペプチドのライブラリ

「The choice of search engine affects sequencing depth and HLA class I allele-specific peptide repertoires」という論文が最近Molecular & Cellular Proteomics誌に掲載されました。HLAペプチドの同定率について調査されたものです。著者らはいくつかの PRIDEのイムノペプチドミクスデータセットを用いて4つの検索エンジンを比較しました。さらに筆者らは 4つの一般的なHLA対立遺伝子をカバーする2,000ペプチドのライブラリを合成しました。このライブラリは、ベンチマーク実施・評価の上で非常に有用であり rawデータはPRIDEプロジェクトの PXD025655に掲載されています。このサンプルは、様々なスキャン設定でOrbitrap上で測定されたデータです。

弊社ではこのPRIDEで公開されていたデータのうち9つのrawファイルをダウンロードし、MASCOT Distillerでデータ処理をして独自に解析を行いました。検索のパラメータとして、データベースはヒトプロテオームデータベース、切断酵素設定はNone(切断箇所指定なし=任意の場所で切断)、peptide tol.は±5ppm、MS/MS tol.は±10ppm、fixed modificationはカルバミドメチル(C)、variable modificationにはメチオニンの酸化を指定しました。

以下の表は、Protein Family Summaryで報告された、同定基準を超えるPSM(Peptide Spectrum Matches)の数とシーケンスの数をまとめたものです。検索結果はMascot 2.7と2.8の通常検索では同じです。違いは、Percolatorのfeature指定の違いとPercolatorのバージョンになります。

	Target PSMs	PSM FDR	Sequences	Sequence FDR
Mascot 2.7	8669	0.99%	1105	2.71%
+ Percolator	22403	1.02%	1929	4.67%
+ RT enabled	22602	0.92%	1928	4.25%

Mascot 2.8	8669	0.99%	1105	2.71%
+ Percolator	31744	1.00%	2349	4.21%
+ RT enabled	36338	1.00%	2496	4.53%

1% PSM FDR を同定基準として結果を比較します。Mascot 2.7 で Percolator を使用すると、同定基準を超えるPSMの数が 2.5 倍に向上します。配列数でカウントした場合でも 75% 増加しました。この結果でも十分といえますが、Mascot 2.8 の方がPercolatorの適用により良い結果になります。Percolator を有効にすると PSM のカウントで 3.6 倍、配列のカウントでも 2 倍以上に増加します。

Percolator計算においてRetention timeの値を考慮する事でさらに多くのデータを同定可能です。Mascot 2.7では、RT featureによる積み上げはほとんどありません。それに対してver.2.8では目に見えて同定数が増えます。ver.2.7の例のように、RTの利用はこれまでもデータの改善に寄与する事が少ない割に計算時間が大幅に増加してしまう事が多いという弊社での経験則から、MASCOTデフォルト設定では無効にしています。しかし今回注目した内因性ペプチドでは例外だったようです。MASCOT ServerにおいてRTのpercolator使用がオフになっていた場合でも、検索データ単位でRTのfeatures使用を有効にする事も可能です。結果のURLの一部（最後など）にpercolate_rt=1 （英語、日本語）という文字列を追加するだけでOKです。

Percolator ＋RTの結果の検証

合成したペプチドライブラリには2,000個のペプチドがエントリーとして含まれていましたが、Mascotでは2000より多い数のペプチドを同定しています。この中身はどうなっているのでしょうか？論文の筆者も同じ疑問を他の検索エンジンの結果に投げかけました。その結果、同定されたペプチドの中に高い割合で「ターゲットペプチド配列のサブシーケンス（訳者注:エントリーの一部の配列）が存在する事、そしてこれらの配列は全体的に短く、存在量も少ない事がわかった」と論文中で記述しています。論文の図4はそれらの状況についてまとめたものです。図4-Aのヒストグラムでは、各検索エンジンにおける同定データ数とその内容の割合がわかるようになっています。「内容」については3種類で表現しており、それぞれ、1.ライブラリの中身そのもの、2.ライブラリの部分配列、並びに3.「その他」（ライブラリに存在しないペプチド）を意味します。

取得したデータをもとに私たちが独自に行ったMASCOT検索 + Percolator計算の結果をCSV形式でファイル出力し、ユニークな配列（rank1位）のリストを作成しました。このリストを論文の補足情報にあるスプレッドシートmmc2.csvと比較すると論文の図4-Aに対応する数字は以下のようになります。

全同定数2485 :
[内訳]

ライブラリのエントリーそのものの配列: 61%
ライブラリの部分配列: 32%
その他 : 7%

これは他の検索エンジンと比較しても(ライブラリのエントリーそのものが同定されている割合が高いという意味で)良好な結果です。また興味深いことに、Mascotによるsequenceベースでの数え上げによるFDRの数値が、「その他」の割合と似ていました。

CSVファイルの出力されたユニークペプチドの数2485というのは、Protein Family Summaryで表示される数2496と若干異なります。11個の追加分の配列はunassignedの欄にありますが、表示されているPercolatorのスコアは13.0または13を少し上回っています。Percolatorでの同定基準値13ちょうどです。勿論、本来はunassignedでなく最初から同定ペプチドに含むべきです。これは今回の解析により判明したバグで将来的に修正予定です。ご自身でも実施して頂く際の参考として、これらの配列をカウントに含めるため実際の対処法として弊社で行った操作内容を以下にご紹介します。まずファイル出力の時のオプションでUnassignedクエリにチェックを入れ、さらに出力ファイル中にあるunassignedテーブルをpep_rank(昇順)とpep_score(降順)でソートすることで、スコアが13以上のunassigned ペプチドを拾い上げ、カウントに含めました。

論文の図4-Bでは、ライブラリの種類を「Observed」「Predicted」2種類に分類し、それぞれで同定基準を超えるライブラリのペプチドを数えています。「Observed」とは、IEDB（Immune Epitope DataBase ）から選択した1,000のペプチド配列をさし、これらは過去に質量分析の実験で同定されています。一方残り1,000の「Predicted」は、同じタンパク質に由来するペプチドで、プログラムNetMHCpanによって同じHLA対立遺伝子に結び付けられることが予測されたデータです。同様のカウントをMASCOTの結果でも行ったところ、Observedペプチドの78％、Predictedペプチドの74％を発見していました。

論文の図4-Dでは、対立遺伝子別に同定されたペプチドの割合を示しています。これをMASCOTの結果でも同様の数字をまとめてみたところ、以下のようになりました。

Allele	Fraction of library peptides identified	Expected
HLA-A*02:01	0.199	0.25
HLA-A*03:01	0.276	0.25
HLA-B*07:02	0.242	0.25
HLA-B*44:02	0.281	0.25

割合はかなり期待値に近いものとなりました。MASCOT + Percolatorでは疎水性のA*02:01ペプチドの同定数が他と比較して少ないですが、それは他の検索エンジンでも同じ状況です。

全体的に、Mascot 2.8の新機能である新しいバージョンのPercolator導入や新しいfeatureへの対応は、今回解析したHLAペプチドの同定に大きな改善をもたらしたと言えるでしょう。

訳者補足：

MASCOTの新しいバージョン2.8 で対応した新バージョンのPercolatorを適用してHLAペプチドの解析を行った例です。MASCOTではLCの保持時間を考慮した検索はできませんが、この解析ではPercolatorを使う事で保持時間の情報を検索に活かし、実際に改善を得ています。なお保持時間情報を利用するためには入力データに適切な形で情報を出力する必要がありますが、現状でこれに対応する解析のためにはMASCOT Distillerを使用する必要があります。MASCOT Distillerにご興味がございましたら是非お試しください。

Keywords: benchmark, endogenous, FDR, hla, Percolator

Matrix Science

より多くのHLAペプチドを同定する

合成HLAペプチドのライブラリ

Percolator ＋RTの結果の検証