著者 : Ville Koskinen 　　2020年8月19日投稿のブログ記事 (元の英文記事へのリンク)

クロスリンクペプチドの検索結果検証

　クロスリンクペプチドの検索結果の検証は、検討すべき組み合わせの多さや結合形式の多様性から、通常の解析よりも複雑です。検索最初のステップであるプリカーサーの質量を検討する段階においても、ループリンクやモノリンクといった単一ペプチドに対する検証に加え、本命である2ペプチド間の組み合わせも多数発生します。さらにリンカー以外の修飾をvariable modificationとして考慮しなければならない場合、検討すべき組み合わせ総数も倍加します。

　MASCOT ver.2.7ではクロスリンクペプチドの検索においてもこれまでと同じスコアリングを適用しており、クエリ内でスコアが直接比較できます。これにより、マッチング候補の比較やランク付けが簡単になります。False positiveの割合を一定基準に保ちながらSensitivity (訳者補足:ここでは同定ペプチドやタンパク質の数)を最大限にするための戦略として、以下の内容が挙げられます。

検索空間が完全であることを確認する
クロスリンクの検証が必要なタンパク質のみを検索対象とし、それ以上は含まない
常にフラグメンテーションの状況をチェックする、また、ランク1マッチ以外の選択肢も確認する

詳細な説明

今回のテーマは、以下の論文を検証の題材としています。

A synthetic peptide library for benchmarking crosslinking-mass spectrometry search engines for proteins and protein complexes.
（訳者による邦題：クロスリンクペプチド解析用検索エンジンを評価するために作成した合成ペプチドライブラリー）

　筆者は、Cas9トリプシンペプチドを12グループに分け、各グループをDSSで架橋し、MS/MS分析の前にグループ内でペプチド間のクロスリンク結合をしました*1。異なるグループからのペプチド間のクロスリンクは組み合わせ的には起こりえないため、もし有意基準を超える結果に含まれていればそれは正しくない答え、False Positive Hitと判断できます。この事から、「真の」*2 FDRを計算することができます。なお、ペプチドのＮ末端並びにＣ末端のリジンでクロスリンクおよびモノリンクの形成が起きないよう、実験的な処置をしています*3。

訳者補足:
*1 クロスリンクの説明については、リンク先のFig.1 が理解の一助となります
*2 「真の」とは、リバース配列などのdecoyデータベースを用いて仮想のFalse Positive Hit数をカウントする手法ではない、という意味で
*3 さらに、ペプチド配列に含まれる架橋部位リジンは必ず１箇所となるように調整されています。

ピーク抽出：PRIDEプロジェクトのPXD014337で公開されているDSSのreplicate 1 のrawデータをダウンロードし、MASCOT Distillerでピーク抽出を行いました。クロスリンクデータを解析する際はプリカーサーも３価以上になる事も多く、decharge する(1価に換算した場合のm/zの値に変換する)事をお勧めしています。MASCOT Distillerではプロファイルデータに対してはdecharge する事ができます。ダウンロードしたファイルはセントロイドデータなので、Distillerでのデータ読み込み時に読み込みオプション「default.ThermoXcalibur.opt」から開始し、以下のように「Peak Processing」の設定を変更してプロファイル様のデータに変換しています。

Peak half width : 0.1
Data points per Da : 100
Preferred type : Profile
Use precursor charge as maximum
Default charge range : 2 to 4
Re-determine precursor m/z value(s) where possible

　またソフトウェアのPreference 設定で、フラグメントの質量をMH+に変換して出力する事を選択します。

MASCOT検索時の、データベースとクロスリンク設定について：Cas9タンパク質の配列は、Supplementary Data 2のzipファイル(41467_2020_14608_MOESM4_ESM.zip)を解凍して得られるCas9_plus10.fastaにあります。MASCOTではDatabase Managerのsimple_AA_templateを使って簡単にデータベース登録をする事ができます。ここではデータベース名をPXD014337としました。

　クロスリンクに関する設定は、Mascotにデフォルトで準備されている設定の１つ、「HSA Xlink:DSS」をコピーして、目的に合わせて編集するのが一番手っ取り早いです。今回は以下のように変更しました。

“name”を "PXD014337 Xlink:DSS, Cas9″ に変更。
検索対象のタンパク質をCas9に変更するため以下のように記述を変更 ＜mxm:accession DatabaseName="PXD014337"> Cas9＜/mxm:accession> *4
設定にあるmxm:linkersから Protein N-term specificity の設定を削除
残ったmxm:linkersの設定内容にA および W モノリンク設定が含まれていることを確認
IntraLinkとInterLinkを有効にするため、でそれらの項目がTrueになっていることを確認。
MinLenを5（最短合成ペプチド）に設定

　*4 HTML表示の問題を避けるためmxm,/mxm の前の"<"を2バイト文字で表現しています。ご注意ください。

　論文ではW(水で急冷した)モノリンクしか考えていませんが、サンプルの準備内容を見れば、A(アンモニアで急冷した)モノリンクも形成できない理由はありません。両方とも検索パラメータに含めるべきであると考えました。

　また、現在のMASCOTではC末端のリジンに絞ってモノリンクやクロスリンクを禁止する事ができません。MASCOTで解析後、除外する必要があります。

検索：Distillerを介して作成されたMGFファイルをデータベースPXD014337 (Cas9_plus10.fasta)とcontaminantsに対して検索しました。今回のデータは合成サンプルで、バックグラウンド用のデータというのはありません。もしあった場合でもデータベースの選択に含めることが重要です。 Fixedの修飾設定としてカルバミドメチル（C）、Variable の修飾設定として酸化（M）を設定しました。切断パターンは酵素トリプシン、max. missed cleavages は1、プリカーサーの誤差範囲は10ppm、フラグメントの誤差範囲は20ppmとしています。

　こちらが検索結果です。Xlink:DSS[A]の表示、Cas9のモノリンクとインタクトクロスリンクのマッチングが多く示されています。クエリ番号5921のような非常に素晴らしいクロスリンクのマッチング結果もあります。

　MASCOT検索の後、有意なクロスリンクマッチの真のFDRを計算するために、一旦結果をxiVIEW-CSV形式でエクスポートし、αペプチドとβペプチドが同じグループにないデータを見つけ出すためのの簡単なスクリプトを適用しました。結果は下の表の通りです。

Search Significance threshold Num sig. PSMs *5 Num sig. CSMs *6 False positive CSMs True FDR

Crosslinked Cas9 0.05 946 653 103 15.8%

Crosslinked Cas9 0.01 821 569 77 13.5%

Crosslinked Cas9 0.001 622 436 38 8.7%

Search	Significance threshold	Num sig. PSMs *5	Num sig. CSMs *6	False positive CSMs	True FDR
Crosslinked Cas9	0.05	946	653	103	15.8%
Crosslinked Cas9	0.01	821	569	77	13.5%
Crosslinked Cas9	0.001	622	436	38	8.7%

*5: ライブラリの各グループのリストは、論文情報の補足情報の補足表1にあります
*6: CSMs → Crosslinked Peptide -Spectrum Matches

　計算されたFDRはクロスリンクデータのみを考慮していることに注意してください。有意基準を超えるマッチングの約半分はモノリンクを持つペプチドです。このデータセットにはFalse Positiveを本当のFalse Positiveと識別するための根拠となる真実がないため、真の全体像を把握することはできません。この問題は、以前のブログ記事で取り上げたメチル化ペプチドの高いFDRの問題と似ています。

　False positiveヒットの内訳を見ていきます。その大部分は、αまたはβペプチドが12のグループのいずれにも含まれていない場合です。これらのうち、弱いペプチドからの断片化ピークの情報はほとんどありません。最初に疑ったのは、ビオチン標識されたYGGGGR「リンカー」ペプチドで、これは、Ｎ末端クロスリンクを防ぐために合成ペプチドのＮ末端に共有結合されていたものです。この箇所はトリプシンで切断され、ストレプトアビジンで除去されました。では、偽マッチはビオチン-YGGGGR-αペプチドで切れずに残ったデータではないだろうか？と考えました。しかし、いくつかの偽陽性のベータ質量を検査してもその内容とは一致しないことがわかります。

　詳細にスペクトルを見てみると、多くの場合、+1Daで強いプリカーサーのピークがあります。同じ事が、正解データのいくつかにも実際に当てはまります。1Daの質量シフトが起こる理由は色々と考えられますが、今回紹介している論文でも、13Cのプリカーサーを時々選択してしまう質量分析装置との問題に言及しています。Distillerを使った解析で、12Cのピークを正しく認識し情報を得られればそちらの方が望ましい事ではありますが、たとえこの段階でうまくいかなくとも、検索エンジン側でこの問題を回避する選択肢があります。パラメータの「#13C」です。酸化(M)と#13C=1のパラメータを指定してクロスリンクの検索を繰り返すと、FDRは下がりますがクロスリンクのマッチングデータ数を50%増加させ、メリットが大きいと言えます。検索空間を過不足なくするため、このような選択が必要です。

Search Significance threshold Num sig. PSMs Num sig. CSMs False positive CSMs True FDR

Crosslinked Cas9 + 13C 0.05 1315 1008 125 12.4%

Crosslinked Cas9 + 13C 0.01 1070 816 76 9.3%

Crosslinked Cas9 + 13C 0.001 790 599 35 5.8%

Search	Significance threshold	Num sig. PSMs	Num sig. CSMs	False positive CSMs	True FDR
Crosslinked Cas9 + 13C	0.05	1315	1008	125	12.4%
Crosslinked Cas9 + 13C	0.01	1070	816	76	9.3%
Crosslinked Cas9 + 13C	0.001	790	599	35	5.8%

　False Positiveのパターンとして、αまたはβのペプチドのいずれか一方が12のグループのいずれにも存在しないケースもあります。しかし何かの解明につながるような明確なパターンは見受けられません。　

　クエリ 5228では、αペプチドであるSDNVPSEEVVVKとβペプチドであるYKEIFFDQSKはどのグループにもありませんが、（αペプチドに類似する配列として、）グループ10にはGKSDNVPSEEVVVKが、グループ11にはSDNVPSEEVVKKがあります。b,yイオンのマッチング状況を見る限り、SDNVPSEEVVKK(1329.67765Da)の方がより良いマッチをしているようですが、もしそうならβペプチドの質量は1331.628537になるはずです。もしかして真のペプチドはSDNVPSEEVEEVVKK-SDNVPSEEVVKKで、ここでβが+2マスシフトしているのでは？と考えαのN3に脱アミド化をかけてもうまくいきませんでした。

　クエリ 4981(スコア 97!) はグループ 5 のαペプチド (MDGTEELLVKLNR) を持っていますが、βペプチドはどのグループにも属していません。クエリ 4210の αペプチド(QLLNAKLITQR) はグループ 5 からのものであり、まぐれの範疇を大きく超えているデータですが、βペプチドはやはりどのグループにも属していません。この２つのβペプチドの配列は同じ(TEVQTGGFSK)で、同じマッチング内容のクエリーが多く存在します。何がこれらを引き起こしているのか、解決に繋がりそうな良いアイデアをお持ちの方はコメントをお願いします。

　また別のFalse Positiveのケース、これはほとんど起きていないですがαとβのペプチドをそれぞれ別のグループから選出したことになっているケースもありました。こういった結果は確率的スコアリングのスキームでは避けられないことであり、結果レポートが有意閾値のコントロール機能を提供しているのもこれが理由です。

　逆に、αとβのペプチドが同じグループに属するものの、ランク1が実際には起こりえないC末端Kにあるクロスリンクマッチもあります。クエリ5983がその好例です。αのペプチドのマッチが素晴らしく、ベータも少しマッチをしていますが、βペプチドは2つのリジンで終わっています。しかしこの結果をよく見ると、ランク1とランク2のマッチは同じスコアで、リンク位置が異なっています。本来はランク2が正しいマッチとしてレポートされるべき状況です。このことから得られる教訓は、マッチスコアが高い場合でも、常にフラグメントピークの状況をチェックし、他のマッチング順位の結果にも目を光らせるようにしてください、という事です。

訳者　補足

　上述の「*」におけるコメントは訳者による補足となります。

　論文ではクロスリンク解析の検索エンジンやvalidationの手法自体の検証に使用可能なライブラリとデータが提供されています。
　参照論文ではライブラリの使い方として各種検索エンジンにおいて同定されたクロスリンクデータの数が表示されていますが、MASCOTにおける解析はそれらの結果を上回っており、クロスリンクの解析にも優れていることを示しています。またこのブログ記事で紹介された、MASCOTでクロスリンク解析を行う時のポイントは、以下のようにまとめる事ができると思います。

Distillerを使って、MS/MSフラグメントピークの価数を１価に換算して検索する(文中ではdechargeと表現)
MASCOTの検索パラメータとして #13C を1などに設定し precursor の同位体ピーク誤選出に備える
少し解析内容に矛盾などがあった時は、フラグメントのマッチングを確認したりrank1以外の結果にも目を向ける

Keywords: 13C, crosslink, FDR

Matrix Science

クロスリンクペプチドの検索結果検証

詳細な説明