ピークリストに関するarcana(蘊蓄):面積対SN比
Hijaziらは最近発表した論文[1]で、ピークリストファイルがベースとなるrawデータファイルの見た目とどのように異なるか、興味深い点を提起しました。その中ではMascot Distillerが生成するピークリストとの差異についても言及されています。デフォルト値のピーク面積ではなく、フラグメントイオン強度としてSN比を出力した場合の差異についての言及です。
この論文では、多数修飾されたヒストンペプチドから得られたデータを元に検討しています。これらの修飾は低m/z側に出現する高強度の診断イオンを生成するため、下表1に示すように同じ質量の修飾の組み合わせを区別するのに役立ちます。
| Lysine Modification | Mass (Diagnostic ion) | Mass (Immonium ion) |
|---|---|---|
| Non-modified | 84.0813 | 101.1079 |
| Methyl | 98.097 | 115.1236 |
| Formyl | 112.0757 | 129.1023 |
| Acetyl | 126.0917 | 143.1183 |
| Propionyl | 140.1075 | 157.1341 |
| Butyryl | 154.1226 | 171.1492 |
| Crotonyl | 152.107 | 169.1336 |
| Hydroxybutyryl | 170.1176 | 187.1442 |
| Lactyl | 156.1019 | 173.1285 |
表1: 各種一般的なヒストンリジン修飾における診断イオンおよびイモニウムイオンの質量(Hseikyら[2]より[一部改変])
彼らのrawデータには、サーベイ(MS1)スキャンと MS/MS スキャンのいずれもプロファイルデータが保存されています。Mascot Distiller で生成したピークリストを、デフォルト設定(フラグメントイオンのピーク面積を強度値として出力)で出力したところ、診断イオンの強度がrawデータと比べて見かけ上低く抑えられる一方、高質量側のフラグメントはrawデータのトレースに近いことをHijazi らは見いだしました。
これに対し、強度をSN比でエクスポートすると状況が逆転しました。低質量の診断イオンは高い強度値で報告される一方、高質量側のフラグメントイオンが低く抑えられているように見えたのです。その一例を、下の図1に示します。
図1: 同一スペクトル出力の比較 : フラグメントイオン強度値としてピーク面積(上)またはSN比(下)を出力した場合
診断イオンのピークについて、SN比出力ではメチル、アセチル、プロピオニルの診断ピークが明瞭に確認できますが、ピーク面積出力では強度が著しく低下しているのがわかります。一方高質量領域では、ピーク面積出力スペクトルにおいてフラグメントイオンがSN出力スペクトルより強度が明らかに大きくなっています。
この現象が起きている理由、それは、低質量側の診断イオンは最大強度が高い一方で、面積が非常に狭いためです。つまりこれらのピークは総信号量(面積)がかなり限られていますがSN比が非常に優れています。一方高質量側では状況が逆転し、フラグメントイオンは平均的に幅広くなりますが、最大強度は低くなります。
ここで新たな疑問が生じます。この現象はMascotの検索結果にどのような影響を与えるのか?という事です。スペクトルのマッチングを行う際、Mascotはピークリストを100Da単位のウィンドウに分割し、各ウィンドウで強度上位10ピークまでを選択・グループ化します。したがってピークリストを面積からSNに変更すると、選択されるピーク自体が変わったり、選択順序が変化したりする可能性があります。またスコアリングにはマッチしなかったピークの強度についても考慮する要素も含まれていますが、この点も今回の2つの強度オプションの切り替えが影響を与える可能性があります。
この点を検証するため、論文で使用されたファイルの一つをPXD057347からダウンロードし、Mascot Distiller 2.8.5.1でヒストンデータベースに対して検索を実行しました。データ処理の際、ピークを認識する設定としてデフォルト値の一つであるprof_prof.ThermoXcalibur.optオプションを出発点としてデータ処理をしましたが、強度の出力について1つはSN比を、もう1つは面積を使用しました。その結果について、下表2にまとめます:
| Intensity value type | Significant PSMs (1% FDR) | Protein score for Histone H3.3-like protein |
|---|---|---|
| Signal to noise | 520 | 5827 |
| Peak area | 574 | 6722 |
表2: Mascot検索結果の比較 : フラグメント強度値としてSN比とピーク面積を使用した場合。
今回のケースでは、強度値としてピーク面積を使用した方が良好な結果が得られました。これは、SNを使用すると低m/z領域の強度が高く見えますが、この領域にはペプチド配列のマッチングに使用されるb-シリーズまたはy-シリーズのピークが多くなく、スコアリングにあまり貢献しないためです。逆に低m/zウィンドウにおいてこれらのピークが多くを占めるようになりますが、フラグメントピークにマッチしないこれらのピークはペナルティとなってしまいます。なお、図1のマッチング図では同一フラグメントイオンを用いましたが、SN使用時のデータはスコアが23であったのに対し、ピーク面積を使用時はスコアが36となりました。
今回の解析例から導かれる事についてのまとめです。強度情報にはピーク面積を使用する方がスペクトル内の実際の信号を最も正確に表現でき、Mascotの結果が向上します。ただし、ペプチドビュー結果画面上で各種修飾の診断イオンを識別する事が困難になるというデメリットがあります。その点を重視するケースにおいては、検索結果の品質が若干低下することを承知の上でSNを使用することを選択してもよいでしょう。別の選択肢として、検索前にピークリストを前処理し、スペクトル内に存在する診断イオンを強調するテキストをクエリーのtitle行に追加する、という方法もあります。これはスクリプトとして実行可能で、検索を送信する前にMascot Daemon内で実行させることもできます。以前のブログ記事(日本語版、英語版)にそのあたりの事を記しておりますので、ご興味がある方はご参照ください。
参考文献
- DOI: 10.1021/acs.jproteome.4c01056, Des: Hijazi H, Manessier J, Brugiere S, Ravnsborg T, Courçon M, Brule B, Merienne K, Jensen ON, Hesse AM, Bruley C, Pflieger D. Mind Your Spectra: Points to be Aware of When Validating the Identification of Isobaric Histone Peptidoforms. J Proteome Res. 2025
- Hseiky, A.; Crespo, M.; Kieffer-Jaquinod, S.; Fenaille, F.; Pflieger, D. Small Mass but Strong Information: Diagnostic Ions Provide Crucial Clues to Correctly Identify Histone Lysine Modifications. Proteomes 2021, 9, 18. https://doi.org/10.3390/proteomes9020018
Keywords: Mascot Distiller, peak picking, site analysis