著者 : Ville Koskinen   2022年5月20日投稿のブログ記事 (元の英文記事へのリンク)

mzIdentML 1.2

Mascot Serverではデータベースの検索結果をファイル出力する事ができ、いくつかのフォーマットに対応しています。そのうちの1つがmzIdentML(Proteomics Standards Initiative)です。 Mascot 2.8.1ではこのファイルフォーマットのバージョンを mzIdentML 1.2にアップグレードしました。そのためクロスリンクの検索結果のファイル出力については、これまでのXML、CSV、xiVIEW CSV に加えてmzIdentMLでも対応可能となりました。クロスリンク検索以外の結果をmzIdentMLで出力する、標準的なデータベース検索、エラートレラント検索、スペクトルライブラリ検索、 mzIdentML 1.1 と 1.2 のどちらのバージョンでファイル出力をするか選択することができます。

mzIdentMLの新機能

mzIdentMLというフォーマットは何年も前から存在しています。バージョン1.0 の仕様は2009年に公開されましたが、より広く普及しているのは2011年に公開されたmzIdentML 1.1です。Mascot Server ではver.2.4.1からサポートしました。 このフォーマットはXMLベースで追加のデータ構造と制約がスキーマで指定され、記述内容をチェックするvalidatorプログラムがあります。このブログではかつてPSIファイルフォーマットに関する短い連載を2015年に行いましたが、この記事の内容は今でもPSI 1.1.のフォーマットについて正確に説明している文章になります。

mzIdentML 1.2におけるフォーマットの変更点は、特定のケースにおける統制用語(以降、CV用語と記載)に関するものです。XMLの構造は同じで、新しいバージョンは追加分以外は前のバージョンと同じです。前のバージョンから見ても追加分以外は新しいバージョンのフォーマットと基本的に同じでデータを読むことができます。例えばmzIdentML 1.2を読み込むソフトウェアは1.1 ファイルをそのまま問題なく読み込むことができます。また1.1 フォーマットに対応しているソフトウェアも、1.2 ファイルのほとんどのデータを読み込むことができます。このようなフォーマット自体の対応力の高さから、弊社としてもすぐに次のバージョンにアップグレードしようという気にはなりませんでした。

クロスリンクペプチド(架橋ペプチド)

その中で我々が1.2フォーマットへのサポートに着手したのは、クロスリンク検索結果への対応が主な理由でした。mzIdentML 1.2 では、多くの新しいCV用語と、クロスリンクペプチドのマッチの内容を表現する方法を指定しています。クロスリンクペプチドのメタデータの仕様についてはセクション 5.2.9 で詳述されており、Mascot 2.8.1に実装されました。いくつかの仕様についてはその内容を少し抑えておく必要があります。

まずこの仕様では、タンパク質レベルの相互作用の情報をコード化することは可能ですが必須ではありません。Mascotでは現在、クロスリンクされたペプチドのマッチングからタンパク質レベルの相互作用を推測することはできないので、タンパク質レベルの相互作用の情報は省略することにしました。

今回の仕様では、XLMODや Unimodの情報を使ってクロスリンクペプチドの修飾情報をコード化する事ができます。この仕様が公開された後、我々はクロスリンクへの対応をUnimodにて実装し、Mascotでもそれを利用して検索や結果表示をしています。ValidatorはUnimodのクロスリンクの修飾もモノリンクもどちらも受け付ける事ができ、xiVIEWでもMASCOT出力データを問題なく読み込む事が可能です。

リンカーとして既存設定にはないカスタム設定を利用している場合未知の修飾として出力されますが、この時モノアイソトピック質量の情報も一緒に出力されます。現在mzIdentMLにはパブリックデータベース側に情報がない場合、リンカーの組成やその他の属性を指定する仕組みがありません。しかしそれはカスタマイズされた(クロスリンクとは関係ない)修飾を組み込んだ検索の時も同じ扱いで、さほど大きな問題ではありません。

最後に、クロスリンクの種類のうちループリンクについては通常の修飾としてデータ処理され、もう一方の結合箇所に関する情報が省略されてしまいます。我々は当初、「userParam」という情報として コード化する事を検討しました。しかしスキーマ側でModification エレメントの下に userParam を置くことが許されておらず断念しました。Unimodモノリンクにも同様の問題があります。 正しい Unimod レコード ID と質量誤差の情報はファイル出力されますが、モノリンクのコード(訳者注:予め定義されているモノリンクの複数パターンを識別するコードの事)の情報は出力されません。 そのためクライアントプログラム側では質量差からモノリンクコードの推測を必要に応じて行う必要があります。

PSI グループは現在、仕様のマイナーチェンジにあたる mzIdentML 1.2.1 のリリースに取り組んでいて、その際モノリンクとループリンクのコード化に関する上記問題に対処する予定とのことです。 1.2.1で提案されたもう一つの歓迎すべき追加機能として、リンカーの向きに関するコード化も挙げられます。Mascot crosslinking methodでは既に指定可能です。

タンパク質の関係性

mzIdentML 1.1でタンパク質とタンパク質が属するグループとの関係をコード化するためのCV用語がいくつか導入されました。このコード化は推奨されているもので、Mascotでも実行しています。

mzIdentML 1.2で追加された内容でMASCOT側で少し対応が必要だったのは、次の4つの新しいCV用語、cluster identifier・leading protein・group representative・non-leading protein、についてでした。要するに、タンパク質のファミリーのクラスター番号が「cluster identifier」、ファミリーに属するタンパク質が「leading protein」、Samesetやsubsetのタンパク質が「non-leading protein」、ファミリーに属するタンパク質の中で最もスコアが高いタンパク質が「group representative」となります。これ以外はmzIdentML 1.1と同じ内容で出力しています。詳しくはPSIのwebサイトで提供されているProtein Reporting Rosetta Stoneスプレッドシートをご覧ください。

スペクトルライブラリーのマッチング

mzIdentML 1.2には、スペクトルライブラリーのマッチ内容に関する項目が追加されました。しかしMascotは既にスペクトルライブラリーのマッチング内容に関する情報を、FASTA検索のマッチングと同様に扱ってコード化していたため、特に変更する必要がありませんでした。より詳しい情報はブログ記事「Exporting spectral library search results」をご覧ください。

修飾位置特定の解析

mzIdentML 1.2には、修飾位置特定の解析結果をコード化するための新しい構文が含まれています。しかし残念ながらこの構文はMascotが行っている修飾位置特定解析の結果には適用できません。修飾が複数ある候補アミノ酸残基のいずれにも起きる可能性がある場合、Mascotでは各修飾部位に対してそれぞれ信頼度スコアを与えます。しかし mzIdentML 1.2の構文では単一の部位に対するスコアしかコード化できません。この件についてはプロジェクトの GitHub リポジトリにissue 112として報告して対応を求めています。現状は未対応ですので、もし修飾位置特定解析が必要な場合でも検索結果をmzIdentML 1.1で出力するかCSV/XMLとしてファイル出力してください。

xiVIEWとPRIDEのサポート

新しいファイルフォーマットというのは得てして広くサポートされるまでに時間がかかってしまうものです。xiVIEWではmzIdentML 1.2の使用を推奨した事もあり、我々はJuri Rappsilberのグループと協力して、MascotがxiVIEWと完全に互換性があることを確認しました。この仕事について、特にColin Combe氏に感謝します。

mzIdentMLファイルの主な「消費者」、より多く必要としているのはPRIDEリポジトリサイトでしょう。 mzIdentML 1.2のサポートは、PRIDE Submission ツールのバージョン2.4.17 (2020年7月) に最初に追加されました。最新バージョン (2.5.4) に対してMascot からファイル出力されたmzIdentMLファイルを読みこませてもエラーが発生しない事を確認しています。PRIDE Inspector 2.5.4ではmzIdentML 1.2ファイルを読み込むことができますが、クロスリンクされたマッチが正しく表示されません。PRIDEでは現在、クロスリンクされたインデックス付けと可視化に関するプログラムの改良を計画しているようです。MASCOT側では現段階で対応が完了しているため、PRIDE 側での対応が完了すれば問題がなくなると予想されます。


Keywords: , , ,