著者 : Ville Koskinen   2023年5月15日投稿のブログ記事 (元の英文記事へのリンク)

そのソフトウェアは何年前にリリースされたものですか?

プロテオミクスのデータ解析には、複雑で高度なソフトウェアを必要とするケースが多いかと思います。論文のメソッドセクションを読むと、データ解析の再現性を最低限保証するため、使用したソフトウェア名とバージョン番号が記載されているはずです。そのソフトウェアが何年前にリリースされたものなのかという情報は、様々な確認をするうえで何かと役立ちます。 そこで我々はテクニカルサポートページに「Mascot Server release history」というページを追加しました。Mascot Server について、2004年以降のメジャーリリースの日付と、該当バージョンの最後のパッチリリースの日付が記載されていて該当バージョンが何年前にリリースされたものなのかを簡単に確認をする事ができます。

Screenshot of the Mascot Server release history page

各バージョンがいつリリースされたのかという情報は、これまでも本サイトの「News」ページにて公開していました。しかし数年分の履歴をスクロールしないとリリース発表にたどり着けないため探すのが面倒でした。新しいリリース履歴ページでは、各バージョンの主な新機能や改善点も一緒に記載されており、バージョンの比較が行いやすくなっています。

あなたが次にメソッドセクションを書く時には、バージョンだけでなくリリース日あるいは年の表記だけでも明記する事をお勧めいたします。多くのソフトウェアパッケージは頻繁にアップデートされるため、バージョン番号からそのソフトウェアがどれくらい古いものなのかわかりにくいと思います。実験を計画し実行してから論文を発表するまでのリードタイムが長く、古いバージョンのソフトウェアの利用に固執するケースもあるかと思います。「古いバージョンのソフトウェア」に関連して2つのトピックを提供します。1) 使用したソフトウェアが10年以上前のものであった場合、より新しいバージョンを使うことでデータ解析が改善する可能性があるか、2) 検索結果を再現するため、古いバージョンのソフトウェアを最新のPCにインストールできるかどうか、です。

まずは1つめの新しいバージョンが良く作用する可能性です。例えば10年前にリリースされたMascot Server 2.4を使って内因性ペプチドを同定したとします。同じデータベースを使ってバージョン2.8で検索を実施した場合、少なくとも同じペプチドは見つかるはずです。これは、Mascotをアップデートする際に我々が検索の再現性を保つよう最大限の努力しているためで、決して結果に悪い影響を与えることはないはずです。しかしさらにMascotをアップデートすると良い影響が出る可能性があります。例えばバージョン2.8では内因性ペプチドの同定率が大幅に向上しており、旧バージョンでは発見できなかったペプチドが発見される可能性があります。(訳者注:アップデートの内容に含まれるPercolatorのアップデートと、保持時間情報を使った検索を行う事で内因性ペプチドの同定数が大幅に増えます。

「再現性」は、多くのプロテオミクスソフトウェアパッケージにとって必ずしも優先されている特徴ではありません。リリースごとにソフトウェアの挙動が大きく変わるものもある事から、再現性を確保するため実験ワークフローを固定し、特定のバージョンに固定して二度とアップデートしないという発想も理にかなっています。さらにこれは、データ解析を再現しようとする場合全く同じバージョンを必要としている事を意味しています。重要な科学的結論が、古いソフトウェアパッケージの特定のバージョンを使うことに依存しているとしたら、それは本当に「再現可能」と言えるものなのでしょうか?私たちが再現性にこだわっている理由はそこにあります。

ソフトウェアパッケージのバージョンは記載されているが、リリース日が記載されていない場合、時に探偵のような仕事が必要になってしまう例を紹介します。最近である2023年に発表された論文で、ProteoWizard (msconvert) 3.0.4468 を使用しているものがありました。そのバージョンがいつリリースされたのか、はっきりしたことはわかりません。2023年5月の段階における最新バージョンは3.0.23121です。ウェブで検索すると、3.0.4468が2013年という古い時期に科学論文で言及されていることがわかります。では2013年にリリースされたのでしょうか?そうとも限らず、もっと古い可能性もあります。この記事を書いている時点では、ProteoWizardのウェブサイトには公開されているリリース履歴がなく、サポートチームからもリリース履歴に関する返答がないため、わかりませんでした。もし、ProteoWizardの開発者の方がこれを読んでいたら、是非コメントとして関連情報をお教えください。

この研究のrawデータは公開されていて入手可能ですので、ピークリストはProteoWizardの後のバージョンで問題ないレベルで再現できるのでしょうか?古いバージョンはもう公式なソースからダウンロードできません。プロジェクトのGitHubリポジトリから3.0.4468のソースコードを入手することは可能でしょうが、10年前のコードをコンパイルして使うということは決して容易でなく、だれにでもできる事ではありません。

Mascot Server 2.8のライセンスをお持ちの方は、バージョン2.8またはそれ以前のバージョンのインストールが可能です。Mascot Distillerも同様です。保守にご加入のお客様でMascotの再現性確認などのために一時的に旧バージョンをインストールしたい場合、30日間の一時的なプロダクトキーを発行いたしますのでお気軽にお問い合わせください。非常に古いバージョンのMascotを最新のWindowsにインストールするのは難しいかもしれませんが、いずれにせよ過去のバージョンのインストーラーパッケージは利用可能です。検索実行でなく単に古い結果を見るだけなら、新しいバージョンのソフトウェアの「data」ディレクトリに、古いバージョンの結果ファイルをドロップし、Protein Family Summaryで開くこともできます。Mascot Server 2.8では、過去のすべてのバージョンの結果ファイルを読み込んで表示させる事ができます。

最後に、もしあなたの同僚が次の論文投稿時にソフトウェアのバージョン番号を書き忘れていたら、その間違いを直してあげてください。Mascot Serverのバージョン番号は、ローカルのMascotのホームページから、Database Statusをクリックし、ステータスページの一番上を見るとわかります。また、結果ファイル内にもバージョン情報が含まれています。Mascot Distillerのバージョンは、Helpメニューの「About Mascot Distiller」に記載されています。Mascot Daemonは、それ自体ではデータ解析を行わないためバージョン番号もあまり重要ではありませんが、DaemonのGUI、Help→ About から確認することができます。


Keywords: , ,