
Google DeepMindとAlphaFoldの共同研究はまさに奇跡と言える成果ですが、計算コストが高すぎます。そこでAppleの研究者たちは、AIを用いてタンパク質の3D構造を予測する代替手法の開発に着手し、有望な成果を上げています。その詳細をご紹介します。
AlphaFoldをご存じない方のためにご説明すると、これはGoogle DeepMindの画期的なAIモデルで、アミノ酸配列からタンパク質の3D構造を予測することができます。これは、より効果的な医薬品や全く新しい素材の開発に特に役立っています。
数年前まで、これは非常に困難な問題でした。単一のタンパク質の三次元原子構造を予測するには、数か月、あるいは数年かかることもありました。
しかし、AlphaFold、そしてAlphaFold2、そしてRoseTTAFoldやESMFoldなどの他の最先端モデルのおかげで、この予測プロセスはハードウェアに応じて数時間、あるいは数分で完了します。
これらのモデルはそれぞれ独自の方法とフレームワークを採用して高い精度を実現していますが、一般的に非常にコストのかかる計算が必要であり、フレームワークは非常に厳格な構造になっています。
Apple の研究者は次のように述べています。
「AlphaFold2やRoseTTAFoldといった確立されたタンパク質フォールディングモデルは、アミノ酸配列の多重配列アライメント(MSA)、ペア表現、三角更新といったタンパク質フォールディングタスクのための計算負荷の高いドメイン特化設計を統合した、綿密に設計されたアーキテクチャを採用することで、画期的な精度を達成しました。これらの設計選択(MSA、ペア表現、三角更新など)は、モデルがデータから直接構造を学習するのではなく、基礎となる構造生成プロセスに関する現在の理解をこれらのモデルにハードコードしようとする試みであり、これは様々な理由から有益となる可能性があります。」
AppleのSimpleFoldの登場
Appleが提案するモデルでは、「MSA、ペアワイズ相互作用マップ、三角形更新、またはその他の等変幾何学モジュール」に頼るのではなく、2023年に導入され、テキストから画像への変換やテキストから3Dへの変換モデルで非常に人気があることが証明されている、いわゆるフローマッチングモデルに依存しています。
簡単に言うと、フローマッチングモデルは、この記事で取り上げた拡散モデルの進化形です。ただし、初期画像からノイズを単純に繰り返し除去するのではなく、ランダムノイズを一気に完成画像に変換する、よりスムーズな経路を学習します。
また、この方法ではノイズ除去の手順の多くを省略するため、計算コストが低くなり、結果がより速く生成されます。

Appleの研究者は、SimpleFoldを100M、360M、700M、1.1B、1.6B、3Bのパラメータを含む複数の異なるサイズでトレーニングし、「折り畳みモデルの一般化、堅牢性、原子レベルの精度を厳密にテストする、広く採用されている2つのタンパク質構造予測ベンチマーク、CAMEO22とCASP14」で評価しました。
結果は非常に有望なものでした。
SimpleFoldはシンプルであるにもかかわらず、これらのベースラインと比較して競争力のあるパフォーマンスを実現しています。両方のベンチマークにおいて、SimpleFoldはESM埋め込みを用いて構築されたフローマッチングモデルであるESMFlowよりも一貫して優れたパフォーマンスを示しています。CAMEO22では、SimpleFoldは最高のフォールディングモデル(ESMFold、RoseTTAFold2、AlphaFold2など)と同等の結果を示しています。特に、SimpleFoldは、コストが高くヒューリスティックな三角形アテンションやMSAを適用することなく、ほとんどの指標においてRoseTTAFold2/AlphaFold2の95%を超えるパフォーマンスを達成しています。
そして
完全性を期すため、異なるモデルサイズを用いたSimpleFoldの結果を報告します。最小モデルであるSimpleFold-100Mは、学習と推論の両方において効率性という優位性があり、競争力のあるパフォーマンスを示しています。特に、SimpleFoldはCAMEO22においてESMFoldの90%以上のパフォーマンスを達成しており、汎用アーキテクチャブロックを用いて折り畳みモデルを構築することの有効性を実証しています。

また、スケーリングに伴ってパフォーマンスも向上していることが確認されました。つまり、トレーニング データが多い大規模なモデルでは、特に最も難しいベンチマークにおいて、確実に優れた折りたたみパフォーマンスが実現されます。
最後に、彼らは SimpleFold が単なる第一歩に過ぎないことを指摘し、「コミュニティが効率的で強力なタンパク質生成モデルを構築するための取り組みとして役立つことを願っています」と述べています。
研究全文はarXivで読むことができます。
Amazonのアクセサリーセール
- ワイヤレスCarPlayアダプター
- AirPods Pro 3
- Apple AirTag 4個パック
- アップル エアタグ
- Beats USB-C - USB-C 織り込みショートケーブル
planort.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。