NeurIPS - Ariel Data Challenge 2025の振り返り

はじめに
2025年6月27日から9月25日に開催された NeurIPS - Ariel Data Challenge 2025[1] に参加し、参加者1,038人・860チームの中で7位となり、初めての金メダルを獲得しました。今回は中盤以降、kaggler の takaito さんとチームを組みました。ソロで金を取るのは非常に難しかったと思うので、takaito さんとの議論とご尽力に心から感謝しています。 Icecube のコンペの頃から takaito さんをフォローして、私が最初に覚えた kaggler の一人です。一緒にチームを組めて本当に嬉しかったです。
私たちの解法はすでに Kaggle に掲載しました。詳細なアプローチや技術的な内容は、こちらをご覧ください:7st Place Solution。
本記事では技術そのものではなく、コンペの振り返りと所感に焦点を当てます。
ADC2025 に参加する前は実は NeurIPS - Open Polymer Prediction 2025 に取り組んでいましたが、重大なデータリークがあったため撤退しました。結果的に判断は正しかったと思います。Open Polymer Prediction は科学的な価値をほぼ失ってしまいました。
概要
現時点で確認されている系外惑星は5,600個を超えています。これらを検出することは第一歩にすぎません。真に重要なのは、それらの本質、とりわけ大気組成を理解することであり、「もう一つの地球」の可能性を明らかにする鍵となります。2029年には、ESA(欧州宇宙機関)の Ariel ミッションが、天の川銀河近傍の約1,000個の系外惑星を初めて体系的に観測する予定です。本コンペは、この ESA の Ariel 宇宙望遠鏡を背景に、系外惑星のトランジット(Transit)時における分光観測を模擬したタスクです。
系外惑星が私たちの視線方向で主星の手前を横切ると、いわゆる「トランジット」現象が起こります(図参照)。

Figure1 トランジットの概念図[2]
このとき、恒星の明るさはわずかに、しかし測定可能な程度に減少します。光の一部は惑星本体に遮られ、さらに一部は惑星の希薄な大気を通過して H₂O・CO₂・CH₄ などの分子による吸収・散乱を受け、特定の波長 λ でより大きな減光が生じます。
この波長依存の 「トランジット深さ」 δ(λ) が、いわゆる「透過スペクトル(Transmission Spectrum)」を形成し、惑星大気の化学組成に関する情報を担います。
また、トランジット深さは $ \left( \frac{R_p(\lambda)}{R_s} \right)^2 $ で近似でき、波長ごとの惑星半径と恒星半径の比として解釈することもできます。
したがって本コンペでは、283の波長ごとに異なるトランジット深さ δ(λ)(wl_pred
)と、その不確実性 σ(λ)(sigma_pred
)を予測します。すなわち1サンプルあたりのターゲットは合計566(283×2)で、各波長帯における物理信号の強度と信頼度を表します。評価指標には Gaussian Log-likelihood(GLL)が用いられ、これは極めて敏感で、σのわずかな変化でもスコアが大きく変動します。モデルの不確実性表現能力に非常に高い要求が課されます。
序盤
ADC2025 は ADC2024 の強化版です。一部の kaggler は「ADC2024 で知っていることはすべて忘れろ」と言っていましたが、私は2024年の知見を読み直し、吸収しました。序盤では主に、ADC2024 の上位解法を統合・再構築することに集中し、早い段階で金段に到達しました。
7月19日頃にデータの更新がありました。元データでは惑星の公転周期が考慮されておらず、不合理なトランジット時間が生じていました。この更新により難易度はさらに上がり、トランジット時間が過度に長く、非トランジット区間が全く観測されない異常サンプルが出現しました。多くの修正を施した後も、金段を維持しました。
この部分バグ修正の過程のおかげで、データに対する理解が一層深まりました。解法で述べた低次多項式を用いるアイデアも、まさにこの段階で着想したものです。これは private test set での我々の手法の安定性向上に非常に重要だったと考えています。
中盤
takaito さんは中盤で素早く金段に突入しました。私は当初、スコアが 0.5 に到達してから合流するつもりでしたが、エチレンさんや JFPuget+Dieter らによるプレッシャーを徐々に感じ始め、さらに takaito さんは 2024 年に 15 位で、NN 主体の手法を用いていました。彼の経験と異なるアプローチは大きな探索余地をもたらすと確信し、先に連絡を取ることにしました。 その後、最高スコアが 0.596 に到達した時点で、チームをマージすることを決めました。
takaito さんは、昨年の深層学習ベースの手法を基盤に構築・最適化を行いました。私が物理モデルの精緻化と安定した基準となる wl_pred の構築に注力していたのに対し、彼は非常にシンプルな物理的ベースラインを用い、NN モデルの最適化に集中しました。これは私の深掘り領域と完全に補完関係にあり、両者を統合したことで、スコアは順調に大幅向上し 0.5 台へと到達しました。
私の元々の手法は前向きモデリングの改善と簡易な後処理(PLS など)に主眼がありましたが、takaito さんの参加によって、粗めだった後処理を捨て、これまで上手く適用できていなかった NN 部分を導入できました。私の物理モデリングがもたらす特徴と情報をより効果的に活用できるようになり、本当に感謝しています。σ の補正工程についても、この段階で takaito さんの手法に基づき有効な改善が得られました。
終盤
終盤にかけてプレッシャーは徐々に高まり、私たちは再び賞金圏に戻ることはできませんでした。データ前処理などから大幅なスコア向上の“magic”を探ろうとしましたが、最終的には出来ませんでした、2024年の“魔法”を参考に多様な微調整を試したものの、最終結果には全く影響がありませんでした。これは非常に悔しい点です。また、私と takaito さんは、少なくとも2チームは最終で一気に金段へ跳ね上がるだろうと予想していたため、我々は堅実にスコアを積み上げる方針に切り替え、各モデルを小刻みに調整しました。時間の制約を考慮し、この段階では並列実験数を最大化するために A100 を2枚投入しました。
最後の2日間はほとんど寝られず、残りの全提出を最大限に活かすため、日本時間の朝9時頃まで起きている日が続きました。
最終日の夜、私たちは最後のパイプラインを調整していました。実装には小さなバグがいくつも残っており、最終的に日本時間の26:00になってようやく全提出が完了。最終提出が間に合わないリスクを避けるため、takaito さんにはやむなく Pseudo Labeling の計算量を減らしてもらうことになり、自分の不手際を申し訳なく思っています。
最終提出はギリギリて間に合ったものの、最高スコアの提出は8分のタイムオーバーでした。
おわりに
ドキドキのまま朝まで待ち、シェイクの後に最終順位は7位となりました。自分としては最大の失敗は、最後の夜に σ 補正モデルを学習した際、誤った NN の出力を用いてしまい、再学習に余分に40分を要したことです。もしこうしたミスがなければ、最良のパイプラインを選べていたはずで、「焦ると余計にミスをする」という教訓を痛感しました。
でもそれ以外、チーム合流のタイミングは非常に良く、限られた時間を最大限活かして手法を統合し、十分な探索と議論ができたと思います。手法の相性もよく、弱点を相互に補完できました。私の視点では多少冗長でエレガントさに欠ける部分もありましたが、総じてとても良い形に仕上がりました。
takaito さんのブログにもある通り、最終提出を終えた後は手持ち無沙汰になり、そのまま解法の執筆を始めました。結果として、翌日に最初のソリューション公開チームとなり、とても面白い体験でした。
振り返ると、今回はほぼ全期間で金段を維持しており、正直かなり大変でした。
結果として初の金メダルを獲得でき、本当に嬉しく思います。しかしこれは自分一人の力では到達できなかったもので、今後はソロ金メダルと GM を目指したいです。
もし ADC2026 が開催されるなら、必ず参加します。
皆さま、お疲れさまでした。
Reference
[1] Kai Hou Yip, Lorenzo V. Mugnai, Rebecca L. Coates, Andrea Bocchieri, Orphée Faucoz, Arun Nambiyath Govindan, Giuseppe Morello, Andreas Papageorgiou, Angèle Syty, Tara Tahseen, Sohier Dane, Maggie Demkin, Jean-Philippe Beaulieu, Sudeshna Boro Saikia, Giovanni Bruno, Quentin Changeat, Camilla Danielski, Pascale Danto, Jack Davey, Pierre Drossart, Paul Eccleston, Billy Edwards, Clare Jenner, Ryan King, Theresa Lueftinger, Michiel Min, Nikolaos Nikolaou, Leonardo Pagliaro, Enzo Pascale, Emilie Panek, Alice Radcliffe, Luís F. Simões, Patricio Cubillos Vallejos, Tiziano Zingales, Giovanna Tinetti, Ingo P. Waldmann. NeurIPS - Ariel Data Challenge 2025. https://kaggle.com/competitions/ariel-data-challenge-2025, Unpublished. Kaggle. . NeurIPS - Ariel Data Challenge 2025. https://kaggle.com/competitions/ariel-data-challenge-2025, 2025. Kaggle.
[2] Light Curve of a Planet Transiting Its Star https://science.nasa.gov/resource/light-curve-of-a-planet-transiting-its-star/