みぞメモ

ブログ作成用のメモ登録

勉強会:【第41回AIセミナ】ABCIグランドチャレンジ

【第41回AIセミナ】ABCIグランドチャレンジ2019成果報告会

■ 日時:2019/2/21 15:00ー17:20
■ 感想

 → 世界最大規模の人工知能処理向け計算インフラストラクチャ ABCI の    利用成果発表会
 → 内容は、バラエティに富んでいたが、ABCI を利用するにあたっての
   ミニバッチや並列処理の最適化などの発表が多かった
 → 個々の研究内容も興味深かった
   資料が交解されるモノもあるようなので
   時間を見て詳しく見ていたいと思った

■ 開催・資料

www.airc.aist.go.jp


セミナ・メモ)

AI橋渡しクラウド(AI Bridging Cloud Infrastructure、ABCI) は、
国立研究開発法人 産業技術総合研究所が構築・運用する、
世界最大規模の人工知能処理向け計算インフラストラクチャであり、
2018年8月に運用が開始されました。
ABCIの狙いは、550ペタフロップス(半精度)という
膨大なAI処理能力を研究者や開発者に提供することにより、
我が国のAI/ビッグデータ処理の進歩を加速することです。
産総研では、ABCIを用いて莫大な演算能力によりはじめて可能になる
人工知能分野の最重要課題への挑戦を支援するため、
「ABCIグランドチャレンジ」プログラムを実施しています。
本プログラムは、
ABCIがもつ最大計算ノード数である1,088ノード(4,352GPU)を
最大24時間、無償で、1チームでの占有利用ができる
公募型チャレンジプログラムです。

セミナーでは、
2019年に実施されたABCIグランドチャレンジ2019の参加者を
講師としてお招きして、
各チームでのチャレンジの内容や成果、
今後の取り組みについてご紹介いただきます

15:00 - 15:10

  • ABCIグランドチャレンジ2019概要」
    小川 宏高
    産業技術総合研究所 人工知能研究センター 研究チーム長/
     実社会ビッグデータ活用オープンイノベーションラボラトリ ラボ長)

    概要:
    AI橋渡しクラウド(ABCI)は世界トップクラスの実効性能と省電力性能を有する、
    わが国の人工知能技術開発のためのオープンで先進的な高速計算基盤である。
    ABCIの目的は、産学官連携や多様な事業者による利用を促進し、
    高い計算能力を活用した人工知能技術の研究開発・実証を加速するとともに、
    人工知能分野の最重要課題に挑戦することである。
    その活動の一環として、
    産総研では莫大な演算能力によりはじめて可能になる
    人工知能分野の最重要課題への挑戦を支援するため、
    「ABCIグランドチャレンジ」プログラムを実施している。
    本発表ではABCIグランドチャレンジ2019の実施概要を報告する。

15:10 - 15:30

  • 大規模深層学習における学習時間最小化への挑戦
    笠置 明彦 (株式会社富士通研究所 シニアリサーチャー)

    概要:
    ABCIグランドチャレンジにおいて、
    我々は巨大ミニバッチによる分散並列深層学習の高速化を実施した。
    画像認識に用いられるResNet-50を用いて多数のGPUによるデータ並列学習を行い、
    ILSVRC2012のデータセットに対して精度が75.9%を超えるまでの実行時間を計測する。
    我々はこれまでABCIの512ノード(2048GPU)を用いたResNet-50の学習高速化を
    実施してきたが、
    本ABCIグランドチャレンジでは全てのノードが利用可能であるため、
    上記ResNet-50の学習をどこまで高速化できるか挑戦した。
    1分以内での学習完了を目標に挑戦したが、
    巨大ミニバッチによる分散並列深層学習特有の課題に直面。
    最終的に768ノード(3072GPU)を用いて62.1秒での学習完了を達成した。

・大規模深層学習
 → 学習時間最小
 → 並列化処理(データ並列):ミニバッチ
   → ミニバッチサイズが増加 → 学習効率が下がる
   → 更新回数が少なくなる
   → GPU数とスループット
   → Strong scaling
   → Bach Normalization層 → 平均・分散の値が収束しない

・深層学習


15:30 - 15:50

  • 想定外を想定する津波即時予測AIの構築」
    大石 裕介(株式会社富士通研究所 主任研究員)

    概要:
    津波予測における想定外回避に向け,
    大量の学習データを用いて,
    沖合の津波波形から沿岸付近の津波を即時予測するAIの構築を行った.
    ランダム生成された津波波源に基づくデータの学習に関し,
    MXNetで実装したニューラルネットワークの処理速度は,
    約36.2 PFLOPSに達した.構築した津波予測AIの予測精度を測定したところ,
    最大波高の予測値と正解値との相関係数は0.99を超え,
    十分な予測性能が得られた.

    津波の観測技術
     → 検潮所、GPP波浪計。ケーブル式海底水圧器、DART計測

    津波身の予測技術
     - 陸域の津波予測
     → 逆解析
     → データ同化
     → 高速シミュレーション
     → ニューラルネットワーク

15:50 - 16:10

  • ABCIを活用した大規模分散DNN学習への取り組み
    田中 義己(ソニー株式会社 シニアAIシステムリサーチャー)

    概要:
    セミナーでは、
    ソニー独自のディープラーニングフレームワークとABCIを活用した
    大規模な分散DNN学習の取り組みについて説明する。
    ソニーは2010年から独自のフレームワークの開発を進めており、
    これにより開発者は直感的にニューラルネットワークを設計することが可能となる。
    また、同フレームワークとABCIを活用した大規模な分散DNN学習の開発を進めている。
    大規模GPUを利用した分散DNN学習では、
    バッチサイズが巨大になるため学習が収束しないことが知られている。
    特にABCIの4000基強のGPUを活用して学習を進めるためには
    100Kを超えるバッチサイズが必要となる。
    今回、我々は独自のオプティマイザ(STiLL)により、
    128K超のバッチサイズでの学習に成功した。

16:10 - 16:30

  • A Scalable Framework for Instant High-resolution Image Reconstruction
    陳 鵬
    産業技術総合研究所 
    社会ビッグデータ活用オープンイノベーションラボラトリ)

    概要:
    Computed Tomography (CT) is a widely used technology that requires
    compute-intense algorithms for image reconstruction.
    We propose a novel back-projection algorithm that reduces
    the projection computation cost to 1/6 of the standard algorithm.
    We also propose an efficient implementation that takes advantage
    of the heterogeneity of GPU-accelerated systems by overlapping
    the filtering and back-projection stages on CPUs and GPUs, respectively.
    Finally, we propose a distributed framework for high-resolution
    image reconstruction on state-of-the-art GPU-accelerated supercomputers.
    The framework relies on an elaborate interleave of
    MPI collective communication steps to achieve scalable communication.
    Evaluation on a single Tesla V100 GPU demonstrates that our
    back-projection kernel performs up to 1.6 times faster than
    the standard FDK implementation.
    We also demonstrate the scalability and
    instantaneous CT capability of the distributed framework
    by using up to 2,048 V100 GPUs to solve a 4K and 8K problems
    within 30 seconds and 2 minutes, respectively.

・Computed Yomography(CT)

16:30 - 16:50

  • 超高速タンパク質間相互作用予測システムMEGADOCK 5.0による
      細胞内タンパク質間相互作用の網羅的解明
    秋山 泰(東京工業大学 情報理工学院 教授)

    概要:
     細胞内のタンパク質間相互作用 (protein-protein interaction, PPI) の
    網羅的な理解は新薬開発や疾病メカニズムの解明に重要である。
    本研究では、東京工業大学秋山研究室にて開発されたPPI予測プログラムMEGADOCK 5.0
    によって、ヒト細胞内PPIの網羅的解明に向けた実証評価実験を実施した。
    MEGADOCKはマルチGPU・マルチノード計算が可能なPPI予測プログラムであり、
    version 5.0ではABCI向けに2,000 GPU超の大規模並列環境を想定した
    並列性能向上のための改善を施した。
    本実施では主に次の3つの項目を達成した。
    1) ABCI 512ノード(2,048 GPU)によって2,500万ペア超の大規模なPPI
     予測計算を約8.8時間で完了できることを示した。
    2) 並列実行性能計測において512ノードで強スケーリング0.967 (対16ノード値)の
     並列実行性能を達成した。
    3) 同システムのSingularityコンテナによる仮想化版において、
     ネイティブ環境と同等性能(強スケーリング0.964)で計算できることを示した。

16:50 - 17:20

  • 二次最適化を用いた巨大な言語モデルの学習およびFRNNを用いたプラズマ挙動予測
    横田 理央
    東京工業大学 学術国際情報センター 准教授)

    概要:
    近年BERTなどの巨大なTransformerを用いた言語モデル
    大規模分散並列学習が盛んになってきている。
    本研究では、二次最適化の汎化性能と計算量の問題を解決した
    独自技術を言語モデルに応用し、
    その収束性の向上および学習時間の低減を目指す。
    これまでに行ってきたImageNetの学習ではデータセットが小さすぎたため
    二次最適化の短所である過学習の問題が起きていたが、
    巨大な言語モデルの学習には何TBものデータを用いるため過学習は起きにくく、
    二次最適化の長所である収束の早さが活かせる。
    また、これとは別にプリンストン大学のチームが行った
    再帰型のニューラルネットを用いたプラズマの挙動予測についても紹介する。

以上 ----+----+----+----+----+----+----+----+----+----+----+----+----+----+