HOME > 研究プロジェクト > Grid Datafarm

研究プロジェクト

研究プロジェクト一覧

Grid Datafarm

研究概要

本プロジェクトでは、広域ネットワーク上に分散して配置されたPCとそれに付随するストレージを利用し、高速大容量ディスクと高速演算処理能力を持つ仮想コンピュータの実現を目指したグリッドソフトウェア(Gfarm:Grid Data Farm)の研究開発を行っている。皆がどこからでも安心してアクセスすることができ、仮想的な大容量ディスクにより大規模なデータ処理、データの共有を行うことができる仮想コンピュータの実現を目指している。目標としている地球規模の仮想コンピュータの性能は

  • 100 ペタバイト(1 ペタバイトは 1015バイト)のディスク容量
  • 毎秒 10 テラバイト(1 テラバイトは 1012バイト)のデータ入出力性能
  • 1 ペタフロップス(毎秒 1015回)の演算能力

と現在の世界最大のスーパコンピュータを遥かに凌ぐものである。
Gfarmは、広域に分散配置されたPCにデータを分散させて並列分散処理することにより、データの局所性を利用して高い処理性能を実現する。データの複製を複数の場所に置くことで、利用者に意識させることなく自動的に近くにあるデータを利用することでスケーラビリティを確保する。さらに、一部のPCが故障したり、ネットワークが不通になったりした場合には、別のPCの複製を参照することで高い信頼性を確保する。すなわち、以下の点を重視して研究開発を進めている。

  • 1つの大きなディスクとして透過的にアクセスする手法
  • データの分散配置に対応したジョブ配置手法
  • 分散したデータの並列アクセス方式
  • 広域ネットワーク環境での性能と安定性

仮想化された巨大計算資源・ストレージ
Grid Datafarm

研究の主な特徴

2002年〜2005年にかけて、毎年、米国で開催されるSC国際会議においてデモンストレーションを行っている。2002年にはSCのイベントの1つであるHigh Performance Bandwidth Challengeに参加して、日米間にまたがるファイル複製実験において世界で初めて741Mbpsを達成した。2003年の同イベントでは、日米の6拠点に分散した計236台のPCにまたがる1つの高速大容量の共有ファイルシステム(記憶容量:70TB、テラバイト:1TBは1兆文字、70TBはDVD 1万5千枚)をGfarmにより実現した。この高速大容量の共有ファイルシステム上で1.8TBの大規模データを解析する実証実験を行い、安定した高い性能を確認することができた。分散環境における高い信頼性と性能を実現している点を評価され、”Distributed Infrastructure”賞を受賞した。なお、この成果は日米の6機関(産総研、高エネルギー加速器研究機構、東京工業大学、筑波大学、APAN東京XP、米国インディアナ大学)が協力し、つくばWAN、APAN、SuperSINET、MAFFINからのネットワークサポートを得て達成した。さらに、”2005年にはMost Innovative Use of Storage In Support of Science”賞を受賞した。
このようなデモンストレーションを通じてGfarmの実環境での性能を検証、かつ改善させてきた。特に、広域環境での大規模データ転送や分散処理については、類似の分散ファイルシステムに比べてより多くの経験と実績がある。近年は、システムコール・フック・ライブラリやFUSE(Filesysteim in Userspace)を利用してPOSIX準拠のインタフェースをサポートすることでユーザビリティの向上にも努めている。これにより、手持ちのアプリケーションを変更することなく、Gfarmで構築された仮想コンピュータを利用できるようになっている。

今後の展開

産総研のグリッドデータファームの研究開発は国際標準を先導している。Gfarmのユーザである研究機関、企業と協力して、グリッド技術の標準化フォーラム:Global Grid Forum(GGF)にグリッド・ファイルシステムWGの提案をしている。国際標準が整備されることによって世界規模のストレージの共有、統合が促進され、Gfarmで実現している大規模データ共有、大規模データ解析の仕組みが容易に実現できるようになる。
 グリッドデータファームは、グリッドデータファームは、(1)年間数PB(ペタバイト)の実験データの解析が必要な素粒子物理学や、(2)天文学における全天多波長の観測データの解析、(3)生命情報学の遺伝子解析などの大規模データ解析だけではなく、(4)電子政府・電子商取引などビジネス分野における高信頼なデータ処理や、(5)データセンターとして地理的に離れた拠点間の高速データ複製による冗長性の確保と負荷分散を行うことができる。大規模データを安全に高い信頼性を持って共有し、高速処理を実現するための基礎技術として非常に有効であり,幅広い産業応用が考えられる。

詳細URL

http://datafarm.apgrid.org/