塙 敏博/HANAWA Toshihiro

塙 敏博 准教授

【研究分野】
メディア・知能・計算分野
【研究領域】
高性能計算、演算加速器、高速インターコネクト
【研究室URL】
http://www.cspp.cc.u-tokyo.ac.jp/hanawa/index-j.html

研究内容

近年、スパコンにはGPU (Graphics Processing Unit)技術や、メニーコアアーキテクチャをベースにした演算加速装置(アクセラレータ)がよく使われるようになってきました。これらの装置は、電力当たりの演算性能が極めて高く、実装密度も高くできることから、設置面積や消費電力などの厳しい制約を満たしつつ、高いピーク演算性能を実現することができます。しかしながら、このようなシステムで実際のアプリケーションで高い性能を実現するためには、演算加速装置間の通信の工夫や、通信ライブラリ、プログラミング言語のサポートなど、考慮すべきことはたくさんあります。現在は、FPGA (Field Programmable Gate Array)を利用して、通信の高速化と演算加速とを融合した次世代スパコンのための要素技術を開発しています。

密結合演算加速機構

演算加速装置は、一般的にPCI Expressといった汎用IOバスでCPUと接続されており、その入出力性能がボトルネックになっています。また、スパコンのノード間では、それぞれに搭載された演算加速装置上のメモリ内容を交換する必要があります。従来は、演算加速装置から一旦CPUに転送した後、ネットワークデバイスを経由して別ノードのCPUメモリに転送し、さらに演算加速装置に転送する、といった煩雑な操作が必要でした。また、これらの操作はオーバーヘッドが大きく、特に小さいサイズのデータを転送する際に性能低下が問題になっていました。

そこで私はこれまで、演算加速装置間の直接通信実現のため、低遅延でバンド幅の高い独自の密結合演算加速機構 TCA (Tightly Coupled Accelerators)アーキテクチャを提案し、プロトタイプを実現してきました。現在は、筑波大、慶応大と協力して、TCAを用いたアプリケーションの開発、TCAアーキテクチャの改良などを行っています。

FPGAによる通信と計算の融合

TCAアーキテクチャを実現するために、PEACH2, PEACH3という専用通信ボードを開発してきました。これらのボードには、FPGAを用いており、高性能な通信エンジンを搭載して高い性能が実現できているのと同時に、機能の追加・変更が動的に可能であるという特徴があります。一方最近では、OpenCLといった高級言語でFPGAの内部論理を記述しておき、FPGAに演算をオフロードすることも可能になってきています。TCAの高速通信に加えて、通信中のデータに対して演算を加えるような機構も実現できてはいますが、どのようにしてプログラムしていくのか、まだまだたくさんの課題があります。

学生へのメッセージ

半導体プロセスの進歩によってスパコンの性能が順調に上がってきた時代は過ぎ去って、厳しい制約条件の中で、様々な観点から性能向上を目指す取り組みが必要になっています。ぜひ皆さんの若い力で、険しい壁を突破して新しいスパコンを作りませんか。お待ちしています。

図1:TCAのノード内構成
図2:TCA計算ノードの接続
図3:HA-PACS/TCAクラスタ (筑波大学計算科学研究センターに設置)
図4:PEACH2ボード (HA-PACS/TCAに搭載)