7月に日本ヒューレット・パッカード(以下、日本HP)が発表した「HP ProLiant DL980 G7」(以下、DL980 G7)は、「インテル Xeon プロセッサー 7500番台」(以下、Xeon 7500番台)を最大8CPU、最大2TBの大容量メモリが搭載できる、非常に拡張性の高い8ソケットサーバーだ。
CPUにはXeon 7500番台を採用しているため、64物理コア(8CPU×8コア)を持つパワフルな処理能力が最大の特徴。また、最大16スロットのPCI Express 2.0により、高いIO拡張性を実現している。さらにDL980 G7は、24時間365日障害が許されない企業の基幹サーバーとして、十分な性能と信頼性を持つ点も、特徴として挙げられる。独自開発の機能に加えて、 Xeon 7500番台のRAS(Reliability:信頼性、Availability:可用性、Serviceability:保守性)機能により、ミッションクリティカルな用途にマッチしたサーバーとなったのだ。その高い性能、高い信頼性を実現するための“肝”となる部分が、日本HP独自の「PREMAアーキテクチャ」にある。この記事では、Performance(性能)、Resiliency(回復力)、Efficiency(効率性)、Manageability(管理性)、Availability(可用性)の頭文字をとった、PREMAアーキテクチャの詳細を紹介したい。
Xeon 7500番台は、4つのCPUを直接相互に接続するアーキテクチャになっていることから、8ソケットサーバーを設計するには、4つのCPUを1つのノードとし、このノードを2つ用意するのが、通常の設計手法だ。
ノード内のトラフィックは、Xeon 7500番台同士を直接接続しているほか、メモリに関しては、NUMAアーキテクチャを採用するため、個々のXeon 7500番台にそれぞれ接続されている。しかし、ノードを2つ接続するデザインでは、ノード間の接続部分がシステムのボトルネックとなる可能性が高い。このため、ノードを前提としたでデザインでは、CPU数が増えてもリニアにパフォーマンスがアップしない点が問題なのだという。
そこで日本HPでは、「スマートCPUキャッシング」というアーキテクチャを独自開発し、この問題の解決を図った。このアーキテクチャでは、2個のXeon 7500番台を一組のモジュールとし、それぞれのモジュールを、日本HPが独自開発したノードコントローラを経由して接続する。スマートCPUキャッシング アーキテクチャでは、独自開発のノードコントローラが必要になるので、標準デザインのサーバーよりもコストはアップする。しかし、このアーキテクチャでは、ほぼリニアにパフォーマンスがアップしていく。このため、DL980 G7では、Xeon 7500番台を4CPU使用したシステムと比べて、1.74倍(SAPベンチマークにおいて)のパフォーマンスを実現できている。
こういった独自技術により、DL980 G7は、x86 WindowsサーバーとしてTPC-Hベンチマークで世界最高性能を記録したとのこと。ノードコントローラを使用しないスタンダードな設計では、これだけリニアにパフォーマンスをアップすることはできないだろう。この点は、DL980 G7の大きな強みといえる。
DL980 G7のように膨大なCPUリソースとメモリを持つサーバーでは、仮想化を導入する局面も多くなるだろう。仮想化することで、社内に存在する数多くのサーバーを統合できる。1つの物理マシンにサーバーが統合されることにより、ハードウェアの管理性は格段にアップする。
このように、仮想化により、社内のサーバーをプライベートクラウド化していくことは、メリットもあるが、同時にデメリットも存在する。1つの物理マシンに統合されるため、ハードウェアにトラブルが起こった場合は、動作している仮想マシンにすべてに影響が及んでしまうからだ。そこで、こういったことを回避するために、大規模サーバー向けCPUであるXeon 7500番台には、RAS機能が追加されている。このRAS機能により、ミッションクリティカルサーバークラスの、高い信頼性が実現されている。
具体的には、RAS機能により、CPUやメモリ、I/Oなどの各モジュールにトラブルが起こったとしても、システム全体をダウンさせずに動かし続けることが可能になる。これにより、24時間365日動かし続けなければならないサーバーに、トラブルが起こったとしても、サーバーを動かし続けることができる。故障が起こったモジュールは、システムから切り離され、正常に動作するモジュールに交換されれば、再度動作させられるのだ。また、仮想化されたシステムを考えた場合、ハイパーバイザーがキチンとハードウェアエラーを管理して、そのリソースを利用している仮想マシンだけを自動的に修復すれば、システム全体のダウンタイムを小さくすることが可能だ。
DL980 G7では、こうした点を踏まえ、日本HP独自に開発した「VMアイソレーション」により、仮想サーバーのメモリエラーを検知して、自動的にリカバリする機能を実現した。この時、システム全体を再起動するのではなく、トラブルの起こっているメモリを使用している仮想マシンやアプリケーションだけを再起動する。エラーが起こっているメモリをシステムから自動的に切り離し、システム全体に影響を及ぼさずに、リカバリができるのである。
DL980 G7は、内部に膨大な数の温度センサーを用意している。「センサーの海」ともいわれるほどの温度センサーを内部に用意することで、サーバー内部を、ピンポイントで把握することが可能になった。こういったインフラがあることで、細かく内部ファンをコントロールして、必要な部分を、必要なだけ冷せるのだ。ほとんどのサーバーは、特殊なサーバールームやデータセンターに設置されことが前提になっている。このため、多くのサーバーでは、ファンの音などは気にせず、とにかく内部を冷やすことを目的に、サーバーの負荷が低くても、ファンをある程度のパワーで動かしている。これでは、無駄にサーバーを冷やしているだけだ。
DL980 G7では、膨大な数のセンサーにより、内部の温度状態をキチンと把握し、必要なファンを必要なだけ動かすことで、サーバーをスマートに冷却することが可能になった。さらに、省電力化ということでは、システムの状態をチェックして、使用していないメモリスロットやIOスロットには電力供給を制限している。不必要なパワーがサーバー内部に流れなければ、発熱も押さえられるし、省電力にも寄与できる。
DL980 G7では、電源ユニットにもHP独自のテクノロジーが詰まっている。この電源ユニットは、最高の電源の変換効率を実現した「80Plus Platinum」を使用している。80Plus Platinumの電源ユニットを使用することで、負荷が高くなっても90%以上の電源変換効率が実現。電源ユニットで変換ロスを少なくして、電源ユニット自体の発熱を抑えられるようにしているのだ。なおDL980 G7には、1200Wの80Plus Platinumの電源ユニットが4基使用されている(リダンダント時は8基)。
日本HPにとって第7世代のサーバーとなるDL980 G7は、サーバー管理用モジュール「HP Integrated Lights-Out(iLO)」も、バージョン3の「iLO3」にアップグレードされている。iLO3は、以前のiLO2に比べるとリモートコンソールのレスポンスが8倍にもアップした。これにより、ローカルのサーバーを管理しているのと同じ使い勝手で利用できるようになった。さらに、iLO3では、仮想メディアのアクセススピードもiLO2に比べると3倍速くなっている。UIは、Webブラウザを利用するが、JSONなどのWeb 2.0テクノロジーを使用することで、更新ボタンを押さなくても最新の情報にアップデートされるなど、使い勝手に配慮されている点も特徴だ。また、iLOはネットワークを使ってリモートコントロールするため、ネットワーク上に管理用のデータが流れる。iLO3では、データを暗号化するAESをハードウェア搭載することで、iLOの操作を暗号化して、ほかのユーザーに盗み見されないようにしている。このほか、業界標準のIPMIやDCMIなど、遠隔操作プロトコルにも対応した。
一方、サーバー管理ソフトウェア「HP Insight Control」からは、サーバーを監視したり、電源のコントロールを行ったりといった作業を、複数のサーバーに対して簡単に実施できる。また、iLOの機能を利用して、ネットワーク上のどこからでもコントロールできるようになっている。Insight Controlは、単独の管理ツールとして利用するだけでなく、VMwareのvCenterやマイクロソフトのMicrosoft System Centerなどからも利用することができる。このようにサードパーティの管理システムと連携することで、企業に導入されているサーバー群を同じ管理ツールで管理できるようになる。多くのサーバーを管理する立場からは、非常にうれしい点だといえるだろう。
DL980 G7には、日本HPが開発・販売するミッションクリティカル領域のサーバーで採用されている、冗長化のテクノロジーをふんだんに採用している。例えば、日本HP独自の「冗長システムファブリック」というテクノロジーが採用されている。データパスを冗長化する「冗長データパス」では、通常のリンク容量に比べて50%以上の向上を実現するし、「動的ルーティング」では、データ経路を負荷に応じて、動的に変更することにより、高い負荷がかかっていてもシステムのエラーを低減している。さらに、「ラピッドリカバリー」では、不良データを検知するとOSレベルでログを記録して、トラブルを封じ込めることが可能になっている。
今までのx86サーバーでは、こういったテクノロジーはなかなか採用が進んでいなかった。しかし、ミッションクリティカル領域でx86サーバーを使用するためには、システムの冗長化は絶対に必要なこと。こういったテクノロジーは、以前よりミッションクリティカル領域をターゲットにしたサーバーを販売している企業が、もっともよくわかっている。そういった意味でも、DL980 G7は、日本HPらしい製品といえるだろう。
性能や信頼性がここまでくれば、x86ベースのサーバーも企業の基幹サーバーとして運用できるレベルに近づいてきたのではないか。ハードウェアやソフトウェアのコスト面からみれば、基幹システムでx86サーバーを運用するメリットは十分にあるといえる。