なんとな~くしあわせ?の日記

「そしてそれゆえ、知識そのものが力である」 (Nam et ipsa scientia potestas est.) 〜 フランシス・ベーコン

Tesla K80を動かすまでにやったこと(※運用までは至らず)

Tesla K80

発端

  • 昨今のAIブームでグラフィックボードを動かす中で、VRAMの容量が大きくて安いグラフィックボードが欲しくなった
    • Tesla K80はVRAMが12GB, 12GBの24GBついています
    • ただし、おそらく何もしない状態で使うと1GPUあたり12GBのVRAMを使える感じになる(※24GBではないことに注意)
  • ヤフオクでTesla K80が手に入ったので動かそうとしたが、これがなかなか難物で苦労した

auctions.yahoo.co.jp

起動まで

電源が足りない!
  • まずTesla K80が他のグラフィックボードと違っておかしいのは、補助電源にCPU 8pinを要求することです。これは普通マザーボード自体に繋ぐので、まず電源のケーブルが揃えられないんじゃないかな・・・?
    • CPU補助電源は8ピンで最大480Wの電力を供給できます
    • Tesla K80は2つのGPUコアそれぞれで150W必要になるので、合計300Wまで使う可能性があります、コスパ悪いです
  • 結局どうしたか?
    • ネットで見ていると、4ピン ペリフェラルコネクタの電源を2つ合成するやつを使ってCPU 8pinにしてTesla K80に繋ぐ例が見られました
    • ただ、私が今持っている電源だと4ピン ペリフェラルコネクタ自体が無いのでAliExpressでpcie8p-in-メスからcpu 8 p-inオスに変換するやつを買いました、大丈夫です動いてますよ

デュアルpcie8p in メスから030 0571 000 cpu 8 p inオス,nvidia tlak80/m40/m60/p40/p100用のグラフィック電源ケーブル| | - AliExpress

起動時に電力が足りない場合、電源ボタン押してもマザーボード自体が起動しなくなります。起動しないだけで害はないようです。

マザーボードに設定が必要

参考にした記事にも、「Above 4GB MMIO BIOS Assignment (4GB を超える MMIO BIOS 割り当て)」が必要とありますが、これはIntel系のマザーボードの設定名であり、AMD系のマザーボードでは「Above 4G Decoding」という名前でBIOSから設定が必要でした。これをやらないと多分起動してもマシンにグラフィックボードが認識されない。

➔ うちの場合は「Above 4G Decoding」を有効にすることで見事起動しました、やったね

いざ運用

実際にDebianで起動してみたらどうなるか確認したところ残念なログが出ていた

$ sudo dmesg
...

[    7.707771] NVRM: The NVIDIA Tesla K80 GPU installed in this system is
               NVRM:  supported through the NVIDIA 470.xx Legacy drivers. Please
               NVRM:  visit http://www.nvidia.com/object/unix.html for more
               NVRM:  information.  The 530.30.02 NVIDIA driver will ignore
               NVRM:  this GPU.  Continuing probe...

Tesla K80はNVIDIA 470系の古いドライバーでしか動かないのです・・・現在使っているマシンは530系のドライバーなので差分がありすぎるというか古すぎです。。。

どうしよう

とりあえず、

  • debian10のリポジトリにはNVIDIA 470のドライバーがあるのでそれを使うマシンを1つ作るか?(arch linuxとかならば470系にkernel 6を組み合わせたパッチとかあるっぽい)
  • あとは熱問題がある、起動しただけでグラフィックボードが熱くなってしまうので空冷なり水冷なりしてグラフィックボードを冷やさないといけない
結論

やっぱりサーバー向けの製品だからか