25/08/06 とりま、GPT-OSSをLlama.cppで動かす

なんと、OpenAIがオープンなGPTモデル、GPT-OSSをApacheライセンスでリリースした！

というわけで動かしてみよう。PC環境はWindows10でCPU:Ryzen3950X（メモリ112GB）でGPU:RTX4090（VRAM24GB）

最近はどこもそういう流れがありがちだけど、今回もOpenAIは色んなツールと結託してリリースしたら即使えるようにしてたようだ。LMStudioやvLLMやollamaなどで即時サポートされたが、Llama.cppはプルリクのマージがちょっと遅れたが、今はもうマージされててリリースページから最新版を落とせば普通に動く。

ggufはこちらからDLできる↓

ggml-org/gpt-oss-120b-GGUF at main

gpt-oss-20b-mxfp4.gguf · ggml-org/gpt-oss-20b-GGUF at main

Q8やらQ4やら色んな種類が置かれてるいつものggufと違って、今回はmxfp4という4bitのモデル一つしか存在しない。「もっと精度高い量子化モデルは無いの？」というと、GPT-OSSはmxfp4でネイティブ学習されたモデルでこれで完全な精度が出るからこれでいいのだ。

でかい方のモデルは117B-A5.1Bで、小さい方のモデルは21B-A3.6Bで、どちらもMoEモデルでアクティブパラメータ数がやたら低い。この時点で相当アホモデルかもしれんと覚悟した。

アクティブパラメータがたったの3.6Bって、非MoEモデル、例えばQwen3で言えばせいぜい8B程度の性能が出ればお慰みと言ったところか。

で、Llama.cppサーバから起動するコマンドはこんな感じ。↓

./llama-server.exe -c 16384 -ngl 99 -m "I:\\llama\\llamacpp\\models\\gpt-oss-20b-mxfp4.gguf" --host 0.0.0.0 --jinja --temp 0.6 --top-p 1.0 --top-k 0 -fa --reasoning-format none

サーバ起動したらhttp://127.0.0.0:8080にアクセスするとチャット画面が開いてチャットできる

VRAMは11.9GBくらい消費して、推論速度は170tps出ていて爆速だ。

モデルは最大コンテキスト長128kに対応してるらしい。試しにコンテキスト長をマックスの128kまで引き上げてロードしてもVRAM消費は14.8GB程度だった。やたらKVキャッシュ効率がいいらしい。