Solved
ローカルLLM
OllamaでDeepSeek-V3が4-bit量子化エラーで起動しない時の対処法
📅 2026年04月09日
⏱️ 8分で読める
👁 1,234 views
発生している問題(症状)
⚠️ エラー内容:
Ollama で DeepSeek-V3 を 4-bit 量子化で実行しようとすると以下のエラーが発生します:
```
Error: failed to load model: CUDA out of memory
Tried to allocate 20.00 MiB (GPU 0; 8.00 GiB total capacity)
```
RTX 3070 (8GB VRAM) で実行していますが、メモリ不足のエラーが表示されます。
主な原因
この問題は、DeepSeek-V3 の MOE(Mixture of Experts)アーキテクチャが原因です。
4-bit 量子化でも、一時的なテンソル計算で大量の VRAM を消費します。
解決策・対処法
以下の手順で解決できます:
1. Modelfile の修正
~/.ollama/models/ にある Modelfile を開き、以下のパラメータを追加:
FROM deepseek-v3:latest
PARAMETER num_gpu 20
PARAMETER num_thread 8
PARAMETER num_ctx 2048
2. 環境変数の設定
export OLLAMA_MAX_LOADED_MODELS=1
export OLLAMA_NUM_PARALLEL=1
3. Ollama の再起動
ollama stop
ollama serve
ollama run deepseek-v3
4. 代替案:GGUF を使用
どうしても動かない場合は、より軽量な GGUF フォーマットを使用:
ollama pull deepseek-v3:7b-q4_0
コード例
# Python から Ollama を使用する例
import ollama
response = ollama.chat(model='deepseek-v3', messages=[
{
'role': 'user',
'content': 'こんにちは',
},
])
print(response['message']['content'])