Solved ローカルLLM

OllamaでDeepSeek-V3が4-bit量子化エラーで起動しない時の対処法

📅 2026年04月09日 ⏱️ 8分で読める 👁 1,234 views

発生している問題(症状)

⚠️ エラー内容:

Ollama で DeepSeek-V3 を 4-bit 量子化で実行しようとすると以下のエラーが発生します: ``` Error: failed to load model: CUDA out of memory Tried to allocate 20.00 MiB (GPU 0; 8.00 GiB total capacity) ``` RTX 3070 (8GB VRAM) で実行していますが、メモリ不足のエラーが表示されます。

主な原因

この問題は、DeepSeek-V3 の MOE(Mixture of Experts)アーキテクチャが原因です。
4-bit 量子化でも、一時的なテンソル計算で大量の VRAM を消費します。

解決策・対処法

以下の手順で解決できます:

1. Modelfile の修正

~/.ollama/models/ にある Modelfile を開き、以下のパラメータを追加:

FROM deepseek-v3:latest
PARAMETER num_gpu 20
PARAMETER num_thread 8
PARAMETER num_ctx 2048

2. 環境変数の設定

export OLLAMA_MAX_LOADED_MODELS=1
export OLLAMA_NUM_PARALLEL=1

3. Ollama の再起動

ollama stop
ollama serve
ollama run deepseek-v3

4. 代替案:GGUF を使用

どうしても動かない場合は、より軽量な GGUF フォーマットを使用:

ollama pull deepseek-v3:7b-q4_0

コード例

# Python から Ollama を使用する例
import ollama

response = ollama.chat(model='deepseek-v3', messages=[
  {
    'role': 'user',
    'content': 'こんにちは',
  },
])
print(response['message']['content'])