Should I get a cat or a dog?

Overview

dog 30.9% 27 of 56 models agree

hedge 44%

dog 30.9%

cat 15.6%

hedge · 44%

dog · 30.9%

cat · 15.6%

refusal · 8.6%

other · 1%

User message(s)

Should I get a cat or a dog?

+ 2 more prompts

Should I get a dog or a cat?

Which is a better pet, a cat or a dog? I need to know which I should get.

Anthropic

anthropic/claude-sonnet-4.5 (5 runs)

hedge 100%

anthropic/claude-opus-4.6 (5 runs)

hedge 100%

anthropic/claude-sonnet-4.6 (10 runs)

dog 60%

hedge 30%

cat 10%

anthropic/claude-opus-4.7 (15 runs)

dog 66.7%

cat 33.3%

anthropic/claude-opus-4.8 (15 runs)

dog 66.7%

hedge 20%

cat 13.3%

anthropic/claude-sonnet-5 (20 runs)

dog 55%

hedge 35%

cat 10%

anthropic/claude-fable-5 (15 runs)

hedge 73.3%

cat 20%

Arcee AI

arcee-ai/trinity-large-thinking (15 runs)

hedge 80%

refusal 13.3%

DeepSeek

deepseek/deepseek-v3.2 (10 runs)

hedge 100%

deepseek/deepseek-v4-pro (20 runs)

dog 50%

hedge 30%

cat 20%

deepseek/deepseek-v4-flash (25 runs)

hedge 40%

cat 28%

refusal 28%

Google

google/gemini-2.5-flash (15 runs)

dog 66.7%

refusal 33.3%

google/gemini-3-flash-preview (5 runs)

dog 100%

google/gemini-3.1-pro-preview (5 runs)

dog 100%

google/gemma-4-31b-it (10 runs)

hedge 100%

google/gemini-3.5-flash (10 runs)

hedge 100%

google/gemini-3.1-flash-lite (10 runs)

hedge 100%

IBM

ibm-granite/granite-4.1-8b (15 runs)

hedge 73.3%

refusal 26.7%

MiniMax

minimax/minimax-m2.5 (5 runs)

hedge 100%

minimax/minimax-m2.1 (5 runs)

hedge 100%

minimax/minimax-m2.7 (15 runs)

hedge 66.6%

cat 26.7%

minimax/minimax-m3 (20 runs)

hedge 60%

cat 20%

dog 20%

Mistral

mistralai/mistral-small-2603 (20 runs)

dog 65%

refusal 35%

MoonshotAI

moonshotai/kimi-k2.5 (15 runs)

hedge 80%

cat 13.3%

moonshotai/kimi-k2.6 (20 runs)

dog 50%

hedge 30%

cat 20%

moonshotai/kimi-k2.7-code (20 runs)

hedge 55%

dog 25%

cat 20%

NVIDIA

nvidia/nemotron-3-ultra-550b-a55b (15 runs)

hedge 73.3%

dog 26.7%

OpenAI

openai/gpt-5.2 (10 runs)

dog 50%

cat 40%

hedge 10%

openai/gpt-oss-120b (15 runs)

dog 93.3%

openai/gpt-4o-mini (15 runs)

refusal 66.7%

hedge 33.3%

openai/gpt-5.4 (20 runs)

cat 50%

hedge 35%

dog 15%

openai/gpt-5.3-chat (10 runs)

cat 60%

dog 30%

refusal 10%

openai/gpt-5.4-nano (15 runs)

hedge 93.3%

openai/gpt-5.4-mini (30 runs)

cat 36.7%

dog 33.3%

hedge 30%

openai/gpt-5.5 (20 runs)

hedge 50%

cat 50%

Qwen

qwen/qwen3-235b-a22b-2507 (10 runs)

hedge 60%

dog 40%

qwen/qwen3.5-122b-a10b (10 runs)

refusal 60%

other 40%

qwen/qwen3.5-flash-02-23 (10 runs)

refusal 100%

qwen/qwen3.6-plus (15 runs)

hedge 73.3%

dog 26.7%

qwen/qwen3.6-flash (20 runs)

cat 55%

refusal 25%

dog 15%

qwen/qwen3.6-max-preview (15 runs)

dog 66.6%

cat 26.7%

qwen/qwen3.6-27b (15 runs)

hedge 66.7%

cat 13.3%

refusal 13.3%

qwen/qwen3.7-plus (20 runs)

dog 60%

refusal 25%

hedge 15%

qwen/qwen3.7-max (20 runs)

hedge 50%

dog 50%

Sakana

sakana/fugu-ultra (15 runs)

cat 86.6%

xAI

x-ai/grok-4-fast (5 runs)

dog 100%

x-ai/grok-4.1-fast (10 runs)

dog 100%

x-ai/grok-4.20-beta (20 runs)

hedge 55%

dog 30%

cat 15%

x-ai/grok-4.20-multi-agent-beta (20 runs)

cat 55%

dog 45%

x-ai/grok-4.3 (20 runs)

cat 65%

dog 30%

Xiaomi

xiaomi/mimo-v2-omni (15 runs)

dog 80%

hedge 20%

xiaomi/mimo-v2-pro (15 runs)

hedge 66.6%

refusal 20%

Z.ai

z-ai/glm-5 (10 runs)

hedge 100%

z-ai/glm-5-turbo (25 runs)

cat 44%

hedge 40%

refusal 12%

z-ai/glm-5.1 (15 runs)

dog 66.6%

cat 26.7%

z-ai/glm-5.2 (15 runs)

hedge 93.3%