2026年6月版｜AIの進化をしっかり比較してみた

2026年6月版 LLM総合評価

順位	モデル	文章	コーディング	画像	推論力	合計
1位	Claude（Claude Code含む）	○	◎	×	◎	4
2位	GPT（Codex含む）	△	○	◎	△	3
3位	SuperGrok	×	×	○	×	-2
4位	Gemini	×	×	△	×	-3

※2026年4月～6月にかけて、実際に課金して使い込んだ上での個人的評価です。

先月の記事はコチラです！

2026年4月版｜AIの進化をざっくり比較してみた

2025年、目覚ましい進化を遂げたAIは、今年に入ってから進化の加速をさらに早めました。というわけで、300万トークン以上という時間を使って、お金を溶かし続けた私が、今のAI事情を比較・解説していこうと思います。まずは、現時点での比較表です…

2ヶ月使い込み評価を見直しました

4月の評価は検証が少なかったこともあり比較的高めでしたが、この2ヶ月、各LLMに課金してかなり使い込みました。結果、全体的に評価を下げることにしました。

理由は文章力への疑問です。ここでいう文章力とは、文章生成だけでなく、画像からのテキスト抽出・表の作成・PDF化など、日本語が関わる作業全般を指しています。

画像生成はGPTの圧勝です。デザインモックアップ・サムネ・パンフレットと、大変お世話になりました。他の追随を許さないほどの差があります。

ただ、仕事として使う場合、どんなに綺麗な画像でも編集できなければ意味がありません。テキストは文字として、画像はレイヤー分けされた状態で扱える“ベクターデータ”でなければ、実務では使いにくい。

Photoshopで加工したり、後からベクターデータとしてトレースし直したりすることもできますが、それはそれでかなりの時間を使います。急ぎの資料、デザインの土台として使う分には助かりますが、あくまで素材止まりなのです。

冒頭の表で画像を◎にしたGPTが、文章では△止まりになった理由がここにあります。出力されるのが「画像」である限り、どれだけ精度が高くても日本語として編集・加工できない。文章力の評価は、あくまで「テキストとして使えるか」が基準です。

そのベクター化の作業をAIに任せようとすると、これがかえって時間がかかる。「面倒だから」とAIに投げた結果、修正・再指示・確認のループに入り、自分でやった方が早かった、という場面が何度もありました。

Fableという体験

6月9日、Claudeの最上位モデル「Fable（フェイブル）」がリリースされました。もともと「Mythos（ミュトス）」と呼ばれ、一部企業に限定提供されていたモデルが、安全性を確保した上で一般公開されました。

しかしFableは、わずか4日後の6月13日に利用停止となりました。

理由については様々な報道がありますが、安全性に対する懸念が指摘されているようです。

私はその4日間、ほぼ張り付いていました。Claudeには利用制限があります。使い切ると数時間待たなければなりません。制限が来る、5時間待つ、また使うを繰り返しました。今思えばかなり異常ですが、それほどFableは面白かったのです。

私が普段Sonnet（ソネット）を使う理由は、素直だからです。Opus（オーパス）は非常に賢い。しかし賢すぎるがゆえに、こちらの意図を勝手に解釈することがあります。AIが方向転換してしまうと、そもそも何を作っているのか分からなくなります。多少のミスがあってもSonnetを好んで使っていたのはそのためです。

Fableはその両方を持っていました。素直で、正確で、思考力が高い。体感では、今まで使ってきたモデルとは別次元でした。

このLLM評価の文脈で言えば——Fableが示したのは、「賢さ」と「素直さ」は両立できるということです。そしてその水準に達して初めて、文章力や日本語処理の精度も本当の意味で活きてくる。Fableが復活すれば、今の評価表はまた変わるかもしれません。