デジタルエコノミー研究所

元起業家、現サラリーマンの日記

DeepSeekの衝撃について素人なりに長考(Test-Time Compute)してみた

UnsplashのSolen Feyissaが撮影した写真

はじめに

DeepSeek R1の登場はAI競争に大きな衝撃を与えたようだ。冷戦時代、米国の宇宙技術がソ連に劣後しているとの印象を植え付けた出来事を背景に、「スプートニクの瞬間」と称されることもある。

本稿執筆中にも、中国企業からDeepSeekを上回ると主張するモデルがリリースされており、今後は「はやい・やすい・うまい」大規模言語モデル(LLM)が雨後の筍のごとく登場するだろう。もしかすると、ChatGPTの登場と並び、テクノロジー史に刻まれる出来事となるかもしれない。

私は約7年間、ニュース関連のスタートアップを経営し、レコメンド、LLM、翻訳など、常にAIの応用可能性を模索してきた。昨今のブームを受け、技術へのささやかな興味とビジネスの視点を交えて、この出来事に対する洞察を深めることには大きな意義があると考えている。

私が重視するのは「ゆっくり考える」姿勢だ。急速に変化するAI界の情報は、しばしば直感(システム1)に頼らせがちだが、本当に必要なのは深い思考(システム2)である。AIがシステム2的な推論を模索する中、人間はわずかなエネルギーで数日から数ヶ月にわたり深考できる点で、機械に対して優位性を保っている(少なくとも今のうちは)。

(なお、本稿は「米国が上か、中国が上か、日本が上か」といったナショナリズムイデオロギーに関連するものではなく、あくまで現状の技術競争の把握を目的としている)

「DeepSeekの衝撃」の背景

2025年1月下旬、中国・杭州に拠点を置くDeepSeek(深度求索)社は「DeepSeek R1」をリリースした。1月27日には、このアプリが米国iOS App StoreでChatGPTを上回るダウンロード数を記録し、Nvidiaの株価に大きな影響を与えるなど、市場に強烈な衝撃を与えた。

DeepSeek‑R1は、「長考」に優れている点で知られる。すなわち、段階的な思考プロセス(チェーン・オブ・ソート)に対して強化学習を適用し、推論能力を大幅に向上させた。モデルは次第に、自律的に新たな解答戦略(いわゆる「Ahaモーメント」=「なるほど!」「わかったぞ」の瞬間)を発見し、複雑な問題に対してはより長い思考プロセスを採用するようになった。

赤字の部分がAhaモーメント。DeepSeekは「Wait, wait. Wait. That’s an aha moment I can flag here(待て待て、待てよ。それはAhaモーメントだ)」と内部で発言している。

OpenAIが先に同様の製品を投入していたが、DeepSeek R1は著しく安く、オープンな形でそれを提供することに成功した。LLMのコスト曲線に不可逆な変化を与え、AI産業をモデルのスケール以外の進化へといざなう契機を生み出した、と言えるだろう。

このセンセーションにより、これまであまり注目されなかった中国のAI研究所が国際舞台に躍り出た。DeepSeekは欧米の研究所とは一線を画す存在だ。もともと2016年にヘッジファンドとして誕生し、金融市場でのAI活用からスタートした試みが、次第にAI研究企業へと進化し、革新的なモデルを世に送り出すまでに成長した。

文脈:スケーリング則の終焉説と強化学習への注目

なぜDeepSeekの登場がここまで波紋を広げたのか整理しよう。最近、LLMの性能改善を支える支配的な法則であるスケーリング則(「大きければ大きいほどいい」というやり方)が、サチってきたという見方が優勢だったみたいだ。OpenAIの共同創設者で元チーフ・サイエンティストのイリヤ・サツケバーは、昨年末のトップ学会NeurIPS 2024で、プリトレーニング(事前学習)におけるスケーリング則は停滞していると言い、その理由の一つとして事前学習のための新しいデータが不足していることを挙げた

「石油が有限の資源であるように、インターネットにおいて人間が生成したコンテンツは有限である」と彼は言う。「このダイナミズムはいずれ、現在のモデルの学習方法からの転換を迫るだろう」

スケーリングに代わる新たな手法の提案は、これまでも山のように行われているが、事前学習と呼ばれる部分からReasoning(思考)と呼ばれる部分へと、産業の興味が移りつつあるようだ。OpenAI o1やDeepSeek R1は、チェーン・オブ・ソートという段階的な思考に対し、つどつど報酬を設定することで、出力の向上を実現できる。

マーケティングにおいて同業他社を圧倒するOpenAIは、月200ドル支払うユーザーには、o1 Proと呼ばれる最上位版を提供し、AIの最先端という印象を振りまいた。一時のiPhoneのような売り方だ。

とにかく安い

前述したようにここでDeepSeek R1が登場した。iPhoneに対して、同スペックながら魔改造されたAndroidスマホをぶつけてきたような事態だ。

DeepSeekはとにかく安い。論文によると、DeepSeek R1トークン(言語の最小単位)の入出力あたりのコストは、OpenAI o13.6%程度に過ぎない。また、姉妹モデルDeepSeek V3は、わずか2ヶ月で約560万ドルで訓練されたとされ、これは同等モデルの約50分の1のコストに相当する。

github.com

この低コストの背景には、DeepSeekが米国大手に比べ、著しく限られた計算資源で開発されたことがある。DeepSeekの母体であるヘッジファンドHigh-Flyer Quantは、対米輸出規制発効前にNVIDIAGPUを1万枚調達し、規制強化後は迂回ルートを通じてGPUを5万枚規模まで増強したと伝えられている。米国大手が利用するGPUクラスターと比べ、DeepSeekは格下のGPU(A100、H800など)しか保持ししておらず、その台数も非常に限られている、ということだ。

懐疑的な見方もある。半導体産業リサーチ会社SemiAnalysisDylan Patel, AJ Kourabi, Doug O'Laughlin, Reyk Knuhtsenは、DeepSeekの総サーバー設備投資額は最大16億ドルで、このようなクラスタの運用には94,400万ドルのコストがかかると見積もっている。この試算が正しければ、公にされている以上の投資が実行されていることになる。

また、DeepSeekが公開している数字には、研究、推論、ポストトレーニングにかかる費用が含まれていない可能性も指摘されている。さらに、中国が第三国を経由して米国のGPU規制を回避しているとの噂や、表面上開示されていない補助金の存在も囁かれている。

それにもかかわらず、DeepSeek R1は新規性に満ち、いくつかの効果的なコスト削減技術を採用している。たとえば、巨大な一つのAIモデルを構築するのではなく、得意分野ごとに小規模なモデルに分割し、それぞれに特化させる「Mixture of ExpertsMoE)」の手法を採用(*1)。さらに、強化学習によって正解に対して報酬を与える仕組みを自律的に学習させることで、大量の手作業を不要とした。

金銭的に余裕のある米国企業がやろうともしなかった低レイヤーのエンジニアリングによる性能改善も注目を浴びた。DeepSeekは、米国のAI研究所が見向きもしなかった、CUDA以下の低レベル(「機械語」が話されるダンジョンの深層階、という感じ)で修正を行い、高効率なトレーニングを実現した。

「これはDeepSeekが、その複雑さで人々を狂わせることで知られるNVIDIAが開発したソフトウェアシステムであるCUDAを深く理解できる、得体の知れない魔法使いを雇うことに成功したことを意味する」とOpenAIの元政策責任者でありAnthropic共同創業者でもあるJack Clarkは書いている。

この種のハッカー的な最適化については、Rebuild.fmのらんぶる氏ゲスト回でも触れられていて、非常に面白かった。

rebuild.fm

加えて、DeepSeekは「蒸留」という技術を使い、大きなモデルから得られた知識をより小さなモデルに効率的に移すことで、リソースの節約を実現した(この過程でChatGPTのデータを頂戴したと言われる)。

そしてオープン

DeepSeekのハッカー的なもう一つの側面がオープンであることだ。DeepSeek R1は、オープンウェイトモデル(オープンソースとは区別される)としてリリースされ、多くの詳細が共有されたテクニカルレポートが公開された。よく知られるオープンソースとオープンウェイトの違いは、AIモデルの公開形態に関するもので、オープンソースはモデルの作り方を公開するレシピのようなもので、オープンウェイトは完成した料理を提供するようなものだ。

arxiv.org

このオープン化戦略は大きな成功を収め、リリース以降、AWSAzureFireworks AIGroqHugging FaceSambaNovaTogether AIなどがDeepSeek R1の亜種をホスト。日本ではサイバーエージェントが迅速に亜種を公開している。

誰でも利用可能とすることで、LLMコモディティ化が一層進展した。もともとMetaの「Llama」無料頒布がその先駆けであったが、DeepSeekというより強力な破壊者が加わった(さらにアリババ系のQwen等も追随)。

中国側の考え方

中国のテクノロジー業界を分析するニュースレターChinaTalkのJordan Schneider, Angela Shen, Yiwenらはかつて世界で最も成功していたベンチャー投資家であるセコイア・チャイナからスピンアウトしたShixiang(拾象)が主催した1月26日の非公開セッションで、中国メディア、AI研究者、投資家、業界関係者が交わした議論をまとめている。

彼らは、DeepSeekの成功の背景として、技術的な効率性が際立っている点を挙げた。追随者の計算要件が10分の1に過ぎないという事実は、その効率性の高さを物語っている。 米国ではGPUの活用方法に無駄が多い現状がある一方で、DeepSeekはマルチモーダリティに手を広げず、言語モデルに特化することでリソースを集中させ、効率的な開発を可能にした、と彼らは言う。

DeepSeekは将来有望な若手人材を積極的に採用し、革新的で機敏な企業文化を醸成した。社員の言葉にあるように、DeepSeekの成功は若い人材の力を証明しており、次世代のAI開発には若い頭脳が不可欠であることを示唆している。

www.chinatalk.media

Nvidiaへの影響

この出来事で最も影響を受けたのは、株価が一時急落したNvidiaである。SemianalysisDylan Patelは、MIT講師であるLex Fridmanがホストを務める技術系ポッドキャスト出演し、DeepSeekの登場がNvidiaのビジネスにいくつかの影響を及ぼす可能性を指摘した。もしDeepSeekが低コストで優れたモデルを実証すれば、大手ハイテク企業(Nvidiaの米国最大の顧客)がAIへの投資を削減し、これが株価急落の一因となる可能性がある。しかし、これに対しては「ジェボンズのパラドクス」も指摘される。技術が飛躍的に効率化すれば、その利用は爆発的に増加し、結果として全体需要が拡大する可能性がある。

縦軸・価格が半分(燃料効率が2倍)になったときの横軸・数量(燃料使用量)の増え方が2倍以上であるため、全体として燃料需要は増える。ジェボンズパラドックスが発生する。出典:Weikimedia Commons

Patel自身は、「DeepSeekの登場はNvidiaに対する直接的な競合を意味するものではなく、あくまでNvidiaを利用する別の企業の台頭である」と語っている。AIがより進歩すればするほど、Nvidiaは最高の場所にいることが強調されるというのだ。

中長期的には、中国や非西欧諸国において、専用半導体や独自技術スタックがNvidiaのシェアを侵食する可能性も否定できない。ChinaTalkがまとめたセッションでは、参加者はNvidiaの強みは長年にわたり築かれたエコシステムにあるとする一方、技術が成熟・コモディティ化した際には、各種ASIC(特定用途向け集積回路)チップなど新たな競争軸が出現するだろうと指摘している。

アプリケーションレイヤーのカンブリア紀

DeepSeekの登場がビジネスに与える影響は、単に基盤モデルそのものだけでなく、その上に構築されるアプリケーションにも及ぶ。スタンフォード大学のアンドリュー・ン教授は、「基盤モデルのトレーニングやAPIアクセスの販売は厳しい状況にある。(中略)一方で、これらのモデル上に構築されるアプリケーションは、顧客サービスのチャットボット、電子メール要約、AI医師、法的文書アシスタントなど、多岐にわたるビジネスチャンスを生み出す」と述べている。

www.deeplearning.ai

(※ただし、アンドリューはAmazonの取締役やAIベンチャーキャピタルの創業者も兼ねており、完全な第三者と捉えるのは難しいとの指摘もある。)

大手ベンチャーキャピタルセコイア・キャピタルSonya HuangPat Gradyは、エッセイThe Agentic Reasoning Era Beginsで、「売上高10億ドル以上のアプリケーション・レイヤー企業は、クラウド移行期にもモバイル移行期にも各20社誕生した」と述べ、AIの未来は数兆ドル規模のサービス市場をターゲットにしたアプリケーションにあると示唆している。このシフトは既存のSaaS企業に大きな影響を与える可能性があるという。

DeepSeekの創業者である梁文峰は、異なる見方をしているかもしれない。「現時点では『技術イノベーションの爆発期』であり、アプリの爆発期ではないと考えています。長期的には、我々の技術や成果物を産業界に直接使ってもらい、DeepSeekは基盤モデルや先端研究だけに集中し、他社がBtoBBtoCの製品を作るエコシステムを目指しています。我々自身がアプリを作る必要がなくなるのが理想ですね」と彼は中国メディアの暗涌Wavesの于丽丽の取材に答えている(翻訳:刘旌)。

未来は明るい

LLMのコストは今後もさらに低下していくと予測される。米ベンチャーキャピタルa16zGuido Appenzellerは、推論コストが急速に下がる現象「LLMflation」を報告しており、優れたGPU、モデルの量子化、ソフトウェア最適化、そして小型で効率的なモデルチューニングなどにより、同等品質のモデルが毎年約10倍低コストで実現されていると試算している。

a16z.com

そしてこの傾向はDeepSeekの登場で拍車がかかったのかもしれない。非営利団体Lmsysが提供するレーティングスコアに対するモデルのプライシングでは、GPT-4と同等の性能に設定される価格が1.5年のうちに1000倍安くなったことがわかっている(下図)。DeepSeek R1は同等のレーティングのOpen AI o1より27倍安く提供している。この物差しでは、121日に出たGemini 2.0 Flash Thinkingが、DeepSeek R1V3を上回るコスパ王である。

Lmsys elo vs model pricing (Jan 2025).

また、LLMが人間設定のベンチマークをクリアする速度も加速しており、OpenAIの研究者Jason Weiは「最近のベンチマーク飽和の早さは異常だ」と指摘。AIが最高スコアを獲得するまでの時間は劇的に短縮され、いわばラスボス的な役割を果たしているHuman Last Examination(HLE、人類最後の試験)さえも、近い将来解明されてしまうかもしれない。

HLEには、約3,000問に及ぶ問題が含まれており、数学、物理学、歴史、文学、哲学など100以上の学問分野にまたがり、さまざまな専門知識と高度な推論が要求される。世界中の500以上の機関に所属する専門家(教授、研究者、大学院生など)によって提出・審査され、何段階にもわたるレビューを経て採用されている)

さらに、一般消費者が生成AIに触れる機会は世界的に拡大している。ChatGPTはその代表例であり、分析会社Similarwebのデータによると、2024年初頭は利用が停滞していたものの、変曲点を迎え、現在は競合他社を大きく引き離す勢いで、モバイル・デスクトップ合わせて40億に迫るウェブサイト訪問者数を誇る。もはや、専門家だけでなく一般層にも熱狂が広がっている。

ChatGPT とその競合のウェブサイト訪問者数(モバイルとデスクトップ). Source: SimilarWeb

我々は、歴史的に非常に興味深い瞬間を無自覚に生きているのかもしれない。サツケバーは先日の主要会議で、「AIシステムが賢くなり始め、超知能を達成するのは時間の問題だ。将来的には、人工超知能(ASI)が限られたデータから複雑な概念を理解し、混乱が解消されるだろう」と語った。また、システムが推論を深めるほど、人間の理解を超えていくとし、その例として、AlphaZeroのような高度なAIが、囲碁、将棋、チェスの最高の人間プレイヤーにとってさえも予測不可能な存在になっていると述べた。

AlphaZeroのような「人間の知識に依拠せず知識を生み出す機械」が、より広範な領域へ進出する日も近いだろう。また、本稿では触れないがLLMAIのムーブメントのほんの一地点にすぎない。

遅かれ早かれ、ものすごいことになるだろう。このような時代を生きていることを前向きに捉え、楽しんでいきたい、と私は思っている。

注釈

1: Multi-head Latent AttentionMLA)とMixture of ExpertsMoE)を含むDeepSeekのモデルアーキテクチャーは、推論中のメモリプレッシャーを劇的に軽減する。DeepSeekMoEモデルを利用することで、学習と推論のコストを劇的に削減。学習や推論時にすべてのパラメータをアクティブにするのではなく、サブセットのみをアクティブにし、異なるタスクに対してどのエキスパートにルーティングすべきかをモデルが学習。DeepSeekのモデルには6,000億を超えるパラメータがあるが、一度に活性化されるのは約370億だけであり、すべてのパラメータを活性化するLlamaのようなモデルと比べて計算コストが削減される。DeepSeekはこれを「極めてうまく」行っているとされる。