• Newsletter from Mavericks
  • Posts
  • 次世代AIチップLPU搭載の高速チャットボットGroqが登場!Googleが同社初のオープンモデルGemmaを発表など

次世代AIチップLPU搭載の高速チャットボットGroqが登場!Googleが同社初のオープンモデルGemmaを発表など

sayhi2.ai Newsletterをご覧いただきありがとうございます!

今回は、インパクトの大きかったニュースや注目ツールの紹介に加え、「オープンLLMはクローズドLLMに追いつけるのか?」というテーマで、オープンLLM開発の現状について解説します!

1. 直近のビッグニュースTop 3

① 次世代AIチップLPU搭載の高速チャットボット「Groq」が登場

Groqは500トークン/秒で文章生成できる、GPT-3.5の5倍以上高速なチャットボットです。同名のGroq社によって開発されました。

誰でも無料で試せるデモページが公開されています。その反響は凄まじく、Groq社は2ヶ月前まで顧客ゼロだったものの、デモ公開後に3000社を超える顧客を獲得したようです。(Groqの使い方については、次のセクションにて解説しています)

同サービスが使用しているAIモデル自体は、他社が開発したオープンモデルですが、モデルの推論を「LPU (Language Processing Unit)」と呼ばれるAIチップ上で実行することにより、大幅な高速化を実現しています。

LPUはAIモデルの推論に特化したチップで、モデルの学習には使用できません。一見非常に大きな制限に思えますが、NVIDIA CEOは過去、推論の重要さについて以下のように語っています

  • NVIDIAにおける推論パートの成長は凄まじく、収益の約40%が推論経由だと推定

  • もしNVIDIAの収益の90%が学習経由で10%が推論経由であれば、AIは依然研究段階にあると言える

今後、AIの民主化に伴いアプリケーションへの統合が進むにつれて、推論パートのビジネス規模が拡大していき、LPUのような推論特化のAIチップのニーズが高まっていくと考えられます。

Groq社は、Googleが自社開発するAIチップ「TPU」の開発エンジニアにより2016年に創業されています。AIチップ開発においては、NVIDIA一強の状態が続いていますが、一矢報いる形となるのでしょうか。

② Googleが同社初のオープンモデルとなるLLM「Gemma」を発表

現在、GoogleはLLM開発でOpenAIに大きな遅れをとっています。巻き返しを図るべく、先々週にGPT-4レベルのAIモデル「Gemini 1.0 Ultra」の英語版を公開し、先週にはGPT-4の10倍の入力長をもつ「Gemini 1.5 Pro」を発表しました。

これでひと段落かと思われていた矢先、Googleから更なる発表がありました。同社初のオープンモデルとなるLLM「Gemma (ジェンマ)」を公開したのです。

Gemmaの特徴として、非常に小型であり、個人開発者でも容易に学習や推論を行える点が挙げられます。GPT-3のパラメータ数が1350億であるのに対し、Gemmaとして公開された2つのモデルのパラメータ数は、僅か20, 70億です。

性能に関しては、同サイズのオープンモデルの中で現状最高性能の「Mistral 7B」を質問応答 / 推論タスクで僅かに上回り、数学 / コーディングのタスクでは大きく上回りました。

Gemmaと他のオープンLLMとのベンチマークによる性能比較
(Gemmaのテクニカルレポートより抜粋)

オープンLLMの開発はこれまで、Metaが昨年7月に公開した「LLaMA 2」を中心に行われてきました。例えば、日本語特化のLLMとして知名度の高い「ELYZA-japanese-Llama-2-7b」「カラクリ」は共にLLaMA 2ベースです。MetaはLLaMAモデルの発展に注力しており、Meta CEOのザッカーバーグ氏は、後継モデルのLLaMA 3を訓練中だと明言しています。

しかし、GPT-4をはじめとするクローズドLLMとの性能差は依然として大きいのが実情です。後のセクションにて、その差をデータに基づき定量的に見ていきます。

③ Elevenlabsが動画にマッチした効果音を付与できるAI機能を発表

先週OpenAIが発表した動画生成AI「Sora」は世界に衝撃を与えました。これを受けて、Soraが生成した動画を使用して、更なる可能性を模索する動きが盛んになっています。

Elevenlabs社は今週、動画に効果音を付与するAI機能を発表し、併せてSoraの生成動画を用いたデモを公開しました。車のエンジン音の轟きや祭りの喧騒などが、非常に自然に再現されています。音声をONにして、是非以下の動画をご覧ください。

この機能はまだ一般公開されていませんが、こちらよりアーリーアクセスの申請を行うことが可能です。

ElevenLab社は、今年に入ってから続々と新サービスを発表しており、先日には声をシェアするプラットフォームを発表しました。ユーザーが自分の声をアップロードすると、その使用ごとに報酬を得られるという仕組みで、大きな話題を呼びました。このプラットフォームが人気を博せば、ElevenLab社は高品質な肉声のデータセットを廉価で大量に入手できることになります。

同社は、先日時価総額10億ドル越えを達成しており、音声AI領域で、最も実績のある企業と言えます。今後の動向を追うべき注目企業となりそうです。

2. SNSで話題のAIツールをピックアップ!

  • 次世代AIチップLPU搭載の500トークン/秒で文章生成可能な高速チャットボット

  • 画面右上から生成速度を確認できる

  • サインアップ不要、無料で即使用可能

  • 有料だが、10日間の無料トライアル付きでAPIサービスも提供

  • 1本の動画をアップロードするだけで簡単にモーションキャプチャを行える

  • キレッキレのダンスも非常に高い精度でトラッキングできる

  • 10秒の動画から5分程度でボーン動画が出力

  • 無料でも最大30秒の動画を使用可能。有料プランでは、上限が60秒に拡張される上、より多様な出力形式を指定できる

3. オープンLLMはクローズドLLMに追いつけるのか?

Googleがオープンモデル「Gemma」を発表し、オープンLLMの開発コミュニティが活気付いています。現状オープンLLMとクローズドLLMとの間にはどれくらいの性能差があり、どれくらいの速度で発展しているのでしょうか?その実情を理解する上で、昨年12月にARK Invest社によって作成された、以下のグラフが大変参考になります。

ARK Invest社によって作成されたオープンLLM、クローズドLLMの性能の時系列プロットを
編集したもの。縦軸はMMLUというベンチマークにおけるLLMの正答率を表す。
元の図は、こちらのX投稿より抜粋。

GPT-4を外れ値として無視すると、以下のように分析できます:

  • オープンLLM (黒)、クローズドLLM (紫) 共に、性能は線形に向上

    • ちなみに、今月Googleが公開したGemini Ultra 1.0は、MMLUでGPT-4を上回る90%の正答率を達成しており、やはり紫の点線から大きくは外れていない

  • 2023年10月時点で、オープンLLMの開発はクローズドLLMから6-12ヶ月程度遅れているが、オープンLLMの方がクローズドLLMより2倍程度進化が速い

また、赤い点線で示したように、この速度で進化を続けていけば、今から半年以内にGPT-4レベルのオープンLLMが誕生することになります。

一方でこのグラフは、GPT-4の性能が際立って高いことも示しています。残念ながらオープンLLMの開発はOpenAIのLLM開発より速いと言うことはできないでしょう。

今回発表されたGemmaは、非常に軽量なモデルであり、他の大規模なオープンLLMを性能面で上回っていません。Googleがオープンモデル開発に新規参入するための足掛かりの一つにしか過ぎないでしょう。このグラフが2024年のうちに、どのように書き換えられていくのか非常に楽しみです。

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています!

さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください!

またXでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、日々情報発信しています。是非チェックしてみてください!