水無瀬のプログラミング日記

生成AIについて調べてみる

はじめに

生成AIが話題だが、どの様なものがあって使われているのかあんまり知らないので調べる。

有名な生成AIのサービス

ざっくり調べ

それぞれどんなサービスかざっくり調べる。

テキスト生成系

ChatGPT(OpenAI)

OpenAI社が提供している対話型AIシステム。
チャットボット形式での利用の他、画像を元に質問をしたり、画像を生成したり、音声でのやり取りもできるようになった。

Claude(Anthropic)

Anthropic社が提供している対話型AIシステム。
ChatGPT同様チャットボット形式だけでなく、画像を元に質問したりそれを分析したりできる。
また、公式サイトではコード生成や多言語処理を強みとしている。
執筆時点ではClaude3がGPT-4やGeminiよりもIQが高かった。

Gemini(Google)

Google社が提供している対話型AIシステム。
前者2つ同様チャットボット形式での利用が可能。
また、同じく画像を元に質問することも可能。
執筆時点では一番最新の情報を持っていた。

画像生成系

DALL-E(OpenAI)

OpenAI社が提供している画像生成AI。
ChatGPTサービス上から利用できる。
DALL-E 3からは入力テキストに対し忠実に生成する能力が飛躍的に向上したらしい。

Midjourney(Midjourney)

Midjourneyが提供している画像生成AI。
Discordアプリ上からプロンプトを送信し画像を生成できる。

Stable Diffusion(Stability AI)

Stability AI社が開発関わっているオープンソースの画像生成AI。
ほかサービスと違い、Githubで公開されているため誰でも手元で実行することができる。
ただし、手元での実行はそこそこのスペックを要求されるため手軽ではない。

音声生成系

VALL-E(Microsoft)

Microsoft社が開発している音声合成AI。 プロンプトとした音声に基づいて、その人の声を忠実に再現した音声を生成し、テキストの読み上げをすることができる。 誰の声でもvoiceroidのようなモデルを作成でき、色々喋らせられる様なもの。

SpeechLab(SpeechLab)

SpeechLabが提供しているクラウド型音声合成/変換AI。
音声データから文字起こしを行えるだけでなく、別言語への翻訳や、翻訳した文章を話者の声で喋らせる事ができる。
他にも音声編集や別の話者で喋らせるなど音声処理について幅広く対応できる。

Resemble AI(Resemble AI)

Resemble AIが提供するクラウド型音声合成/変換AI。
音声複製、リアルタイムでの音声変換、音声編集、多言語翻訳など様々な音声処理が行える。

まとめ

今回は生成AIについて何も知らないので生成AIに聞いて教えてもらったやつを調べてみた。
調べていく中で権利が問題になっていることも知った。
難しい技術ではあるが今後に期待したい。

個人的にはSpeechLabやDALL-Eが気になったのでもうちょっと調べてみる。

Xに投稿する
Githubリンク
©2024 tminasenThis site uses Google Analytics.