今回は、前回にご紹介した爆速Groqを使って、自前のAI音声入力ツールを自作したことについてお伝えします。

AI音声入力ツールとは?

AI音声入力ツールとは、「話した内容をAIが理解し、読みやすい文章へ自動整形してくれる入力ツール」です。

ところで、誰もが持っているスマホも含めて、従来から「音声入力ツール」はありましたが、それらは「音を文字に変換する」だけで、その変換精度の差を競っていました。

また、その精度が低いが故に、キーボード入力の代わりにはならないと早々に使うのをやめている人も多かったかと思います。

また、それ以前に、文章の内容を頭である程度まとめてから話す必要があるので、この作業がお億劫だからという理由で使っていない人も多かったと思います。

私もその一人で、音声入力を使うのはスマホでLINEの返信をするぐらいでした。

また、私の場合はブラインドタッチができるので、キーボードがあるPCを使っている際には余計に音声入力の必要性を感じていませんでした。

AI音声入力ツールに話を戻しますが、現在のAI音声入力ツールのできることは「音を文字に変換する」だけではありません。

生成AIをフルに活用して、句読点の補完、話し言葉の整理、誤変換の修正、加えて、用途に合わせた文章化までやってくれます。

言うなれば、「話すだけで文章を作るツール」に近づいています。

これまで、億劫だった文章の内容を頭である程度まとめてから話す必要必要がなく、点でバラバラに思いつきで話した内容が完成度の高い文章として生成されます。

つまり、ここまで来ると、キーボード入力の代わりになるレベルではなく、十分にビジネスで利用できるツールです。

代表的なAI音声入力ツールとしては、Aqua Voice、 SuperWhisper、Typeless があります。

例えば SuperWhisper は、Mac向けの高性能音声入力ツールとして人気があります。

高速な音声認識に加えて、ホットキー起動や自動貼り付けなども出来るので一度使うと手放せないレベルです。

日常作業へ自然に組み込めるUXを持っているのがこれらのツールの強みです。

これらのAI音声入力ツールがの基本的な仕組みは、生成AIを使っての「音声認識」と「文章整形」の2段階です。

まず、Whisperのような音声認識モデルが、録音された音声を文字へ変換します。

ただし、この段階では句読点が不自然だったり、名詞が連結したりするため、その後にLLM(大規模言語モデル)が文章を読みやすく整形します。

さらにツールで、アプリへの自動貼り付け、無音検知、ホットキー起動などのUXが加わって利便性を高めます。

これらの合わせ技により「思考速度に近い入力」ができます。

キーボード入力では、頭の中の速度に手が追いつかないことがありますが、音声入力なら、考えながらそのまま文章化できます。

ご想像できると思いますが、メモ、ブログ、SNS、メール、アイデア出しなどとは相性が良いいです。

もちろん、チャット型生成AIに投げるプロンプトを作るのにも向いています。

このように「ラフに話した内容が、そのまま読みやすい文章になる」という体験が得らて慣れてくると、キーボードより音声の方が速い、あるいは便利となるわけです。

利用料金ですが、これらのサービスは、月額固定料金で提供されることが多いです。

Aqua Voice は月$10(約1,500円前後)、SuperWhisper は月$8.49(約1,300円前後)、Typeless は月$30ですが、年払いなら月$12(約1,800円前後)程度です。

その便利さを考えば、十分に安価という評価をする人も多いようです。

ところで、興味深いことにこれらのツールの中核技術は、一般に公開されているのです。

例えば、先ほども出てきましたが、OpenAI の Whisper は公開モデルです。

また、文章を成形して読みやすくするためのLLMは何種類も優秀な公開モデルが存在します。

つまり、これらの公開モデルを使えば、AI音声入力ツールは自前のツールとして使えるようになるのです。

自作したAI音声入力ツールの仕組み

前回もご紹介した「Groq」という、生成AIを高速に動かすためのクラウドサービスがあります。

これは、ChatGPT のような「完成したAIサービス」ではなく、開発者が「公開モデル」を API 経由で利用するためのものです。

具体的には、公開モデルである、Whisper(音声認識)、Llama(ラマ)、Qwen(クウェン)を爆速で実行できます。

そこで、私はAI音声入力ツールを生成AIの力を借りて自作することにしました。

利用したモデルは、 Whisper Large v3 と Llama 3.3 70B を組み合わせです。

今回私が構築したようなAPIベースの仕組みでは、利用料金は、Groq や OpenAI のAPI利用量に応じて課金されます。

そして、その利用料金は、Aqua Voice、SuperWhisper、Typelessに比べると結果的に激安になります。(恐らく普通の人なら数百円レベル)

私が作ったツールは、iPhone と Mac のショートカットから動かせます。

ショートカットワンタップで音声入力が始まり、終了したらクリップボードに生成された結果が入ります。

後は、貼り付けたい場所にペーストすればいいだけです。

爆速のGroqを使っているので、タイムラグを感じることはほとんどありません。

一般の人には、ハードル高めの作業ですが、今は生成AIがあってバイブコーディングが今後は常識になる可能性もあります。

近い将来は、完成品サービスを使う時代から、「APIを組み合わせて自分専用ツールを作る時代」へなるのかもしれません。

参考までに、私が今回作った仕組みについてご紹介します。

まず、iPhoneなどのショートカットから呼び出す「APIポイント」を作ります。

要するに、入力した音声を投げて、それを解析して結果を返してくれるものがAPIポイントです。

このAPIポイントは、Webアプリケーション上に作る必要があるので、このWebアプリケーションという基盤が必要です。

このWebアプリケーションがないと、APIは用意できないのでハードルが高いのです。

ただ、逆に言えば、ここさえクリアできれば後は楽勝と言っても過言ではありません。

ちなみに、生成AIを組み合わせた独自のAPIポイントの作成は、これも生成AIに作らせたプロンプトを使うことでほぼ一発で完成しました。

逆に、作成に苦労したのは、Macbook, iPhoneから使うショートカット作成の方です。

時間にすると3倍から5倍ぐらいかかりました(笑)

ショートカットの作成は、生成AIにはできないので、生成AIのいい加減なアドバイスを聞きながら私が自作するしかなかったからです。

ただ苦労してでもショートカットから使える様にするとものすごく便利です。

AI音声入力ツールの肝であるスピードを実現したGroq

ChatGPTを使っていると分かりますが、回答を待たされると試行錯誤が止まります。

チャットならまだ我慢できますが、音声入力だとはっきりいってアウトです。

自作ツールで実用レベルの速度を出せたのは、爆速のGroqがあったからです。

Groq が非常に高速な理由は、「LPU(Language Processing Unit)」という、生成AI専用に設計されたチップを使っているからです。

一般的な生成AIサービスの多くは GPU を使っています。

GPU は本来ゲームや画像処理など幅広い用途向けに作られた汎用チップです。

一方、Groq の LPU は、文章生成や音声認識のような「AIの推論処理」に特化して設計されているため、無駄が少なく、非常に高速に動作します。

特に、Whisper や Llama のような公開モデルを動かした時のレスポンス速度は高速と言われています。

これが、Groqを使うと爆速の理由です。

ところで、このGroqですが、私のような開発ができる人の間でもあまり使われていません。

Groqは、その性能、速度、価格、OpenAI互換API、などの特徴を考えると本来はもっと使われてもおかしくありません。

その理由は、まさに、管理画面・ドキュメント・エラー表示が全部英語、だからです。

ところが、英語だから難しそうに見えるだけで、Groqで公開モデルのAPIを使うためにやることは、実際にはAPIキー発行と課金設定ぐらいです。

このレベルの作業なら、英語が得意でなくても、生成AIに丸投げすれば対応できます。

多くの新しい生成AIサービスは英語圏のものがほとんどで、日本語化されていないため、今後もこういった「英語だから」という理由で使われないという傾向が続くと思います。

ただ、それは余りにももったいないです。

私がやったようなことは、もうすでに誰にでも容易にできる時代になっているからです。