AIで文字起こし！動画から音声を無料でテキスト化する方法（別途アプリのインストールも不要）

ページに含まれる広告から収益を得ることがあります

久しぶりに音声を録音して記事に使いたいと思う機会があり、後でちまちま文字起こしして記事に使えばいいやくらいのノリでiPhoneで撮影して動画に残しておいたんですが、どうせながらAIを使ってみて無料で文字起こしできないかな〜と思って試してみたらできたのでその方法を共有しておきます。

なお、iPhoneとMacを持っている環境での説明になります。

iPhoneで撮った動画を文字起こしする方法はもしかしたら他にもあると思うんですけど、この方法は何も契約せず、別途アプリのインストールもせず、無料で高速、かつ簡単にできます。あ、もう知ってたらスミマセン（笑）

AIはGoogleのGeminiを使います。

iPhoneで撮った動画をMacにAirDropする
MacのQuickTime Playerでその動画を開き、音声ファイルだけを書き出す
（QuickTime Player→「書き出す」→「オーディオのみ」）
書き出された音声ファイル（.m4a）を、Gemini（2.5 Flash）の「＋」からファイルをアップロード。
Geminiで「このファイルを最初から最後まで一言一句漏らさずに文字起こししてください」と指示して完成。

参考までに動画は6分くらいのもので、音声をものの数秒で書き起こしできました。

動画から直接文字起こしは無料だと難しそう（有料アプリならできるかも？）。

本音を言えば動画から直接文字起こしできたらいいんですが、MacのQuickTime Playerで音声だけを書き出すことでファイルを軽量化でき、アップロードや処理時間もほとんどかからないのはメリット。6分でも動画なら2〜3GBですが、音声だけならわずか7MBです。書き出しにかかる時間もほぼ一瞬でした。

Geminiの文字起こしは精度がかなり高くて、手直ししたのは全体の1％もないくらい。「え〜」とか「あ」を削除するくらいで済みました。

たぶん、文字起こしについてはAIを使った専用のアプリとか有料のWebサービスもあるんだろうけど、年に何度あるかわからない作業のためにわざわざアプリを入れるのも何だし、ファイルのアップロードに時間がかかったわりには書き出し以降は課金が必要だったり、散々な目にあわされたので、今回やってみたGeminiを使う方法は僕にぴったりでした。