最新のAIを使った文字起こしが10分100円から!
Google、IBM、MicrosoftのAIを無料で比較して好きなツールを選べます。
日本語だけでなく、英語(アメリカ、イギリス)、フランス語、ドイツ語などにも対応しています。

このエリアをクリックして音声ファイルを選択してください
最大ファイルサイズは50MBです

推奨ファイル:wav/mp3/aac/m4a/flac 最大ファイルサイズ:50MB
ファイルを加工したい方はこちらを参照してください。

最初の1分の認識結果は以下に表示されます。

Googleでの認識結果

...

IBM Watosonでの認識結果

...

Microsoftでの認識結果

マイクロソフト社の音声認識AIのアップグレード対応のため、更新作業が完了するまで休止いたします。

開発者よりひとこと

自己紹介

皆さん、こんにちは。
AI文字起こしアプリの開発者、山崎将志です。
私は、本を書く(Amazonの著者ページ)、雑誌にコラムを書く(一例として週刊パーゴルフの連載)、NHKラジオ第二『ラジオ仕事学のすすめ』の講師をする、などの仕事をしています。

開発の背景

仕事の中で文字起こし/テープ起こしが必要になる場合があります。文字起こし/テープ起こしを専門会社に依頼すると、完璧にテキストとして書き起こしていただけるので、非常に助かります。しかし、その文字起こし文章はそのまま私の原稿になるわけではなく、私は頂いた書き起こしを参考にして(ほとんど)新たに自分で文章を作ります。依頼してからの数日の期間と、それなりにかかる金額を考えると、少しばかりオーバークオリティと感じることがしばしばあります。ここまで完璧じゃなくてもいいのにと依頼する側としては思うのですが、一方の文字起こしはプロの仕事ですから、いい加減なものを納品するわけにはいかないでしょう。 ですが、時間とお金をもう少し節約できないかと思っていたのも事実です。
自分で文字起こしをすることもあります。私が個人的に参考にできればよいと考えるレベルの文字起こしをするにしても、最低でも全部の音声を聞かなければなりませんし、逐一音声を止めながらキーボードを打つ時間が必要になります。どれだけいい加減にやっても、1時間の音声ファイルを文字にするのに2時間はかかってしまいます。
また、仕事の中で英語の文字起こしをすることも頻繁にあります。ほとんどの状況で急いで対応する必要があるため、自分でテープ起こしをします。私にとって外国語である英語は日本語に比べてかなりの集中力を必要とするため、疲れますし時間も取られます。さらに、何回聞いてもわからない部分が、どうしても出てきてしまいます。 では、AIによる文字起こしツールはないかとインターネットで探してみると、マイクの前で話した音声をリアルタイムで音声認識し、書き起こしてしてくれるツールはありましたが、ICレコーダーなどで録音した音声ファイルをバッチ処理として文字起こししてくれるツールは見当たりませんでした。
無いなら自分で作ってしまおう。
そう考えて、自分で設計書を書き、エンジニアを探してプログラムを作ってもらいました。

このアプリは、もともとは私が個人的に使いたいと考えて開発したものです。
しかし、私と同じ悩みを抱えている人はたくさんいるのではないかと思います。また、私のような仕事以外にも、議事録を作る、役職者のスピーチを記録するなど、自分以外の誰かが話した比較的長い音声を文字起こしする必要がある人はもっとたくさんいるはずです。
自社でこのアプリと同等のものを開発しようとすれば、それなりの時間とお金がかかりますし、予算獲得の稟議を通すのも一苦労です。少人数で運営している組織であれば、自社開発では費用対効果が合わないでしょう。
そこで、各社のAIエンジンの利用料(残念ながら無料ではないのです)と開発費を賄う程度の料金で、誰でも利用できるようにアプリを改変し、ここに公開しました。

有効性と限界

このアプリの特徴の一つは、Google、IBM Watoson、Microsoft3社のAIエンジンをオンラインで使えるようにしていることです。各社の音声認識精度は常に進化していますので、利用したこの瞬間に最新版を使えることになります。しかも、最初の1分を比べることができますから、その時点で最もうまく音声認識ができているとみなせるツールを選んで使えることがメリットだと考えています。
ただ、これらのAIエンジンを使うと完璧な文字起こしができあがるかと言われると、現時点では完璧にはほど遠い状況です。最大の問題は句読点や改行などがなく、文字がずらりと並んでいるため可読性が非常に悪い点です。
特に句読点を入れるのはかなり難しい問題のようです。しかし、いつかはできるようになるのではと期待しています。
また、話す人の活舌が悪いとうまく認識できませんし、複数の人間が同時に話すとほとんど解析できません。NHKのニュースレベルの明瞭な音声ならば、完璧に近い解析ができていますから、この辺りは人間との差が大きいと言えます。
さらに、日本語特有の問題があります。日本語は同音異義語が多く、聞き手が相手の話に漢字をあてはめながら聞いて理解するという特徴があります。一方の英語は、聞いた音がそのまま単語です。多少乱暴に英語と日本語の違いを整理すると、「英語の理解は話し手の能力次第」、「日本語の理解は聞き手の能力次第」と言えます。この辺りが、日本語の音声認識の精度がなかなか上がらない理由ではないかと推測します。

それでも便利!

それでも、現在取りうる手段の中では、このツールによりかなり安価で効率的な文字起こしができるようになったと考えています。
私と同じような問題を抱えていらっしゃる方のお役に立てれば幸いです。
ご意見、感想、改善要望などがありましたら、お気軽に問い合わせページからお願いします。
なお利用料金は、ムーアの法則に従って今後改定していく予定です。ぜひご活用ください。

以上