最新のAIを使った文字起こしが10分100円から!
Google、IBM、MicrosoftのAIを無料で比較して好きなツールを選べます。
日本語だけでなく、英語(アメリカ、イギリス)、フランス語、ドイツ語などにも対応しています。

AI(人工知能)による文字起こし/音声認識ウェブアプリの使い方

サービス概要

このアプリは、AI(人工知能)を使って音声ファイルを文字起こしし、結果をテキストファイルとして提供するサービスです。

文字起こしサービスの主な流れ

主な流れは、以下のビデオ(全3分20秒・音声なし)をご覧ください。

(1)音声ファイルの準備

まず、文字起こしをしたい音声ファイルを用意してください。 音声ファイルのフォーマット(エンコード)については、こちらを、サイズについてはこちらをご参照ください。

(2)音声ファイルのアップロード

ファイルが用意できたら、トップページ左上にある「このエリアをクリックして音声ファイルを選択してください」と書かれたエリアをクリックすると、PCのローカルファイルを選択できる画面が表示されますので、ここから文字起こしをするファイルを選んでください。点線枠のエリアにファイルをドラッグアンドドロップすることでもファイルを選択できます。なお、本アプリが文字起こしをするファイルのサイズは最大50MBです。

(3)言語の選択

ファイル内の音声で使われている言語を、右上のドロップダウンリストから選んでください。現時点(2018年12月現在)音声認識可能な言語は、日本語/アメリカ英語/イギリス英語/ドイツ語/フランス語/スペイン語/韓国語です。 なお、このサービスは翻訳サービスではない点をご承知おき下さい。

(4)最初の一分間の音声認識

画面左上の二段目にある「アップロードして最初の1分をテキスト化する」ボタンをクリックすると、アップロードされた音声ファイルの最初の1分間をあなたが選択した言語でテキスト化します。 Google、IBM Watson、Microsoftの音声認識ソフトウェアが処理した結果が、それぞれ下の3つのボックスに表示されます。 ファイルのフォーマットや音声の精度によって文字認識が行われなかったり、"Recognize Error"と表示されたりすることがあります。 その場合は、何らかの理由で当該AIでは処理ができないファイルです。

(5)ファイル全体の音声認識

Google、IBM Watson、MicrosoftのAIが音声認識した結果を見て、その中から最も的確に音声認識できていると考えられるものを選んでください。 各ボックスの下に配置されたボタンのうち一つを押すと、選択した音声認識ソフトウェアがファイル全体を文字起こしする処理へと進みます。 なお、最初の1分が処理できなかったファイルは、ファイル全体の音声認識もできません。最初の1分が正しく認識されたAIサービスを選択するようにしてください。

(6)ユーザログイン

ファイル全体を文字起こしする処理に入る前に、ログインをお願いします。 本サービスでは、新規にIDやパスワードを設定することなく、FacebookまたはGoogleのアカウントでログインすることができます。 このログインにより、本サービスではユーザID、メールアドレス、プロフィール情報のみを取得します。これは、後述するマイページでのファイル管理や、エラーや不具合による返金の申し出があった際に当社が履歴を確認するため、その他必要に応じて当社から連絡するために取得します。 自動的にSNSに投稿したり、利用状況を公開したりなどの行為は一切行いませんので、ご安心ください。

(7)ファイル全体の音声認識の実行

ログインが成功すると、文字起こしの実行画面に移ります。「文字起こしを開始する」ボタンをクリックすると、ファイル全体の音声認識処理がスタートします。推定処理時間は、画面左側の説明文中で表示されます。 処理が完了するまで、ブラウザを閉じないでください。処理が中断されてしまいます。

(8)処理結果(一部)の確認とサービス利用料のお支払い

音声認識が完了するとテキストファイルが生成されます。ファイルをダウンロードするためには料金をお支払いいただきます。決済前にどのような内容が生成されているかを確認していただくため、ファイルの一部を閲覧することができます。この内容を確認したうえで、料金を支払うかどうかをご判断ください。
「決済してダウンロード」ボタンを押すと、支払い画面が表示されます。画面左下にあるリンクから「利用規約」が閲覧できます。利用規約の内容に同意いただける場合は、そのリンクの左側にあるチェックボックスをチェックしてください。 チェックボックスがオンになると、右上の各種支払いツールのボタンがアクティブになります。支払い方法を選択し、表示された料金をお支払いください。
ださい。利用料金は、音声時間1分当たりの単価×音声時間です。1分未満の時間は切り上げます。2018年12月時点での料金は、音声時間10分までは100円、10分を超える部分は追加1分につき10円です(金額は全て税込)。
なお、クーポンをお持ちの方は、画面右下にあるボックスにクーポンコードを入力し、「認証する」ボタンを押してください。

(9)文字起こしの結果生成されたテキストファイルのダウンロード

決済が完了すると、画面右側にダウンロード用のURLとダウンロードボタンが表示されます。ボタンをクリックすると、ローカルPCへテキストファイルをダウンロードすることができます。 なお、生成されたテキストファイルは7日後に自動的にサーバから削除されます。すぐに削除したい方は後述するMyPage(マイページ)で削除処理ができます。またMyPageでもテキストファイルのダウンロードができます。

(10)複数の音声認識ソフトウェアでの文字起こし

ファイル全体の音声認識を行う際には、ブラウザの新しいタブが開かれ、最初の一分間の音声認識結果が表示されたタブはブラウザに残っています。しかし、同じファイルを別の企業が提供する音声認識ソフトウェアを使って全体の音声認識を行う場合は、「画面をリフレッシュしてやり直す」ボタンを押し、改めて再度文字起こししたいファイルをアップロードしてください。 なお、この際には「アップロードして最初の1分をテキスト化する」処理を飛ばして、直接ページ下に配置された各社のサービスで「全体をテキスト化する」ボタンを押すことでファイル全体の音声認識処理に進むことができます。

(11)MyPage

画面上部右側に配置されたメニューにあるリンクから、「MyPage」に行くことができます。MyPageでは次のことができます。
  • 過去に本サービスで行った文字起こし処理の一覧の閲覧
  • 過去の処理に対する決済、およびテキストファイルのダウンロード(作成から7日以内)
  • 生成されたテキストファイルの削除
  • その他音声認識/文字起こしに役立つ情報

    (1)文字起こしする音声ファイルの種類

    現時点(2018年12月現在)で読み込み可能な音声ファイルのエンコードは、wav/mp3/aac/m4a/flac/oggです。 お手持ちのファイルが上記エンコード以外の場合、また動画ファイルの文字起こしをお考えの場合はこちらをご参照ください。 音声ファイルのエンコードについて詳しく知りたい方は、グーグルが分かりやすく説明してくれていますので、こちらをご参照ください。

    (2)文字起こしする音声ファイルのサイズ

    アプリの仕様上、音声ファイルサイズ上限は50MBですが、弊社のサーバの処理速度、ユーザのネットワーク環境、PCの性能などが複雑に絡み合い、サイズの大きいファイルの処理に著しく時間がかかったり、場合によっては異常終了することもあります。 そのため、音声時間を最大60分程度にファイルをカットし、別々に文字起こし処理を行うことをお勧めします。音声ファイルのカット方法をお探しの方はこちらでご紹介するサービスをお試しください。

    (3)文字起こし用音声ファイルのエンコード方法

    音声ファイルを無料で希望のエンコーディングに変換してくれるサービスをご紹介します。 Audio Converterというウェブアプリを使ってみてください。
    なお、上記でご紹介したサービスは弊社が提供するものではありません。上記サービスの利用規約をご理解の上で利用することをお勧めします。 万が一、上記サービスを利用する過程、または利用した結果、何らかの問題が発生したとしても弊社は一切責任を負いません。あらかじめご了承ください。

    (4)文字起こし用音声ファイルのカット方法

    音声ファイルを無料で希望のエンコードに変換してくれるサービスをご紹介します。 Audio Cutterというウェブアプリを使ってみてください。
    なお、上記でご紹介したサービスは弊社が提供するものではありません。上記サービスの利用規約をご理解の上で利用することをお勧めします。 万が一、上記サービスを利用する過程、または利用した結果、何らかの問題が発生したとしても弊社は一切責任を負いません。あらかじめご了承ください。

    (5)文字起こしの精度を上げるヒント

    文字起こしの精度は、音質(特に音圧)、ノイズの量、発話の明瞭さ、固有名詞の数に左右されます。またこの順番で精度に影響を与えます。 弊社の実験では、例えばNHKのニュースをテレビからライン録りし、16kHzのflacでエンコードした音声ファイルを文字起こしすると、Google、IBM Watson、Microsoftの3社のサービス全てで、概ね95%前後の精度で認識してくれます。 また、mp3ファイルであっても、アナウンサーやナレーターが一人で話す音声を文字起こししても、同様の結果が得られます。 インターネット上でボイスサンプルをダウンロードして試してみてください。
    ただ実際問題として、このレベルの音声を、会議・打ち合わせや取材など、仕事の現場で録ることは簡単ではありません。それでも、状況によっては音声品質を上げるために工夫できることもあります。グーグルがそのポイントをまとめてくれています。こちらをご参照ください。
    なお本アプリの本質は、ユーザにGoogle、IBM Watoson、Microsoft各社が提供する音声認識ソフトウェアとの接続を提供するサービスです。 本アプリの処理は、ユーザが用意した音声ファイルを、各社の音声認識ソフトウェアに処理を渡し、返ってきた結果をテキスト化してユーザに提供するというものです。 音声認識結果は、ユーザ自身が用意した音声ファイルの品質と、各社が提供している音声認識ソフトウェアの精度に依存します。したがって当社は、音声認識結果がユーザがアップロードした音声ファイルから生成されたものであると確認できる限りにおいて、音声認識結果に対して何ら責任を負わないことを、あらかじめご了承ください。 また、音声ファイル内で話されている言語を正しく選択するのもユーザの責任です。誤った言語を選択した結果、音声認識されたテキストが期待通りの内容でなかったとしても、当社は何ら責任を負わないことを、予めご了承ください。
    期待外れの結果を招くことを防ぐため、無料で提供されている最初の1分の文字起こし結果を十分に確認した上で、ファイル全体の文字起こしを行ってください。

    (6)YouTube動画を文字起こしする方法

    YouTube動画を文字起こし/音声認識をしたいというリクエストをしばしばいただきます。しかし、すでにYoutubeの基本機能として字幕サービスが用意されていますので、そちらをお使いいただくのがベストと考えています。
    YouTube動画画面の少し下にあるメニューの「・・・」をクリックすると「文字起こしを開く」というメニューが表示されます。これを選択すると、画面右上に結果がテキストとして表示されます。これをコピーし、必要に応じてタイムスタンプを削除すれば、本ウェブアプリのGoogle AIを使った音声認識結果と同等のテキストとして利用できます。

    (7)リアルタイムで音声を文字にする方法

    PCやスマホのマイクを使って、話している声をリアルタイムで文字にしたいという声も多く頂きます。しかし、すでに優れたサービスが存在していますので、こちらをお使いいただくのがベストと考えています。 Speechnotes(スピーチノート)というウェブアプリを使ってみてください。


    以上