こんにちは。こあべです。
ずっとしたかった音声テキスト化(自動文字起こし)をやってみたメモです。
Windows PC環境でAudio-Virtual Cableを導入、MP3を再生しながらGoogleドキュメントの音声認識を使用してテキスト化してみました。
参考にさせていただいたのはこちら。
まずはWindowsにAudio-Virtual Cableを導入。
パソコン上の再生ソフトで再生した音声をあたかもPCマイク端子に入れた音声のように認識させる仮想音声ケーブル。
へぇすごい。
その後、出力、入力、録音設定を変更。
するとGoogleドキュメント上で音声ファイルの認識→テキスト化が可能になりました。
意外と簡単。よく読めばできます。
これで議事録できねぇかな?そんな野望…
方法はいつもの通り詳細を教えてくれる方にお任せして、機能を使ってみたところの感想。
・1倍速認識必須
→ファイルをドロップして瞬時に変換終了…!なんてのないかな?
・出力先を仮想マイクに振っているので元音声を聞けない
→ディクテーションしながらの修正ができない(再生と同時の文字入力は可能)
・他ウィンドウをアクティブにすると認識が都度ストップする
→文字起こし専用機材が必要
・会議モードのICレコーダーで録音した程度の音声レベルでは認識精度さえできない
→参加者の音声を個別マイクで拾い、集約して専用機材に入れ込む必要がある
・個人レベルでのフルスペック導入は無理ゲー←
この方法しか試していませんが、結局自分で起こした方が確実なので今の時点では導入するだけ時間の無駄でしょうか。
やりたいことに技術が追い付いてこないパターン…今後の進歩に期待です。
成長産業ぽい。
AIが映像のハイライト編集できる時代、いずれ会議の重要な部分を切り貼りできる特化型が出てきても不思議じゃない。
ソースネクストさん得意かなこういうの?
今回は.mp3の認識を試みましたが、
・これスマホ版documentでできないの?
・ICレコーダーで録音中の音を3.5㎜で同時出力、データを残しつつリアタイでテキスト化できないの?
これら試してみたいです。文字起こし専用機材を会議に持ち込むのは仰々しいですしね。
Audio-Virtual Cable を使用しないシャドーイング方式の方もいらっしゃるもよう。
ナッジ的でこの方法は確実かもしれない笑
いろんな「やりたい」ことやってみるのほんとにおもしろい。
今後もなにかしらジタバタしていく所存笑