こんにちは!みやしんです。
今回は音声データをテキストに変換する方法をご紹介します🤗
SpeechRecognitionというライブラリを使って変換します。
丁度良い音声データがない方は、こちらの記事で動画から音声データを抽出する方法をご紹介していますので、ご参考にしてみてください🌟
では、早速はじめていきましょう!!

Pythonのライブラリって色々なことができてホント便利ですね!
PythonやAIをもっと勉強したい方🤗

FLACのダウンロード
まずはFLACをダウンロードします。
FLACとは?
Free Lossless Audio Codecの略です。音声データの圧縮やファイル形式で音質が良いのが特徴です。コーデックライブラリをオープンソースで入手可能なため、今回はそれを使います。
FLACのダウンロードサイトはこちらです。
アクセスしましたら「download」をクリックします。

続いて、Windowsであれば「FLAC for Windows」をクリックします。

するとダウンロードファイルの一覧が表示されます。

その中で一番新しいものを選びます。今回はflac-1.2.3-win.zipを選びました。

ファイルをダウンロードして解凍します。

フォルダの中身を確認します。

win64フォルダーを開きます。すると「flac.exe」が入っていますのでこれをコピーします。

ここからが特殊ですので、しっかり操作してください。
コピーしたflac.exeを「C:\Windows\System32」内にペーストします。

そして、ファイル名を「flac.exe」→「flac」に変更します。拡張子を削除してください。
これは、ソースコードによると、 exe拡張子のないflacを検索しているからです。それが失敗した場合は、モジュールフォルダで特定の名前(flac-win32.exe )のファイルを探すようになっています。

これでflacの準備ができました!
SpeechRecognitionのインストール
pipの場合は、
pip install speechrecognition
Anacondaの場合は、
conda install -c conda-forge speechrecognition
テキストに変換する音声
こちらの音声をテキストに変換します!
ファイル名を、”test.wav” にしています。
サンプルコード
import speech_recognition as sr
r = sr.Recognizer()
with sr.AudioFile("test.wav") as source:
audio = r.record(source)
text = r.recognize_google(audio, language='ja-JP')
print(text)
実行結果

正しくテキストに変換することができました!
参考) エラーが出たら
OSError: FLAC conversion utility not available – consider installing the FLAC command line application by running `apt-get install flac` or your operating system’s equivalent
上記のエラーが出ましたらFLACに上手くアクセスできていませんので、もう「FLACのダウンロード」に戻っていただいて、再度やりなおしてみてください。
PythonやAIをもっと勉強したい方🤗

コメント