【無料での話者分離付き文字起こし(ローカル実行)手順】 ■ 1. 必要ソフトの準備 - Python 3.9 以降(Windowsは Anaconda でもOK) - 端末で以下を順に実行 1) まず PyTorch をインストール(環境に合わせて公式サイトのコマンドを使用) https://pytorch.org/ 2) その後、requirements.txt を使って必要ライブラリを導入 pip install -r requirements.txt ■ 2. 音声ファイル - 本プロジェクトでは m4a → wav 変換済みのファイルや 10分ごとの分割ファイルをご用意しています。 - 変換済み: audio_converted.wav - 分割ファイル: chunks/part_01.wav 〜 ■ 3. 実行方法(例) - 単一ファイルで処理(話者2名、Whisperモデル=small、出力=out.docx) python transcribe_diarize_to_word.py --audio "audio_converted.wav" --out "out.docx" --speakers 2 --model small - 分割ファイルごとに処理してから Word を結合する場合は、出力ファイル名を変えて複数回実行してください。 (Wordの結合はお手元で行ってください) ■ 4. モデルサイズの目安 - tiny/base: 速いが精度低め - small: バランス良い(推奨) - medium/large: 精度高め(重い) ■ 5. 注意事項 - Resemblyzer を用いた話者分離は「おおよその」2名クラスタリングです。正確な固有話者識別ではありません。 - ノイズが大きい環境や重なり発話が多い場合は精度が低下します。 - 正式な商用利用では、GoogleやAssemblyAIなどのSaaSのほうが安定する場合があります。 ■ 6. トラブルシューティング - torch の導入に失敗する → pytorch.org の指示に従い、CUDA 有無に合わせたコマンドで再インストール - "No module named ..." → pip install で不足パッケージを追加 - Whisper が重い → --model を base や tiny に変更