【無料での話者分離付き文字起こし（ローカル実行）手順】

■ 1. 必要ソフトの準備
- Python 3.9 以降（Windowsは Anaconda でもOK）
- 端末で以下を順に実行
  1) まず PyTorch をインストール（環境に合わせて公式サイトのコマンドを使用）
     https://pytorch.org/
  2) その後、requirements.txt を使って必要ライブラリを導入
     pip install -r requirements.txt

■ 2. 音声ファイル
- 本プロジェクトでは m4a → wav 変換済みのファイルや 10分ごとの分割ファイルをご用意しています。
  - 変換済み: audio_converted.wav
  - 分割ファイル: chunks/part_01.wav 〜

■ 3. 実行方法（例）
- 単一ファイルで処理（話者2名、Whisperモデル=small、出力=out.docx）
  python transcribe_diarize_to_word.py --audio "audio_converted.wav" --out "out.docx" --speakers 2 --model small

- 分割ファイルごとに処理してから Word を結合する場合は、出力ファイル名を変えて複数回実行してください。
  （Wordの結合はお手元で行ってください）

■ 4. モデルサイズの目安
- tiny/base: 速いが精度低め
- small: バランス良い（推奨）
- medium/large: 精度高め（重い）

■ 5. 注意事項
- Resemblyzer を用いた話者分離は「おおよその」2名クラスタリングです。正確な固有話者識別ではありません。
- ノイズが大きい環境や重なり発話が多い場合は精度が低下します。
- 正式な商用利用では、GoogleやAssemblyAIなどのSaaSのほうが安定する場合があります。

■ 6. トラブルシューティング
- torch の導入に失敗する → pytorch.org の指示に従い、CUDA 有無に合わせたコマンドで再インストール
- "No module named ..." → pip install で不足パッケージを追加
- Whisper が重い → --model を base や tiny に変更