大量のボイス切り出し、まだ手作業ですか?
「台本」と「音声」を入れるだけ。
AIが“耳”となり、セリフ単位で自動分割。
ゲーム開発・ボイスドラマ制作の現場を変える、Whisper搭載・自動音声分離ツール。
音声認識機能を利用し、音声データと台本を比較して、自動的にファイルの切り出しと、指定したファイル名にネーミングを行うソフトです。
これまで煩雑だった手作業が画期的に簡単になります。
2026年発売予定
導入事例・メリット(Before/After)
(Before: 従来の手作業)
- 波形を見ながら無音部分を探して手動カット…
- 数百ファイルのファイル名を一つ一つリネーム…
- 「ファイル名と中身が違う」というミスが発生…
(After: VoiceTrim Studio)
- 完全自動化: 台本CSVを読み込ませるだけで、指定したファイル名で保存。
- 高精度マッチング: AIが内容を聞き取り、台詞と照合してカット位置を特定。
- ミス撲滅: 台本と音声の内容が一致しない箇所はスキップ、品質管理も確実に。
主な機能(Feature)
“音”と“文字”を繋ぐ、4つのコア機能。
収録データの整理を自動化し、クリエイティブな作業に時間を使いましょう。
1. OpenAI Whisper (large-v3) による高精度認識
世界最高峰の音声認識モデル「Whisper (large-v3)」をエンジンに採用。滑舌の甘いセリフや、感情が入った激しい演技でも、AIが文脈を理解して正確にテキスト化し、台本とマッチングさせます。
2. CSV台本連携によるファイル名自動付与
「台詞」と「出力ファイル名」を記述したCSVファイルを読み込むだけで、切り出した音声に自動で正しいファイル名を付けて保存します。もうリネーム作業に追われることはありません。
3. プロ仕様の波形制御(無音ゲート&パディング)
単に文字で切るだけではありません。「無音しきい値(-40dBなど)」「無音継続時間」に加え、切り出し前後の「パディング(余白)」もミリ秒単位で調整可能。ブツ切り感のない、そのまま実装できる品質で出力します。
4. 完全ローカル処理で、機密情報も安心
音声データはすべてMac内のローカル環境で処理されます。未発表タイトルのシナリオや声優の未公開ボイスが外部サーバーに送信されることは一切ありません。
技術解説 (Technical Deep Dive)
AI Matching & Silence Gate Logic
「認識」と「波形」のハイブリッド判定
一般的な「無音検出(Strip Silence)」ツールは、音が小さくなった場所で切るだけのため、セリフの途中で切れてしまったり、環境ノイズで切れないことが多々あります。VoiceTrim Studioは、**「AIによる意味理解」と「信号処理による波形判定」**を組み合わせることで、人間が行うような自然な切り出しを実現しています。
処理フロー:3つのステップ
ステップ1:Whisperによるロングオーディオ認識 まず、長い収録音声全体をWhisper AIが解析し、どこで何が話されているかという「タイムスタンプ付きテキストデータ」を生成します。
ステップ2:スクリプト・マッチング CSV台本のテキストと、AIが認識したテキストを照合(ファジーマッチング)します。一字一句合っている必要はありません。「マッチング閾値」アルゴリズムにより、多少のアドリブや言い回しの違いがあっても、高い精度で対応するセリフ区間を特定します。
ステップ3:シグナル・リファインメント AIが特定した大まかな区間に対し、さらに「無音しきい値」と「パディング設定」を適用して微調整を行います。これにより、AI特有のタイムラグを補正し、語頭のアタックや語尾の余韻を美しく残した状態で切り出します。
動作スペック
- 対応OS:macOS (Apple Silicon推奨)
- AIモデル:Whisper large-v3 (初回起動時に自動DL: 約1.5GB)
- 入力形式:WAV (推奨), AIFF, MP3 等
- 必要なもの:音声ファイル、台本CSVファイル
※音声データと台本のマッチング率は、音声データと台本の内容によって変わります。通常90%程度のマッチング率、悪くても70~80%はマッチします。
「擬音」や「特殊な固有名詞」の多い台本はマッチングに失敗しやすいです。
Frequently asked questions
A1: はい、大丈夫です。AIは音の響きと文脈を考慮するため、例えば「本気(マジ)」と読んでいたり、ひらがな表記であっても、高い確率でマッチング可能です。認識制度は「マッチング閾値」パラメータで調整できます。
A2: Whisper large-v3モデルは非常にダイナミックレンジが広く、ささやき声から絶叫まで認識可能です。ノイズが多い場合は「無音しきい値」を調整することで精度を高められます。
A3: 高精度なlargeモデルを使用するため、CPU/GPU性能に依存します。長い音声の場合、実時間の数分の一から同等程度の時間がかかる場合がありますが、放置しておけば完了するため、作業効率は圧倒的に向上します。
A4: はい。AIモデルのダウンロード以外でインターネット通信は行いません。音声データが外部に流出することはありません。