Whisperで無料音声文字起こしをする方法【Google Colaboratory】

AI & IoT

はじめに

さて今回は、Whisperを使って音声データから無料文字起こしをする方法についてまとめたいとい思います。

音声データの文字起こしなんて無料でできるの?!と思ったそこのあなた!実は誰でも簡単にできてしまうんですね~

まぁ無料で使える方法はいくつかありますが、今回はその中でもGoogle Colaboratory(Google Colab)を使った方法についてまとめます。

色々な場面で使える機会があると思いますので、やり方は覚えておいて損なしです!!

Whisperとは

それではさっそく手順です!といきたいところですが、まずは今回のメインである「Whisper」についてしっかりと理解を深めておきましょう。

Whisperは、OpenAIによって開発された高度な音声認識モデルです。このモデルは、68万時間以上の多言語音声データを用いてトレーニングされており、非常に高精度な音声からテキストへの変換が可能です。多目的に利用できるモデルであり、会話の記録、音声からの文字起こし、字幕生成など、さまざまな用途に対応しています。

  • 多言語対応
    Whisperは複数の言語に対応しており、グローバルなユーザーが利用できます。これにより、異なる言語の音声データを一つのモデルで処理することが可能です。英語だけでなく、日本語にも精度良く対応できるというのはやはり大きなポイントですよね。
  • 高精度
    68万時間以上の多言語音声データでトレーニングされたWhisperは、高い認識精度を誇ります。これにより、雑音や方言が含まれる音声でも正確にテキストに変換できます。皆さん使っていただけると分かるかと思いますが、認識精度はかなり高いです。正直びっくりします。
  • 多用途性
    Whisperは音声認識だけでなく、会話の翻訳や字幕生成など、複数のタスクに対応しています。これにより、ビジネスからエンターテイメントまで、幅広い用途で利用可能です。この辺はまぁ使い方次第ですが、色々な用途に活用できそうですよね??アイデアが膨らんで止まりません・・・。

Whisperには利用可能な5つのモデルがあり、それぞれ特徴が異なります。まぁ基本的には一番精度の高いモデルを使っておけば良い気もしますが・・・、しっかりとそれぞれの特徴をおさえ、目的に応じて最適なモデルを選択できるようにしましょう。

  • Tiny:
    最も小型のモデルで、軽量かつ高速に動作。
  • Base:
    Tinyよりも高い精度を提供。
  • Small:
    中規模のモデル。速度も精度も真ん中。
  • Medium:
    大規模なモデルで高い精度を提供。
  • Large:
    最も大規模で高性能なモデル。非常に高い精度を提供。

まぁ色々と言いましたが、「Tiny」が最も高速だが精度の悪いモデル、「Large」が最も遅いが精度の良いモデル、というわけです。

ちなみに主観ですが、「Tiny」は中々に精度が悪いです。使うなら「Large」一択かなと思っています。速度もそこまで遅くないですしね。

Google Colaboratory:音声文字起こし手順

さて、それでは本題。

Google Colaboratory(Google Colab)を使ってWhisperをインストールし、音声文字起こしを試してみましょう。

1. Google Colaboratory(Google Colab)にアクセス

まずはGoogle Colaboratory(Google Colab)にアクセスしましょう。以下からアクセス可能です。

2. ノートブックを新規作成

アクセスできたらまずはノートブックを新規作成しましょう。

3. ランタイムのタイプ変更

ノートブックが出来上がったらまずはランタイムのタイプを変更しましょう。

何をやっているか簡単に説明すると、処理を実行するリソースを変更する手順となります。

デフォルトでは「CPU」を利用して処理する設定となっていますので、「GPU」で処理する設定に変更しましょう。

設定を「GPU」にすることで処理速度が格段にアップしますので、必ず実行しておきましょう。

画像の通り、「ランタイム」タブから「ランタイムのタイプを変更」を選択しましょう。「ハードウェア アクセラレータ」がデフォルトで「CPU」になっているはずですので、「T4 GPU」に変更して保存ボタンを押下しましょう。

4. ランタイムに接続

「T4 GPU」に変更できたらランタイムに接続しましょう。右上の「接続 T4」を押下です。

「T4 GPU」が選択できていると、右上のボタンが「接続」→「接続 T4」に変わるはずです。

5. Whisperのインストール

接続が完了したらWhisperをインストールします。以下のコードをコード入力欄(セル)に入力し、実行ボタン(▷)を押下しましょう。

!pip install git+https://github.com/openai/whisper.git

処理は1分ほどで終わると思います。終わったら完了マークが出ますので、次の手順に進みましょう。

6. Whisperのインポート

Whisperのインストールが完了したら、インポートも実行しましょう。

左上の「+コード」ボタンを押下することで、コード入力欄を表示させることができます。

以下のコードをコード入力欄(セル)に入力し、実行しましょう。

import whisper

7. 音声ファイルのアップロード

ここまでで、Whisperの設定は完了です。

それでは次に、文字起こしをしたい音声ファイルをアップロードしましょう。

「content」フォルダ内にファイルをドラック&ドロップしてアップロードします。

「content」フォルダの開き方は、画面左のファイルアイコンを押下し、「..」(※1つ上のレベルに移動)を押下すると出てきます。

8. 音声文字起こしの実行

音声ファイルのアップロードができたら下準備は終了です。

音声文字起こしを実行してみましょう。

以下のコードをコード入力欄(セル)に入力し、実行してください。

model = whisper.load_model('large') #モデル名を入力。例:baseを使いたい場合→'base'
result = model.transcribe('ファイル名') #ファイル名を入力
print(result['text'])

実行が完了すると、テキストデータが出力されます。

ちなみに本記事を書くためにテストで実行していた音声ファイルは「22分45秒」でしたが、一番精度の良いモデル「Large」でも「10分20秒」で処理が完了しました。

もちろんより速いモデルを使えばさらに短時間で実行できますが、精度も落ちますし、何より元ファイルの半分の時間で実行できているのであれば十分ではないでしょうか??

いずれにせよ、これでWhisperを使った文字起こしは完了です!あとは皆さん色々と使ってみていただければと思います!

最後に

さて今回は、Whisperを使って音声データから無料文字起こしをする方法についてまとめました。

かなり高精度な文字起こしが無料で使えるなんてありがたいですよね。

生成AIと組み合わせれば、単純な文字起こしだけでなく、さらに色々な用途が期待できそうです。

使い方は無限大ですので、是非とも活用していきましょう!!

分かっているとは思いますが、情報漏洩等には注意ですからね・・・。

Whisperを使った音声文字起こし手順
  • Step1
    Google Colaboratory(Google Colab)にアクセス

  • Step2
    ノートブックを新規作成

  • Step3
    ランタイムのタイプ変更

  • Step4
    ランタイムに接続

  • Step5
    Whisperのインストール

  • Step6
    Whisperのインポート

  • Step7
    音声ファイルのアップロード

  • Step8
    音声文字起こしの実行

以上!

その他の勉強記事も是非!

コメント

タイトルとURLをコピーしました