Macには、標準で音声認識が搭載されています。標準だからテキストアプリなどに喋った声をそのままテキストにすることだってできちゃうんです。
これを応用すれば、Youtubeやpodcastなどで再生した動画や音声を比較的簡単にテキスト化できるんじゃない?とナイスなアイデアが浮かびました。
この方法は、追加アプリ不要ではありません。AppStore以外の場所からアプリをダウンロードしてインストールする必要があります。
Macで無料の文字起こしするために必要なアプリ
Macで無料の文字起こしするために必要なアプリ(無料)を説明します。
その前になぜ別途アプリが必要なのかを簡単に説明しておきます。
直面する問題はこれら2つです。これを回避するためにアプリが必要にあります。
- スピーカーやヘッドフォンの出力をマイクにする必要がある
- 音声入力をOnにするとSafari/Chromeで再生している音声が止まる
まず、一つ目の「スピーカーやヘッドフォンの出力をマイクにする必要がある」です。
この問題を解決してくれるアプリは、「SoundFlower」になります。
SoundFlowerをインストールするとこんな問題を解決していくれます。
Youtubeで再生した音声は、スピーカーやヘッドホンに出力されます。物理的に存在するものです。
Macの音声認識は、外部マイクから入力する設定になっています。マイクも物理的に存在するものが必要ですよね。
(システム環境設定 > 音声入力と読み上げ > 音声入力タブの設定で、マイクの下に対応するマイクデバイスが表示されています)
YouTube の出力はヘッドフォンです、音声認識の入力は、外部マイクです。
YouTubeの出力を外部マイクに相当するように設定できるのが「SoundFlower」です。
専門用語で言うところの「サウンドのループバック」です。
YouTubeで再生した音声をマイクの入力にできるので、そのまま音声認識させちゃうことができるっていうわけですね!
でも、これだけではうまくいきませんでした。
それが、2つ目の課題「音声入力をOnにするとSafari/Chromeで再生している音声が止まる」です。
この問題を解決してくれるアプリは、フリーの非破壊サウンド編集ソフト「Audacity」になります。
テキストエディットアプリで音声入力をオンにするとププって音がなって音声入力待ちになります。
でも、このタイミングで、再生していたはずのYoutubeが止まるんです・・・
なぜ止まるのかの仕組みは推測にすぎないので、割愛します。
フリーの非破壊サウンド編集ソフト「Audacity」を使うと、ひと手間で音声認識中でも音声再生することができます。
これら2つのアプリをインストールするとMacで無料の文字起こしができる環境が整います。
Macで無料の文字起こし!その方法とは?
Macで無料の文字起こし!その方法を説明します。
1) mp3/mp4/AVIなどのファイルを用意します
2) マイク入力の設定をSoundFlowerに変更します
3) Audacityで再生します
4) 最後にテキストエディットアプリで音声入力を開始させます。
Macで無料の文字起こし!その実力は笑ってしまいました。
Macで無料の文字起こし!その実力はイマイチすぎて、笑うしかありませんでした。(笑)
Macで文字起こしした方にとっては、インストールしても使えないかと思うので、
インストールに必要なアプリなどのリンクも省略しています。ググると見つかるかと思います。
所有している音声などによってはうまく認識してくれるかもしれません。
会話レベルの認識を確認したかったので、ホリエモンの動画で試してみました。
https://youtu.be/cHNUDvSqVjA
正解知りたい方は、動画みてください。いいこと言っているんじゃないかと思います。
youtubeの自動文字起こしと、Macで無料の文字起こしの比較結果です。始めの2分くらい実行しています
YouTube自動文字起こし | Macで無料の文字起こし |
---|---|
必着 十一月に毛利聖一 皆さんこんにちはかれた紙 です 今日のパート4チャンネルにいらっしゃってなかったんだろう 全域今回は売上高が前年同月比マイナスに決定しました 年々ジダンの頭部をすでに テレビで見ていたんだecbは現在非常にビジネスとしても 魅力的だなとでやっぱりあの会社として もなく11番手投打に圧倒なっていくのかっていうの 加盟資格停止を要望アルバイト方にやってもら ったりとか女子高生に騎乗することが できるしているんですけどやっぱり そう簡単にはアンプつかない自分の研究中です・・・ |
20分の日本ホリエモンチャンネルをこんちわこれ駄目ですキョウハチャンネルいらっしゃってにこんにちはです誰にも止めるでしょうでねをリテラル文字列にするをリテラル文字列にするをリテラル文字列にする |
全然入力が追いつかない感じでした。かといって、Audacityで再生スピードを70%ぐらいにしてみても
「ドラえもん常務ブモンチョウと思いますの実行でしょうかこれまでねるねるねるね
授業政治ビジネスの一つ中国語のどちらが売れ筋部活」
といった感じで2分間の会話が見事にまとめられています。(笑)
再生スピードを下げても、改善の見込みはなかったです。
文章単位で、再生を止めて、音声認識完了で、再開とか、さらに手間暇かけることでうまくいくかもしれません。
ただ、これって全然楽にならないと思うので、やめました。
macの音声入力で文字起こしすることはできます。でもちょっと認識率が悪いって感じでした。次にgoogleドキュメントの音声入力でも文字起こしできそうなので、やり方をご紹介しておきます。
Googleドキュメントの音声入力のやり方とできること
docs.google.comのドキュメント(ワードみたいなやつ)は音声入力が可能です。Googleの音声入力システムが無料で使えるようなイメージです。mac単体にこだわらなければ、macのスピーカーから出力された音をAndroidスマホで音声入力させるってことも可能だと思います。
Googleドキュメントは無料で使うことができます。音声入力も無料の範囲で使えました。(2018/02/13時点)
mac単体でGoogleドキュメントの音声入力の方法
macのスピーカー出力をマイク入力させGoogleドキュメントの音声入力するためには以下のものが必要です。
- Google Chrome(mac版) 入手先
safari 11.0.3では音声入力できませんでした。
- SoundFlower 入手先
macへ仮想スピーカー、仮想マイクを増やせるカーネル拡張機能になります。最新のmacOS 10.13はセキュリティとプライバシーでブロックされた機能を許可する手順が必要だと思います。以前からインストールしていると許可された状態になっているようです。
SoundFlowerはサードパーティ製のカーネル拡張です。不安な方は入れない方が良いかと思います。
2014年12月19日版をインストールしていました。そのまま入れっぱなしでアップデートもしていませんよ。
サウンドの環境設定で入力、出力をSoundflower(2ch)に変更します。この設定にすることで、macのスピーカー出力をマイク入力にすることができます。
ブラウザで再生した音 > 出力:Soundflower(2ch)・・そのまま・・入力:Soundflower(2ch)という構成になります。
ただ音も消えてしまうので、出力されている音を同時に聞きたい方は、複数出力装置を設定する必要があります。Audio MIDI設定(LauchPad>その他にあります)で複数出力装置を設定できます。このように内蔵出力とSoundflower(2ch)の使用をチェックすることで聞くことが可能です。
事前準備はこれで完了です。chromeでdocs.google.comにアクセスし、ドキュメントを新規に作ります。chromeでドキュメントにアクセスすることで音声入力がアクティブになっていることが確認できます。
【音源の出力開始】
音声入力させたい音源を再生します。
【音声入力の開始】
音声入力(コマンドキー+Shift+S)で上のスクリーンショットのように左側にマイクのアイコンが表示されます。このアイコンをクリックすると音声入力が開始できます。
音声入力の結果は、無題のドキュメントにつらつら記入されていきます。
Googleドキュメント音声入力のできることと注意点
音声入力の内容をテキストにすることができます。試してわかった注意点がいくつかあります。
- 音声入力中にアクティブウィンドウを別のウィンドウに切り替えたタイミングで音声入力受付が終了します。音声入力が終わるまで画面を切り替えることができません。
- 早い言葉は難しい感じです。ラジオパーソナリティが喋る声って結構聞きやすいですよね。音声入力それなりにできました。TVでのインタビューは意外と早いテンポが多いです。こういったものは認識率がかなり悪かったです。
- 音が小さいとGoogleの音声入力ができません。サウンドの環境設定の入力タブ、入力音量で調整することができます。入力MAXでもできない場合は諦めです。
- Googleの入力はリアルタイムで改行しない方式です。インタビューは、聞き手、インタビューされる側の2つの音声があります。どちらも区別なく、改行もなく、つらつらと音声がテキストに変換されていきます。途中声がかぶるところや笑い声などは変換されなかったりします。また音声が出ていても変換されない場合もあるので何が悪いのかよく分からない感じです。大きな声の方と、普通の声の方のやりとりの場合、普通の声の方が若干飛ぶような気がします。
人が聞きやすい声は結構まともに変換してくれる感じです。アクティブウィンドウが切り替わったタイミングで音声入力受付が停止するので、聞きながら、変換悪いところをもう一度っていうやり方は向かないですね。切り替えるたびに、もう一度音声入力受付を開始させる手間が使い勝手を悪くしています。
まとめ:文字起こしは無料でできた。会話レベルは不向き
Macに標準で備わっている音声入力の文字起こし、Googleドキュメントを利用した音声入力の文字起こしする方法がわかったかと思います。評価した時点(2016年5月)ではゆっくり喋った言葉なら精度高いと思います。会話レベルの言葉を認識できず、利用用途は限られてしまう感じでした。
セキュリティも心配ですよね。秘密保持契約ありでのサービスなら安心です。無料のサービスは、企業を信頼するのみです。Appleは何となく大丈夫そうな気がします。Googleはしっかり残っていそう・・・。
AIを使った文字起こしサービスが立ち上がっています。AIなら随時精度が上がっていくそんな期待ができます。
- スマート書記(エピックベース株式会社) 音声認識精度? 月額(要資料請求)
- COTOHA Meeting Assist(NTT Communications) 音声認識精度? 月額55,000円で50時間分
- AI GIJIROKU 音声認識精度99.8% 月1500円で10時間分(この他法人向けプランあり)
- notta 音声認識精度? 無料で月2時間分(この他有料プランあり)
個人利用ならAI GIJIROKU、nottaあたりが良さそうです。
専用デバイス(ICレコーダー)+AIのパターンもあります。
- AutoMemo(オートメモ)(ソースネクスト) 文字認識精度? 端末代24,800円 無料で月31時間分(この他有料プラン、チャージあり)
ICレコーダーと比較するとこんな感じの機能になります。本体に録音したデータはWi-Fi接続でクラウドに保存され、永久に無料で残せる(ほんと?)みたいです。変換したテキストを検索して、クリック、その場所を再生できるとか、最先端感じます。
iPhoneのレコーダーで↑のようなこと実現できると嬉しいですね!