ログミー編集部の鈴木です。こんにちは!

 
IMG_20170228_153621


突然ですが、音声をテキスト化する「書き起こし」をご存知でしょうか。

ログミーではこの「書き起こし」が大事なわけですが、音声を聞き取ってキーボードで打ち込んでいくのは、決して楽なものではありません。

タイピングの速さはもちろん、集中力、語彙力、強靭な手首、さらには鋼のメンタルまで、さまざまな特殊能力を要求される作業でもあり、率直に言って非常につらい仕事です。

ログミーの場合、書き起こしのほとんどを外部のライターにお願いしていますが(本当にみなさんいつもありがとうございます)、リアルタイムの案件では編集部員が書き起こしを行うこともあります。

ログミーとしては、このあたりを効率化させたい。なぜなら、大変だから。ここだけの話、僕は書き起こしを少しでも効率化させてサボりたい。ほかの編集部員がどう思いながら書き起こしをしているのかは知りませんが。 

そこで考えました。「音声認識ソフトを使ったら書き起こしを効率化できる(サボれる)のでは?」と。

音声認識ソフトとはその名の通り、音声を認識し、勝手にテキスト化してくれる最高のツールです。

そこでさっそく、隣の席に座る編集アシスタントの横田と一緒にいろいろ試してみることにしました。

IMG_20170228_153643
 

今回試す音声認識ソフトはこちら

今回試してみる音声認識ソフトはこちら。
 
  • Windows標準の音声認識
  • GoogleDocs音声入力
  • AmiVoice

流れは以下の通りです。

  1. 例文を読み上げたテスト音源(mp3ファイル)を用意
  2. 例文を読み上げる。音声データから文字化できるものは、テスト音源をそのまま文字化させてみる。
  3. ソフトが吐き出したテキストを元の例文と比較し、精度を判定

まずは例文として、当ブログの記事より以下の文言を引っ張ってきました。
 
ログミーとは、スピーチや対談、セミナーなどの内容を全文書き起こし、ログ化することで、価値あるコンテンツをより多くの人にシェアする新感覚メディアです。

ログミーの魅力は、何といっても「全文書き起こし」です。通常、メディアなどに掲載される記事は「編集」というカタチで、必要に応じて内容の一部をカットすることがあります。

ログミーではそこをあえて残し、「ありのまま」を見せることで、話の内容はもちろん、その場の雰囲気や事実を伝えています。

上記の例文をソフトに認識させます。テスト音源は、かつて全国区の放送部員だったという非常に優秀な経験を持つ横田にお願いしました。

読み上げる原稿を渡したら、いきなり赤ペンで息継ぎする場所などをメモし始めたので、なんというか、笑ってしまいました。
 

KIMG0256

読み上げは、彼が多忙なため、僕自身で行うことにします。滑舌の悪さが心配です。

さっそく検証!

では、実際に3つのソフトを試してみます。


1:Windows標準の音声認識


まずは一番簡単にできそうなWindows標準の音声認識から。音声ファイルの文字化には対応していないので、読み上げるかたちで挑みます。

ちなみに、Windows10の場合、コントロールパネル>コンピュータの簡単操作>音声認識で辿り着きます。

まずは普通に話す速度で試してみたところ、上がってきたテキストがこちら。
 
462党はスピーチや海岸セミナーなどの大温泉文化局広く化することで価値あるコンテンツをより多くの人に知らせる新感覚メディアです 622魅力は何と言っても、文化局CS通常メディアなどに掲載される記事は編集という形で必要に応じて内容の一部をカットすることがあります 6mは底を相手の腰ありのままを見せることで話しの内容はもちろんその場の雰囲気や事実を伝えています


ひどい。これでは文章が新感覚すぎるので、少し丁寧に読み上げてみました。 

 
の組とはスピーチや対談セミナーなどの内容を、文化き起こし録画することで活気あるコンテンツをより多くの人に知らせる新感覚メディアです 62の魅力は何と言っても、文化き起こしです通常メディアなどに掲載される記事は編集という形で必要に応じて内容の一部をカットすることがありますを組では歩行あえて残しありのままを見せることで話しの内容はもちろんその場の雰囲気や事実を伝えています


だいぶ良くなった気がします。精度に関しては、一般的な用語を用いた文章であれば、なんとかなりそうなレベルです。ただし、ログミーの記事は専門的な内容や口語ならではの表現も多いため、実用可能かというと難しそうですね。
 

【メリット】
  • Windowsユーザーであればたぶん誰でも利用可能だと思う

【デメリット】
  • Macユーザーが使えない 
  • あまり長々と喋ると動作を停止することも(PCのスペックによるかも)
  • 辞書機能があるが、「ログミー」という単語を登録してから読み上げてみても効果がなかった(滑舌か?)

2:GoogleDocs音声入力
 
続いて、WindowsでもMacでも利用可能なGoogleDocsを試してみます。

ログミー編集部はMacユーザーが多いため、もっとも現実的な選択肢な気がします。これも音声ファイルの文字化には対応していないので、こちらでも読み上げます。

まずは懲りずに普通の速度で読み上げてみました。
 
62とはスピーチあ退団セミナーなどの内容を全文書き起こし録画することで価値あるコンテンツをより多くの人にシェアする新感覚メディアですログミーの魅力は何と言っても全文書き起こしです通常メディアなどに掲載される記事は編集という形で必要に応じて内容の一部をカットすることがありますログミーではそこをあえて残しありのままを見せることで話の内容はもちろんその場の雰囲気は事実を伝えています


「ログミー」という単語が聞き取れていることに感動を覚えます。Windows標準のものより精度もよさそうです。


今度は丁寧に読み上げてみます。
 
62とはスピーチあ退団セミナーなどの内容を全文書き起こしログ化することで価値あるコンテンツをより多くの人にシェアする新感覚メディアですログミーの魅力はなんといっても全文書き起こしです通常メディアなどに掲載される記事は編集という形で必要に応じて内容の一部をカットすることがありますログミーではそこをあえて残しありのままを見せることで話の内容はもちろんその場の雰囲気や事実を伝えています


「録画」が「ログ化」に変わっているなど改善が見られましたが、あまり速度による変化は大きくなさそうです。普通に話すスピードについていけているということでしょうか。

辞書機能は見当たりませんでしたが、「ログミー」「ログ化」など特殊な単語を認識できているということは、ユーザーの知らないところでなにかしら辞書的なデータベースが機能しているようです。
 

【メリット】
  • WinでもMacでも利用可能
  • そのままDocsに出力できるため、編集しやすそう
  • 普通の速度で話してもわりと認識できるため、リスピークの時間が短くて済む

【デメリット】
  • 感覚値だが、話し始めに弱い?
  • 辞書機能がないので特殊な単語を登録できない


3:AmiVoice
 
最後にAmiVoiceを試してみます。AmiVoice SP2の無料体験版をダウンロードし、使用してみました。まずは、ほかの2つと同様、こちらでもテキストを読み上げます。
 

 
ニートはスピーチがタイタン性皆などの内容も全文書き起こし録画することで価値あるコンテンツをより多くの人に知らせる新感覚メディアです。愛の魅力は何と言っても全文書き起こしです。通常、メディアなどに掲載される木島編集という形で必要に応じて内容の一部をカットすることがあります。ろくにではそこをあえて残しありのままを見せることで話の内容はもちろんその場の雰囲気や事実を伝えています。

句読点を認識してくれているのはすばらしい。ただ、精度に関してはいまひとつ。

そこで、辞書登録機能を使って改善を試みます。登録した単語は「ログミー」「ログ」「対談」などです。その結果……。

 
ログミーとはスピーチや対談セミナーなどの内容全文書き起こし録画することで価値あるコンテンツをより多くの人にシェアする。新感覚メディアです。ログミーの魅力は何と言っても全文書き起こしです。通常、メディアなどに掲載される記事が編集という形で必要に応じて内容の一部をカットすることがあります。ログミーではそこをあえて残しありのままを見せることで話の内容はもちろんその場の雰囲気や事実を伝えています。


申し分ない! 聞き直しが不要なレベルでテキスト化されています。

ほかの2つと違って、句読点があるので、整文(書き起こしされた文章をさらに読みやすくすること)にかける時間も少なくて済みます。いい感じですね。

また、AmiVoiceは音声ファイルを読み込めるため、全国区の放送部員(横田)が読み上げたmp3ファイルをつっこんでみました。

これが上のような精度で上がってくれば、劇的に仕事が楽になるはずですが……。

 
ログミーとスピーチア対談セミナーなどの内容全文書き起こし録画することで頭コンテストより多くの人に知らせる新感覚エリアです。ログミーの魅力は何と言っても全部書きますです。通常メディアなどに掲載される木島編集という形で必要に応じて割り面白がる姿がログミーや素行会える残しありのままを見せることで話の内容はもちろんそのままフリージア事実を伝えています。


絶妙ですね。

仕組み上、リスピークを認識するのと同じ精度でテキスト化できそうな気がするんですが、録音の仕方が悪かったのか、はたまた横田が全国区の放送部員ではなかったのか。

ただ、一度これでテキストにしておいて、後から聞きながら文章を整えるのであれば、書き起こしや読み上げよりも早いかもしれません。

あとは、辞書機能をどれだけ上手に活用できるかにかかっている気がします。

【メリット】
  • 音声ファイルを読み込める
  • 辞書登録が便利
  • 音声入力コマンドの存在

【デメリット】
  • Macに対応していない

まとめ

というわけで、3つの音声認識ソフトを試してみましたが、読み上げるかたちであればかなりの精度で書き起こしてくれる一方、音声ファイルの読み込みはよほど聞き取りやすい音源でないと難しそうです。

これでタイピングによる腕の疲れが軽減できるのはありがたいですが、「寝ながら書き起こし」にはまだまだ遠いのかもしれません。

いずれにしても、現段階では音声認識はパーフェクトではありません。「“それなり”の精度でテキスト化されたものを、その後どう活用していくのか」という点をしっかり考えた上で、しくみ化することが必要ですね。

もし、ほかのソフトを利用したことがある方がいらっしゃいましたら、ぜひ使い心地を教えてください。

 
※※ログミーでは現在各職種で積極的に募集中です!※※