音声入力時代の原稿作成、あるいはテキストの危機について

LIGブログ

2018/4/17 08:00

はじめまして! 最近エディターとしてLIGに入りましたKと申します。これまでWeb記事や書籍の編集・ライティングをやってきました。

LIGには社員をあだ名呼びするというカルチャーがあり、入社してすぐ「あだ名を決めてください」と言われました。僕は約30年生きてきてマトモなあだ名がなく、単に下の名前で呼ばれるぐらいだったので、シンプルに本名の「けい」にしようかと思いましたが、それだと中二感が足りないと思ったので、LUNA SEAの「J」さんに倣ってアルファベット一文字の「K」にしました。今後、もし仕事ぶりが認められれば「ゴッドハンドK」「グランドマスターK」「殺医ドクターK」など、さらに中二感を拡大していこうかなと思います。

音声入力で原稿作成がラクになる!?

さて、LIGには「社員は毎月1本、LIGブログで記事を書こう」という決まりがあります。しかしこの決まりは、今や努力目標のようになりがちで、厳密に守られているかというとちょっと怪しい。

僕はLIGブログの編集を仕事のひとつとしているので、メンバーに記事を毎月書いてもらわないといけません。必ずしも文章が得意な人ばかりではないので、「ブログ書くの面倒くさい……」という人も、実は多い――という雰囲気を感じ取っています。

そして別にLIGの人にかぎらず、「プロのライターじゃないけど文章を書かなければいけない」という人も、この世界には多数存在するのではないかと思います。

しかし……

「科学と魔術が交差するとき、物語は始まる――」という有名な中二フレーズがあります。科学が進歩した現在、我々は「音声入力」という魔法を手にしました。

というわけで今回は音声入力ツールを使った原稿作成について書いてみたいと思います。

そもそも必要なツールを活用していない人が多い問題

さっそく、具体的な音声入力のやり方について書いていこう……と思ったのですが、入社してみて逆にカルチャーショックを受けたのが、「そもそも原稿作成に必要なツールを把握していない人が多い」ということでした。

他の人がPCで作業している様子を見て気づいたのですが、PCに入っているデフォルトの文字入力ツールしか使っていない人が地味に多いです(怒)。「Google日本語入力ぐらいは入れとこうよ!」と言わざるをえない。Google日本語入力の便利さについては、LIGブログでも2011年に紹介されていました。

ちなみに僕が特にGoogle日本語入力が便利だと思うのは、間違いやすい人名や固有名などもかなり正確に入力してくれる点です。

他にも「単語登録」の機能を使って、「おせ」だけ入力すれば「お世話になっております」が出てくるように自分で設定しておくと、仕事のメールを打つときとてもラクです。

あ、あともうひとつ。

インタビューや対談を原稿にする際、音声レコーダーが必要になるかと思うのですが、今は基本的にiPhoneにデフォルトで入っているアプリ「ボイスメモ」で十分、ということを把握していない人が地味にいるということにも気づきました。市販のICレコーダーとiPhoneの「ボイスメモ」は音質に関してはもはや大差ないですし、Macを使っているのであれば、データをAirDrop経由でサクッとPCに転送できるのでオススメです。(AirDropの使い方は省略)

ちなみに取材時は、スマホの電池切れや容量不足にそなえて、かならずレコーダーを2つ以上配置して録音するのが鉄則です。

音声入力って実際のとこどうなの?

ようやく本題に入りますが、実は編集・ライター界隈ではけっこう前から音声入力ツールがいろいろと話題になっていました。取材などをして記事にする際、内容の文字起こしが必要になる(これには諸説あります(※)が僕は「文字起こしはしたほうがいい派」です)わけですが、その場合、収録した音声をイヤホンで聞きながら、改めて自分の声でしゃべって音声入力機能を使って書き起こすという方法が、編集・ライター界隈ではもはやポピュラーとなっています。

ちなみに僕は6~7年前まで文字起こしを大量にやっていたのですが、当時は完全手入力だったので、10分の音声収録の文字起こしをするのに大体1時間(=収録時間の6倍)かかっていました。しかし音声入力を使うとだいたい収録時間の2倍で済むので、文字起こしにかかる時間は単純計算で約3分の1に減ったことになります。
(※)たとえばLIGブログの過去記事「体脂肪率一桁台の原稿を書くチカラ #03 インタビューの作法 & 記事の書き方」(元エディターのヒロアキさん執筆)では、「あらかじめ記事の背骨やテーマが明確ならば、『聞かねばならないこと』『聞き取らねばならないこと』は当然ながら確立しており、それをしっかり押さえていればどんなインタビュー記事でもテーマから逸れることなく組み立てられ」るので、「文字おこしは時間の無駄」と解説されています。しかし僕は(1)取材者の想定から逸れたときにこそ記事が面白くなる(2)インタビューイーの話す微妙なニュアンスを汲み取って原稿にしたい、という2つの理由から、文字起こしを重視したいと考えています。

iPhoneの音声入力

音声入力を試す際、一番手軽なのはiPhoneのメモ帳で音声入力していく方法ですが、たとえば「Googleドキュメント」や「Dropbox Paper」といったクラウドの文書作成ツールをiPhoneとPCの両方で開いておくと、そこでiPhoneから音声入力していけば即座に反映されて便利です。

ただ、iPhoneの音声入力はまだ色々と問題があって、まず、普通にしゃべっているだけだと「。」「、」のような句読点が入らないですし、読みやすく改行をしてくれるなんてこともありません。これは声で「まる」「てん」「かいぎょう」と発音すれば入力してくれるのですが、ガンガンしゃべって文字起こししていきたいときに、普通のしゃべりのなかに「まる」や「てん」「かいぎょう」などを入れ込むのはちょっと面倒くさい……。また、しばらく黙っていたり、逆にずっとしゃべり続けていたりすると止まってしまう場合があります。

Googleドキュメントの音声入力

もうひとつ、ここ最近文字起こし界隈で注目を浴びているのが「Googleドキュメント」の音声入力機能です。「ツール→音声入力(もしくはcommand+Shift+S)」で、 Google ドキュメントオリジナルの音声入力機能が起動し、しゃべれば自動で書き起こしてくれるようになります。ただこれは、「まる」や「てん」と発音しても、句読点は自動では入りません(2018年4月現在)。なので句読点や改行を入れたいときは、自分でキーボードを使って打つ必要があります。

UDトークはかなり使える!

上記の点をカバーしているのが、当初は聴覚障害者のコミュニケーションのために開発された「UDトーク」というアプリです。これは勝手に句読点を打ったり改行してくれますし、音声認識機能のクオリティも非常に高いです。

強いて難点を挙げるなら、クラウド上の文書作成アプリと同期してくれないこと。現状ではiPhoneのアプリで音声入力したあと、書き起こしされたテキストをAirDrop等で自分のPCで送るしかありません。(ここのステップ、なんとか省略したい……!)

「寝ている間に小人さんが仕事してくれる」は本当か

ちなみにネット上では今年始めくらいから「PCの音声環境を工夫して、録音した音声ファイルを直接PCに入力しそれに音声入力機能を噛ませれば、寝てる間に小人さんが文字起こしをしてくれる」という話がちょこちょこ出ていました。Macの場合はSoundFlowerと言うアプリケーションとGoogleドキュメントを組み合わせるそうなのですが、実際に僕のPC環境でその方法を試したところ、うまくいきませんでした。

そもそも2018年4月時点で、Googleドキュメントの音声入力機能は放置しておくと勝手に止まってしまう場合も多いです。「寝ている間に小人さんが仕事してくれる」という状態になるのはまだまだ先なのかも。なので、ここは技術の進化を待ちたいと思います。

実際に音声入力をする際に立ちはだかる壁

会社などで仕事として原稿作成をする人にとって最大の難関は「音声入力をどこですればいいか」ということになるかと思います。

僕は実際に仕事で文字起こしが必要になった際、とりあえず空いている会議室を借りてみました。



周りに人がいないので集中できるのはよいのですが、もし誰かに見つかったら怪しまれる可能性があり落ち着かないのと、そもそも広大な会議室を一人で借りていることにもやや罪悪感があります。

それと音声入力自体も、たとえばエアコンや換気扇の音、ビルの空調の音などが入ると書き起こしのクオリティが悪くなります。なので本当なら深夜に静かな自分の部屋でやるのが現状のベストプラクティス。 ただ、家でやるとそれは労働時間にカウントされない……つまり、タダ働きになってしまう……ッ!

なので原稿作成の仕事が多い会社は、一人カラオケのブースみたいな感じで「音声入力専用スペース」みたいなのができないかなぁ、とか思います。

あと、僕はカフェとかコワーキングスペースみたいな場所でも仕事をしたい派なのですが、さすがに公共空間で音声入力をやるわけにはいかない。そうなると今後もしかしたら、シェアオフィスやコワーキングスペースなどで音声入力ブースができる、みたいな未来……果たして来るのだろうか。わりと疑問です。やっぱり家でやるしかないのだろうか……。この点は、地味に大きいけどなかなかクリアされなさそうな問題です。

音声入力による原稿作成のポイントと問題点

さて、ここまでは音声入力の実際のやり方と、立ちはだかる壁について書いてきました。ここからは実際に音声入力でどのように原稿を書いていけばいいのかを、僕なりの視点で整理してみたいと思います。

ブログを書くときにおすすめのやり方

まずブログエントリを書くときには、その記事の中で言いたいことをノートやクラウド文書ファイルにトピックだけでいいので走り書きしておきます。

その上で、ノートの上から順番に、トピックごとの詳細について考えていることをガンガンしゃべっていきます。ひととおり文字起こしができたら、読みやすい文章になるように整形していきます。

その際に気になるのが句読点や改行です。iPhone を使った音声入力であれば「てん」「まる」「かいぎょう」などを実際に発音しながら書き起こしをしていったり、 Googleドキュメントの場合は句読点や改行は気にせずどんどんしゃべってしまうのがベターだと思いますが、すでに紹介したUDトークであれば句読点や改行を自動で入れてくれるので、こちらで一通りしゃべったうえでAirDrop経由で自分のPCにテキストファイルを送るのが一番いいと思います。

インタビューや対談の書き起こしについて

一人でしゃべるのであればそれでいいのですが、インタビューや対談など複数の話者がいる素材の文字起こしをする場合はそうはいきません。

綺麗な文字起こしであれば、たとえばこういう感じになります。
K:こやにいさんは「アビス」で「Get Wild」の数多あるリミックス曲の前奏時間の分析を書かれていましたが、そもそもなぜそれをやろうと思ったんですか?

こやにい:難しいですね……。個人的な興味があったのと、ああいうコンピレーションアルバムが出たので、これを機会にまとめてみようと思ったという、自己満足ですね。単純にいつも「前奏が長いな」とは思ってたのと、それってみんなも思ってたら嬉しいなという。あと、少しだけ思ってるのは「小室哲哉の力になれれば」ってことですね。
よいインタビュー or 対談原稿を作るには、ここの話者表記をきちんとする必要があるのですが、UDトークでは発話者が違うということの認識まではしてくれません。

なので、こういったタイプの文字起こしであれば、Googleドキュメントで、音声入力とキーボード入力(おもに話者表記に使う)とを併用しながら作業するのがよいと思います。

おわりに:テキストの危機を乗り越えるには

ここまで長々と書いてきてしまいましたが、音声入力が一般化するということは、誰でも長いテキストが書けるようになるということでもあります。現時点で SEO(検索エンジン最適化)の分野においても、単に検索キーワードとして強い言葉を羅列しただけの短い記事より、しっかりと文章としてつながりのある長文記事の方が評価されやすい、ということが言われています。

Web上では「検索上位に表示されるか否か」はかなり大きい問題です。今後音声入力による原稿作成が一般化すれば、Web 上には長文記事がより多く出てくることになるでしょう。これは、「テキストの価値が今よりもさらに安くなる」ということでもあると思います。

そうなったとき、どこかで価値観が逆転するのではないでしょうか。つまり、単に文字数が多いだけで冗長な文章よりも、簡潔でありながらしっかりと読者に内容が伝わる、整理された文章が評価されるようになるのではないかと思います。

新聞や雑誌のようにスペースが限られたメディア(紙媒体)と比べてネットメディアが持っていた原理的な強みは、「必ずしも文字数を制限しなくてもよい」という部分にあったわけです。

僕自身も紙媒体の編集・執筆経験があるのでわかるのですが、雑誌や書籍はスペースやページ数が限られているので、 そこに収まるように書かないといけないです。たとえば「2000字以内でオナシャス」と依頼された原稿を書いていく際に、「ひととおり整理しても3000字になってしまった」ということがよくあります。

そこで原稿を何度も見直して、 なんとか2000字に収めるように苦心するわけですが、その過程で「無駄な表現をそぎ落とす力」=ライティング能力の重要な一部分が、(多少なりとも)培われたように思います。

Web媒体だと何字でも書けるので、ついついその意識がおろそかになりがちです(この文章もその部類かもしれません……)。

しかし今後は、紙媒体的な「過不足ない整理された表現」が、ユーザーからも、検索エンジンからも評価されるようになっていくのではないかと思います。

……ちなみに、この原稿はどれぐらい音声入力で書いたかというと、3割くらいしか使ってません。

というのも、いろいろ音声入力を試していて思ったのが、「話し言葉」と「書き言葉」では、そもそもの「書き方」が違うということでした。

アニメや映画の感想を友達に語りかけるように書く記事だったり、会話をもとにしたインタビュー原稿を作成する場合は「話し言葉」がベースなので音声入力に向いています。一方で、情報の論理的・抽象的な整理をする「書き言葉」ベースの文章(評論など)の場合は、やはり自分の手で書いたほうが書きやすいと感じています。「話し言葉」と「書き言葉」の違いは、今後もっと整理して考えなければいけない課題なのかもしれません。

おまけ:ここでちょこっと書いたような「メディア論」を、より長いスパンで考えるうえでは下記の書籍がオヌヌメです!

(おわり)

あなたにおすすめ

すべての人にインターネット
関連サービス