空のきまぐれ

読書記録 雑記 調べたことをきままに

文字認証に隠された世界プロジェクト知ってますか?

f:id:sora1530:20180315201938p:plain

 

面倒に感じてしまう「グニャグニャ文字認証」

 

とある世界的プロジェクトに関係していて、

知らず知らずのうちに協力させれていたってご存知ですか?

 

こんばんは、そら(@15sora30)です。

 

www.mbs.jp

 

大好きな番組なのに、やりたいことが多すぎて録画がたまっていく一方。

 

全然観れていないので情報が遅れていますが、久しぶりにとても興味深いネタがありました。

 

グニャグニャ文字認証「CAPTCHA」についての初耳学、

 

それから「CAPTCHA」周辺について調べてみたことをまとめます。

 

f:id:sora1530:20180312203551j:plain

 

↑これ、見たことありますよね?

 

「CAPTCHA(キャプチャ)」と言います。

 

サイトの会員登録やチケットの購入など、

現在4万以上のWebサイトのセキュリティ向上のために利用されてます。

 

簡単な例としては、

 

コンピュータ(bot)に自動でチケット購入を繰り返させる

 

         ↓

 

        買い占め

 

         ↓

  

    購入したものを高額で転売

 

こういったケースを根絶するため。

 

フォームを入力しているのがコンピュータなのか、人間なのかを区別するために利用するサービスです。

 

  

隠された世界的プロジェクト : 本のデジタル化

f:id:sora1530:20180315194327p:plain

https://developers.google.com/recaptcha/

 

「CAPTCHA」は書籍のデジタル化を進めるためのもの。

 

電子書籍と言えばAmazonのkindleを筆頭に普及してきています。

 

最近では新しい書籍もデジタル化が進んでますが、基本的にデジタル化は古い本から始められます。

 

古い文献や、文章、書籍、こういったものは

 

かすれたり、

 

インクが薄くなったり、

 

黄色がかっていたり、

 

文字が読みづらくなってしまっています。

 

そういった文字はコンピュータでは認識できません。

 

これらを読ませることができれば、デジタル化できます。

 

コンピュータが読めなくても、私たち人間が見れば読める

 

これに着目したのが「CAPTCHA」になります。

 

誰か一人が

「こう読む」

と決めたのでは間違っている可能性もありますが、

 

何人もの人が

「これはこう読む」

としたデータが蓄積されればそれは恐らく間違いのないもの。

 

そのデータをコンピュータに覚えさせれば、

コンピュータが読めるようになります。

 

すると、古い文献・文書をデジタル化できる。

 

つまり、

 

「コンピュータが読める文字を増やす」という壮大な計画に世界中が協力させられている

 

というわけです。

 

1500人以上の人間の週40時間の労力に匹敵

f:id:sora1530:20180315190115j:plain

現在4万以上のWebサイトで利用されているグニャグニャ文字「CAPTCHA」

 

一日400万語以上の単語の解読に成功。

 

これは1500人以上の人間の週40時間の労力に匹敵するほどなんだそうです。

 

労働の在り方が唱えられているなかで、

労働を労働と思わせないのがすごいですね。

 

人とコンピュータを区別する仕組み

 

単語2つの文字認証

f:id:sora1530:20180315181601p:plain

@freebiesgallery

 

2つの単語があるパターンについて。

 

2つの単語がある「CAPTCHA」の場合は、

どちらか一方はコンピュータも正解が分かっています。

 

しかし片方は分からない。

 

分からない単語知りたい単語で、

 

分かっている単語人とコンピュータを区別する。

 

例えば上記の例で、

 

最初の文字列は何と読むか分からない。

 

しかし、2番目の文字列は「it」だとわかっているとします。

 

ユーザが

「rehiring it」

と入力、送信。

 

「CAPTCHA」は最初の文字列

「rehiring」と読むことをデータとして蓄積し、

 

2番目の文字列が「it」と送信されてくれば、

アクセスしているのは人間だ

 

と判断できる仕組みです。

 

こうしてコンピュータの認識できる単語が増えていきます。

 

これがあるうちはまだまだ人間がコンピュータより優れていると言えますね。

 

あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている - ログミー

【余談①】画像認証

f:id:sora1530:20180315192411j:plain

 

文字認証の応用、といったところでしょうか。

 

書籍のデジタル化とは関係ありませんが、

こちらもよく目にします。

 

画像認証が開発されたのはモバイル端末の普及にあります。

 

スマホでは文字入力が煩わしく感じやすいというのが理由だそうです。

 

「CAPTCHA」の進化に合わせてbotも進化してしまうので詳しい仕組み等は公表されていませんでした。

 

youtu.be

 

【余談②】ワンクリック

f:id:sora1530:20180315195455p:plain

https://developers.google.com/recaptcha/



これまた書籍のデジタル化とは離れてしまいますが、

 

もっとも新しいタイプでは

「私はロボットではありません」

という表示をクリックするだけで人とコンピュータを区別できます。

 

いったいワンクリックだけでどうやって人とコンピュータを区別しているの?

 

と疑問に思いますが、正確にはクリックで区別しているわけではないようです。

 

クリックする前までの動作、行動の履歴とでもいうのでしょうか、

 

そういったものから区別をしているんだそうです。

 

この方法によってスマホでの認証がより快適に、ストレスフリーになりました。

 

www.youtube.com

 

アイデアに驚きますし、すごく便利になったな

 

と普通の感想しか思い浮かびませんでした。

 

まとめ : 書籍のデジタル化は全世界の協力の賜物

f:id:sora1530:20180114134725j:plain

 

  • グニャグニャ文字認証は書籍のデジタル化に貢献
  • 2単語の認証は一方でデータ収集、一方で人とコンピュータを区別
  • 画像認証、ワンクリック認証も発達

 

知ってみるとなんだかいいことをしているような気分になりました。

 

世界各国様々な問題があっても、

古い文献・書籍を遺すためにみんなで協力

なんてキレイごとにしか聞こえないのにそれを続けてきているなんて夢のある話だと思いませんか?

 

最後まで読んでいただきありがとうございました。

ブックマーク、コメント、読者登録、とても励みになります。

いつもありがとうございます。