匿名データのはずが…Netflixのコンテストで起きたプライバシー問題
清水 宮一さんの話をうけて、アメリカも必ずしも順調にやってきたわけではないという話を少しさせてください。アメリカでも事件が多発しているんです。ここにいくつか挙げましたが、2006年にはAOLが検索データ(クエリ)を公開してしまって、個人が特定されたことがありました。
レンタルビデオとしてスタートしたNetflixはデジタル化され、ドラマや映画が1か月8ドルで見放題のサービスになっています。Netflixのライブラリには古い作品やB級映画がたくさんあって、その多くが埋もれている。検索やアルゴリズム、レコメンデーションがうまく機能しないとビジネスが成長しないということでアルゴリズム開発コンテストをやったんです。コンテストに参加する研究者に、Netflixに投稿された50万人分のレビュー情報(映画タイトル、日時、ユーザーID、星の数、レビューの内容)のデータを公開したのですが、それで個人が特定されてしまった。
どうやって特定したかというと、アメリカの「IMDb(Internet Movie Database)」という、映画やドラマ、俳優のデータベースサイトの情報を使ったんです。IMDbのサイトでもレビューを投稿できるのですが、Netflixである作品を借りたのと同じ時期に、同じタイトルについてIMDbにも似たようなレビューを書いている人がいて、両者を比較したときに同じ人の情報だと結びついてしまった。
宮一 個人情報の連携はなかったけれど、実質的個人識別性を有してしまったということですね。
清水 ええ。アメリカの場合、ビデオのレンタル情報はプライバシー情報として、医療情報並みに保護されている。同性愛やナチスの映画などは思想的な部分も絡んでくるからです。日本の図書館では、前の人が何を借りてるのか見えちゃうけど米国ではあり得ない。何を借りたのかというのは、そのくらいセンシティブな情報なんです。
それが2つのサイトのレビューを結びつけたらばれてしまった。そして、レズビアンの女性が、私のセンシティブな嗜好が暴露されたと訴訟しようとした。FTCが介入したので、Netflixは敗訴まではいかずに和解しましたが、結構な金額を払っていると思います。こういう場合は和解で終わるパターンが多い。敗訴になると、そのビジネス自体がクロになってしまうので。
Suicaのデータ提供は何が問題だったのか
宮一 日本では、2013年にJR東日本が日立にSuicaの利用履歴を加工して提供していたというのが報道されて大きな騒ぎになり、結局サービスをやめてしまった(編集部注:JR東日本は、2013年9月、有識者による会議を設置して今後の対応を決定するとしており、それまでは社外へのデータの提供はしない方針を明らかにしている)。
では、こういうサービスを一切やってはいけなかったというとそういうわけではなく、組み立てが悪かったという見方もあります。個人識別性があるデータを、第三者に渡したということになっていますが、これは業務委託していれば、個人情報保護法的には問題にならなかったのではないか。
連絡先や氏名を削って、いわゆる個人情報保護法が定める「個人情報」ではないかたちにしていたのですが、それでも実質的な個人識別性があるという考えに至らなかった。また、秒単位の利用履歴を提供していたということなのですが、日立は「朝の品川駅は人が多い」とか「その人たちは新宿から移動している」といったざっくりとした情報をマーケティングに活用したいだけだった。つまりは必要に応じた、利用条件に合わせた不鮮明化がなかった。
事前合意とか、オプトアウトの整備の問題もあって全体としてはNGだったのですが、この取り組み自体を適法にやるやり方もあったのではないかということなのです。