About
システム/プロジェクト概要
各種SNSに対して、指定したキーワードにてクローリングを実施し、注目キーワードに関する投稿を収集します。 収集した投稿を分析する事によりキーワード周辺の反応を分析する事を可能とするシステムです。(当時のSNS規約に沿ったシステムです)
Request and Issue
お客様の課題/要望
注目キーワードに対して、予断や偏見をなくして生の声をデータとして集めたい
市場アンケートで対象を絞る際に、無意識のうちになんらかのバイアスがかかっていることが多く、これをSNSを活用することで改善できないか、というリクエストがあった。
SNSのデータを活用する時点で、SNS利用者に絞り込まれるという偏りは発生するが、比較的人員構成は平準であるとされているため、実現に向けてプロジェクトを開始した。
Solution
Tech Funが実施したソリューション
SNSからのデータ収集
各種SNSより大量データを収集するためのクローラの仕組みと、秒間収集速度を最大にする工夫を提案した。
データの収集方式
大量データの分析には多少時間がかかっても良いとのことでしたが、直近収集データに対してのリアルタイム性の高い応答と、過去収集データに対するバッチ分析といった2種類の目的の異なる分析を行えるようにした。また、大量データを長期間保存し、随時データ容量をスケールできる仕組みを構築した。
SNSクローラーの実装
SNSクローラは、SNSの制約により必要な情報だけを取得するように実装した。
データベースの工夫
リアルタイム処理用にはRedis、大量データの蓄積用にはmongoDBを使うなど、データ活用の目的に合わせてデータベースをそれぞれ選定した。
機械学習の活用
ビッグデータ処理のために高速バッチ処理を行い、機械学習を利用した分析結果の最適化を実施した。
アーキテクチャ図

リリース後の効果/お客様の声
SNS側の仕様変更により当初想定よりデータ収集量が多くなり、データ保持コストがやや高くなったこと、世の中のセキュリティ意識の高まりやプライバシーへの配慮からSNS側の仕様変更が想定以上に多くなり、データの収集が一部実施できなくなる事態が発生するも、当社が開発したこのSNSデータ収集・解析システムは、お客様の想定以上の結果を取得することができた。