SNSのデータ収集と機械学習を用いたデータ分析システムの開発
システム/プロジェクト概要
各種SNSに対して、指定したキーワードにてクローリングを実施し、注目キーワードに関する投稿を収集します。
収集した投稿を分析する事によりキーワード周辺の反応を分析する事を可能とするシステムです。(当時のSNS規約に沿ったシステムです)
お客様の課題/要望
注目キーワードに対して、予断や偏見をなくして生の声をデータとして集めたい
市場アンケートで対象を絞る際に、無意識のうちになんらかのバイアスがかかっていることが多く、これをSNSを活用することで改善できないか、というリクエストがあった。
SNSのデータを活用する時点で、SNS利用者に絞り込まれるという偏りは発生するが、比較的人員構成は平準であるとされているため、実現に向けてプロジェクトを開始した。
Tech Funが実施したソリューション
SNSからのデータ収集
各種SNSより大量データを収集するためのクローラの仕組みと、秒間収集速度を最大にする工夫を提案した。
データの収集方式
大量データの分析には多少時間がかかっても良いとのことでしたが、直近収集データに対してのリアルタイム性の高い応答と、過去収集データに対するバッチ分析といった2種類の目的の異なる分析を行えるようにした。また、大量データを長期間保存し、随時データ容量をスケールできる仕組みを構築した。
SNSクローラーの実装
SNSクローラは、SNSの制約により必要な情報だけを取得するように実装した。
データベースの工夫
リアルタイム処理用にはRedis、大量データの蓄積用にはmongoDBを使うなど、データ活用の目的に合わせてデータベースをそれぞれ選定した。
機械学習の活用
ビッグデータ処理のために高速バッチ処理を行い、機械学習を利用した分析結果の最適化を実施した。
プロジェクト情報
対応工程 | 設計〜開発(R&D) |
チーム規模 | 最大4名 |
工数 | 50人月程度 |
主要技術要素 | Python, jQuery, AWS, mongoDB, Redis |
アーキテクチャ図

リリース後の効果/お客様の声
SNS側の仕様変更により当初想定よりデータ収集量が多くなり、データ保持コストがやや高くなったこと、世の中のセキュリティ意識の高まりやプライバシーへの配慮からSNS側の仕様変更が想定以上に多くなり、データの収集が一部実施できなくなる事態が発生するも、当社が開発したこのSNSデータ収集・解析システムは、お客様の想定以上の結果を取得することができた。