サービス事例

SNSのデータ収集と機械学習を用いたデータ分析システムの開発

AWS

システム/プロジェクト概要

各種SNSに対して、指定したキーワードにてクローリングを実施し、注目キーワードに関する投稿を収集します。
収集した投稿を分析する事によりキーワード周辺の反応を分析する事を可能とするシステムです。(当時のSNS規約に沿ったシステムです)

お客様の課題/要望​

注目キーワードに対して、予断や偏見をなくして生の声をデータとして集めたい

市場アンケートで対象を絞る際に、無意識のうちになんらかのバイアスがかかっていることが多く、これをSNSを活用することで改善できないか、というリクエストがあった。
SNSのデータを活用する時点で、SNS利用者に絞り込まれるという偏りは発生するが、比較的人員構成は平準であるとされているため、実現に向けてプロジェクトを開始した。

Tech Funが実施したソリューション

SNSからのデータ収集

各種SNSより大量データを収集するためのクローラの仕組みと、秒間収集速度を最大にする工夫を提案した。

データの収集方式

大量データの分析には多少時間がかかっても良いとのことでしたが、直近収集データに対してのリアルタイム性の高い応答と、過去収集データに対するバッチ分析といった2種類の目的の異なる分析を行えるようにした。また、大量データを長期間保存し、随時データ容量をスケールできる仕組みを構築した。

SNSクローラーの実装

SNSクローラは、SNSの制約により必要な情報だけを取得するように実装した。

データベースの工夫

リアルタイム処理用にはRedis、大量データの蓄積用にはmongoDBを使うなど、データ活用の目的に合わせてデータベースをそれぞれ選定した。

機械学習の活用

ビッグデータ処理のために高速バッチ処理を行い、機械学習を利用した分析結果の最適化を実施した。

プロジェクト情報
対応工程 設計〜開発(R&D)
チーム規模 最大4名
工数 50人月程度
主要技術要素 Python, jQuery, AWS, mongoDB, Redis

アーキテクチャ図

アーキテクチャ図

リリース後の効果/お客様の声

SNS側の仕様変更により当初想定よりデータ収集量が多くなり、データ保持コストがやや高くなったこと、世の中のセキュリティ意識の高まりやプライバシーへの配慮からSNS側の仕様変更が想定以上に多くなり、データの収集が一部実施できなくなる事態が発生するも、当社が開発したこのSNSデータ収集・解析システムは、お客様の想定以上の結果を取得することができた。