1分で分かる!Hadoopとは?
困ったなぁ…。
ことりん君、こんにちは。そんなに難しい顔してどうしたの?
また難しい話を引き受けてきちゃってさ…。ジャバ―ド先生はアニマルグラムっていうSNSサービスをつかったことある?
あぁ、もちろん使っているよ。画像とか動画をアップするSNSだよね。いまブームだし、やってない人はいないんじゃないかなぁ?で、アニマルグラムがどうしたの?
実はあのサービス、ゾウさんが開発したんだ。それでゾウさんが大量のログファイルを分析したいらしいんだ。
ふむふむ。そうなんだね。「大量のログファイル」っていったいどれくらいなの?
それが問題でさ…。ゾウさんがいうにはログファイルだけで数テラバイトあるらしいの…。そして、毎日数ギガバイトも増えているらしくて…。ボク、細かいことわかんないけど、結構えげつないよね…。
それはすごいね。たしかにユーザー数もかなり多いって聞くし、それくらいあっても不思議ではないかもしれないね。
そんな大量のログファイルってどうやって分析すればいいの??
ことりん君、そういうときはHadoop(ハドゥープ)をつかうといいよ!
Hadoop??
そう!Hadoopは大量データ分析などをとっても高速に処理できるオープンソースソフトウェアだよ!
ふむふむ…。そのHadoopってやつをつかえばログファイルの分析もできるってことかな??
そうだね!Hadoopはビッグデータに対応するために生み出された技術だから、数テラバイトのログファイルでも、あまり時間をかけずに高速に処理することができるよ。
そうなんだぁ。でも一体どういう仕組みなの??おばあちゃんが「おいしい話には裏があるから気を付けろ」っていってたからちょっと疑っちゃうよね…。
だいじょうぶ!Hadoopは、Google社が発表した論文をベースにして、すごい人たちが開発したものなんだよ。Hadoopは、たくさんのデータを処理するために散処理っていう方法を採用しているんだ。
分散処理??
そう。時間がかかる作業って1人でやるよりも、みんなでやったほうが早く終わるよね?Hadoopもそれと同じなんだよ。Hadoopを使うユーザーは1台のコンピュータしか意識しないけど、実はたくさんのコンピュータがバックグラウンドで動いていて、処理を分散することで高速化しているんだ。
だからとっても大きいデータも問題なく処理できるんだね。たしかにHadoopなら、ゾウさんがやりたい大量にあるログファイルの分析も実現できそうだね!
そうだね!ゾウさんにおすすめしてみるといいよ!
ありがとう!ジャバ―ド先生!
Hadoopとは?採用に役立つHadoopの基礎知識
Hadoopとは、分散処理を高速に行うことができるオープンソースソフトウェアです。一般的なアプリケーションでは、データをデータベースに保管します。また、データを分析する際は、そちらのデータベースからデータを参照します。ただ、データベースは大量データの分析などを行うことにはあまり向いていないため処理に時間がかかります。また、テキストファイル、画像、動画等の非構造化データと呼ばれるものもデータベースでは処理できません。
そのようなケースにおいて、Hadoopは効力を発揮します。Hadoopはテキストファイル、画像、動画等でも問題なく処理することが可能です。また、分散処理が可能であるため、大量データについても高速に処理することができます。
「ビッグデータ」や「情報銀行」というキーワードも注目を集めていますが、すでにデータが新たな価値を生み出す時代に突入しています。このような時代に、Hadoopは無くてはならない技術なのです。
Hadoopを使うエンジニア
Hadoopはデータを分析するためのソフトウェアです。そのため、データサイエンティストがよく使います。また、Hadoopを使用するためには、開発業務を行う必要があります。そのため、システムエンジニアやプログラマーといった開発工程を担当するエンジニアも
Hadoopを使うエンジニアの特徴と在籍業界
Hadoopを使うエンジニアは、大量データを扱う可能性が多い業界に属していることが多いです。具体的には、Web業界やスマートフォンアプリケーション業界などです。また、SIer業界などもプロジェクトによってはHadoopを使用することがあります。
採用する時に知っておくとよいこと
求人のポイント
求人を作成する時は、下記の内容を求人に入れるとよいです。
1システム(サービス)の詳細
※特にそのシステム(サービス)をなぜ作っているのかを熱量をもって記載する。
2開発環境
3現在のエンジニア組織の体制
4現行システムの課題と募集の背景
5求められる業務と期待値
6エンジニアとしてのスキルアップ支援制度の有無と詳細
7エンジニアチーム内での相互成長のための仕組み(勉強会やLT会など)の有無と詳細
8選考フロー
9待遇
10キャリアパス
豆知識
Hadoopはクラウドへ
Hadoopはオンプレに構築することが一般的でしたが、最近ではクラウドサービス上で運用するケースが増えています。この背景には、クラウドベンダーの各社がサービスを提供していることに加えて、処理性能を上げたい場合、クラウドサービスであれば容易に対応できることなどが理由としてあげられます。
以下は各クラウドベンダーが展開しているHadoopに関連したサービスです。
- AWS:Amazon EMR
- Azure:Azure HDInsight
- GCP: Google Cloud Dataproc
Hadoopを使った有名な企業・サービス
・楽天モバイル株式会社
もともと楽天グループでは、以前からHadoopを導入していましたが、最近注力している楽天モバイル株式会社でもHadoopを活用しています。
・株式会社リクルート
suumo、ゼクシィ、Hot Pepperなど有名なサービスを数多く運営している株式会社リクルートもHadoopを導入しています。同社によれば、ゼクシィnetの膨大なログデータの分析について、以前は14時間かかっていたものが、Hadoopの導入により、わずか15分で完了するようになったとのことです。
https://oss.nttdata.com/case3_recruit.html
・ヤフー株式会社
ヤフーではHadoopで約37ペタバイトという膨大なデータを扱っており、このデータは、日々60テラバイト増加しているそうです。このような量のデータを処理できるのは、分散処理を可能としたHadoopならではといえるでしょう。
Hadoop関連のイベント
日本Hadoop協会が不定期にHadoop / Spark Conference Japanというイベントを開催しています。登壇者をみても、ソフトバンク、LINE、ヤフー、楽天、SmartNewsといった日本を代表するIT企業の方がそろっていることが分かります。
http://hadoop.apache.jp/hcj2019-program/