Cloudera認定資格の体系・試験方式
認定資格にも目を向けてみよう。Cloudera Universityが提供する認定資格は、難易度により大きく「Cloudera認定アソシエート(CCA)」と「Cloudera認定プロフェッショナル(CCP)」の2レベルに分けられている。CCAがベーシックレベル、CCPがプロフェッショナルレベルである。CCAには3つ、CCPには2つの資格がある。また、これらの資格は対象者・対象スキルにより管理者、データ分析者、開発者という3系統にも分かれる。
管理者向け資格
CCAの「Cloudera Apache Hadoop 認定管理者(CCAH)」が該当する。Clouderaの認定資格でありながら、試験内容はClouderaディストリビューションに限定せずHadoopの運用管理について幅広く問うものだ。この試験およびこれに対応したトレーニングは人気が高いという。なお、この資格は近く新資格「CCA 管理者」へ切り替わる予定である。
データ分析者向け資格
「CCA データアナリスト」と「CCP データサイエンティスト」がある。データ分析が業務の人向けとなり、データ可視化やデータをどう取得するかなどのスキルが問われる。上位の「CCP データサイエンティスト」は特に難易度が高く、統計学や機械学習などの知識も必要な上、資格取得には3つの試験に合格しなければならない(他の資格は全て1試験)。両試験とも日本語試験はない(英語試験のみ)。
開発者向け資格
「CCA Spark & Hadoop 開発者」と「CCP データエンジニア」がある。データをアプリケーションで用るためにデータの移動や変換などのスキルが問われる。こちらも現在は英語試験のみだが、今後、日本語試験を提供する予定がある。余談であるが、英語以外で試験が実施されているのは日本語だけだそうだ。
なお、試験は実践力を問う実技試験となっている(CCAHを除く)。例えば、「CCA Spark & Hadoop 開発者」では特定のシナリオを解決することが求められる。試験では、ScalaかPythonで書かれたテンプレート(解答のスケルトンを含む)が提供されるが、その利用は必須ではない。正しい結果を導くことができるコードが書ければ正解となる。このような出題方式であるため、暗記に頼る勉強方法では通用しない。
どの試験も問題数は少なめだ。例えば「CCA Spark & Hadoop 開発者」や「CCA データアナリスト」では、試験時間は120分で問題数は10~12問。つまり、解答するのに相応の時間がかかる問題ばかりということだ。大変だがその分、認定が取得できれば技術力の証明となる。
どこでも受験可能なオンラインでの実技試験
特殊な点として、Cloudera認定資格試験は、自宅のパソコンなどから受験する。IT資格試験は試験配信会社の公認テストセンターで受験する場合がほとんどなので、例外的な方法だといえる。実技試験を行う環境はオンライン上に構築されており、受験者はそこにアクセスして設問に設定や実装などを行う。試験中には、オンラインドキュメント(試験環境に用意されたもの)を参照することもできる。
ただし、受験時にはインターネット接続できるパソコンだけでなく、Webカメラ(ノートパソコンの内蔵カメラなどでもOK)や特定のブラウザの用意も必要になる。カメラは不正をしていないか監視するためのもので、試験中の顔は常に監視されていると考えていい。試験場所は選ばないが、ネットワーク通信が安定していて、周囲が静かで試験に集中できるところから受験したほうがいいだろう。
取材の最後に川崎氏は、「海外から遅れること数年。日本でもいよいよHadoopが本格的に実用化の段階へと進みつつあります。これからもトレーニングを通じてエンジニアを支援していきたいです」とこれからの意気込みを力強く語った。
コラム なぜApache Hadoopの利用が広まっているのか
Hadoop発展の背景には「ビッグデータ」ブームがある。大量にデータを収集し、分析することで新たな気づきを得られるとして、大きな期待が寄せられたのだ。事業の新規開拓や競争力向上など、ビッグデータの処理能力は、今やビジネスで欠かせないものととらえられてきている。ちなみに、データを大量に蓄積する場として「データレイク」という言葉もよく聞くが、多くがHadoopベースのプラットフォームを前提としている。Hadoop技術は企業システムでは不可欠な存在になりつつある。
初期のHadoopは分散ファイルシステムのHDFS(Hadoop Distributed File System)と分散処理のためのMapReduceから構成され、大量のデータを分散環境に保存するための技術として生まれた。「データを保存する」という目的からデータベースと混同されがちで、当初は「厳密には違う」という補足もよく見かけたほどだ。
しかし、その後にApache Hiveなど、HadoopでSQLを使うための「SQL on Hadoop」技術も多数生まれ、Hadoopとデータベースの差は縮まり、同列に扱われることも増えてきている。近年ではMapReduceのほかにも、ジョブ管理などを行うYARN(Yet Another Resource Negotiator)やApache Sparkなどが加わり、今やHadoop関連技術は百花繚乱である。
Hadoopへの関心度の高さは、イベント開催数からもうかがえる。昨年(2016年)はHadoopの誕生から10周年だったこともあり、多数の大規模イベントが開催された。1つの技術でこれだけ多く開催されるのは珍しい。まず2月に「Hadoop/Spark Conference Japan 2016」(日本Hadoopユーザー会主催)が開催され、10月には日本では初開催となるHadoopのグローバルイベント「Hadoop Summit 2016 Tokyo」もあった。
さらに11月には、Cloudera主催による「Cloudera World Tokyo 2016」も開催された。一見して同社のプライベートイベントのようにも見えるが、「Hadoop生みの親」ともいわれているダグ・カッティング氏が登壇してApache Hadoopの歴史を語るなど、Hadoopをメインテーマに掲げたイベントとなっていた。
なお、Clouderaでは東京と大阪で勉強会を開催している。セミナーの開催情報は同社のセミナーページで確認できる。