2018年がデータエンジニアの年になる理由1

高度な分析やビジネス、コーディングスキルに長けたデータサイエンティストの不足は、長年にわたって話題に上がってきました。そんな中、企業は成功に必要不可欠であるデータチームの主要部分の不足という事態に直面しています。その不足というのがデータエンジニアです。

データエンジニアは設計、構築、組織の分析やトランザクション処理を目的としたデータベースシステムの保守などの分野でのエクスパートです。そうした数量的能力を誇示することはありませんが、複雑な機械学習モデルの構築など、データエンジニア達はデータサイエンスの作業負荷をサポートするために次のような作業を担っています。

・データ採集のためのデータパイプラインを構築し、ストレージに移動する
・ETLもしくはELTのプロセスの一部としてデータを仕込む
・データとスクリプト言語を繋ぎ合わせる
・DBAと共にデータストアを造る
・データが使える状態にあるかの保証をする
・データの提供にフレームワークとマイクロサービスを利用する

要するにデータエンジニアの仕事は、ビジネスで必要としている人達にクリーンで信頼のできるデータを供給することです。データサイエンティストの才気に比べ、データエンジニアは現場に慣れている熟練の配管工のようなものです。もしデータサイエンティストが新しいデータソースを収益化するグランドプランを思い付いたとしたら、データを移行するパイプラインの構築や、データをクレンズするためのトランスフォーメーションの作成、データサイエンティストの持つデータの安全を確保するサービスの実現などがデータエンジニアの仕事となります。

エンジニアの不足
データエンジニアは、企業がデータサイエンスプロジェクトを実行に移す際の決め手となります。ビッグデータミドルウェアのデベロッパーであるDremio社の共同創設者兼CEOのTomer Shiran氏によると、シリコンバレーの企業を筆頭に、近年データエンジニアを求める動きが強まってきているようです。

「データサイエンスプロジェクトで成功を収めるには、データサイエンティストに対して1対1の割合でデータエンジニアが必要です。ですが、盛り上がりを見せているシリコンバレーの企業ですら、その割合を2:1にすることが出来ないのです。能力の高いエンジニアの不足と、コストの問題です。」とShiran氏は語ります。
Hadoop、Amazon S3、Azure BLOBのようなデータストアの複雑なテクニカル性はデータエンジニアの需要を更に高めています。Shiran氏はその理由を「全般的に、エンジニアのみがシステムの対価を得られる状況だ からです」と説明します。(Demio社のソフトウェアはアナリストが”彼ら自身がエンジニアになる”ことが可能になるようにデザインされたそうです)

データエンジニアの不足は、彼らの需要を後押ししています。データエンジニアの求人情報をGlassdoorで検索してみたところ、全世界で107,730件がヒットしました。ほとんどは10万ドルを上回る初任給で、いくつかの企業は15万ドル以上を提示していました。これとは対照的にデータサイエンティストの求人件数は、同じく高い金額が提示されているものの21,760件に留まりました。Indeedの求人情報ではデータエンジニアに98,218件の求人が集まっているのに対し、データサイエンティストは24,695件と、約4倍の差がついていることがわかります。

Umbelのエンジニアリング・シニアディレクターを務めるKevin Stafford氏は「エンジニアリングは我々のデータプラットフォームを利用しているスポーツフランチャイズにもたらす価値の大部分を占めています。もし一からそれを構築するとなると、悪夢のような時間を過ごすことになるでしょう。第一、彼らはエンジニアリング企業でもソフトウェア企業でもありません。現在にたどり着くまで、優秀な人材を揃えることに苦労しましたし、たくさんの時間を費やしました。」と企業としての苦労を語ります 。

Umbelはいろいろなオープンソースと特許技術(Spark、Cassandra、ElasticSearchなど)を使い、チケットの購入方法やソーシャルメディアでの行動、ブランドへの興味、購入層や心理学のプロファイルなどを含んだスポーツ関係の消費者のメトリックをトラックするデータベースを作成しました。

「我々は特定の2億人に関する何万ものカラムを保持していますが、それはただの莫大なデータに過ぎません。データセットの管理は簡単ではないものの、それよりも大変なのは、それらの情報を素早く検索できる状態にすることです。簡単に思えるかもしれませんが、とても難しいことなのです。」とStafford氏は語りました 。