2018年がデータエンジニアの年になる理由2

パラレルビッグデータの世界
Overstock.comのグループプロダクトマネジャーCraig Kelly氏は「データサイエンスにはデータ管理面とデータ統計面の、2つのパラレルワールドが存在します。これらがオーバーラップすることはありません。我々のデータサイエンスグループに焦点を当てた時、彼らがとても優秀なデータサイエンティストだということは明らかなのですが、データエンジニアリングの面ではその力を発揮しないのです。」と話します。

強力な1対1のマーケティングマシーンを作り上げるには、Overstock.comはデータエンジニアリングの不足という問題を乗り越えなければいけませんでしたが、クラウドベースのデータ分析ソリューションを取り入れることにより、ある程度は解決することができました。「サポートに関してのデータエンジニアリング面での十分なリソースを持ち合わせていなかったので、SnowflakeやDatabricksを使い、データエンジニアリングの技術ではなく処理能力でその不足を補うことにしました。そうすることで、データサイエンティストが他の分野について新たに学ぶという手間を省くことができました」とKelly氏は語りました。

ストリーミング分析ソフトウェア販売Striimの創設者兼CTOであるSteve Wilkes氏はこう語ります。「企業はデータを選り好みするようになっていて、結果として、データレイクに放り込む代わりにそれらのデータを先に統合するようになりました。人員の配置や、彼らへの指示の内容にも変化が見られ、データサイエンティストにデータエンジニアの作業内容も任せる場合もあるのです。最近特に顕著になっているのが、データサイエンティストもイニシャルデータの採集を任されたり、インメモリデータの作成・フィーチャの抽出・正しいフォームで物事を進めるなど、データ作成におけることに関して先に発言する機会を得始めていることです。企業はデータレイクへのデータの格納に頭を悩ませています。バリューを得ることが大変難しくなるわけですから、無理もありません。」

エンジニアリングの成功
専門のデータエンジニアの不足により、データサイエンティストがどんなに良いプロジェクトを提案しても、それがつまづいてしまう可能性があるとUmbelのStafford氏は言います。

「成功するにはパラレルの両方に存在する問題を解決しなければいけません。なぜなら、データ管理に時間や労力、資金をいくら費やしてもそれを利用できないのであれば、膨大なコストをかけ無駄骨を折ることになるだけに過ぎないからです。そして同時に、問題の解決に特に役立つデータセットの作成・管理・保守を正しく行わないのなら、その分析チームは何もしていないことを意味します。」

Stafford氏は、ずさんなデータエンジニアのおかげでデータプロジェクトが台無しになる様子を何度も目にしてきました。
「データアプリケーションを作成するのと、とても大きなスケールのウェブアプリケーションを作るのでは、根本的な専門分野が違うのです。デッキを作る請負業者を雇ったり職人に任せるのと同じように、自分の時間を確保するために代金を払っているだけでなく、手遅れになる前に自分の間違いに気が付けるという点にも対価が生じています。」と彼は言い、こう続けました。

「企業はよくデータエンジニアの経験はプロジェクトをこなしているうちに身に付くと言いますが、大抵は間違っています。努力して得たものが特になかったり、データパイプライン、データ管理システム、データ分析、データを利用可能にし、それが正しいかどうかや行動が正しいかどうかを分析する中間コードなど、これらを構築した経験がないのであれば、放っておいても経験は付いて来ません。特定の専門知識がなければ、これらは後々解決出来るものに感じられるでしょうし、そう思い込む人達を多く見てきました。それは全くの間違いで、彼らはいつも同じ間違いをおかすのです。」

2018年がデータエンジニアの年になる理由1

高度な分析やビジネス、コーディングスキルに長けたデータサイエンティストの不足は、長年にわたって話題に上がってきました。そんな中、企業は成功に必要不可欠であるデータチームの主要部分の不足という事態に直面しています。その不足というのがデータエンジニアです。

データエンジニアは設計、構築、組織の分析やトランザクション処理を目的としたデータベースシステムの保守などの分野でのエクスパートです。そうした数量的能力を誇示することはありませんが、複雑な機械学習モデルの構築など、データエンジニア達はデータサイエンスの作業負荷をサポートするために次のような作業を担っています。

・データ採集のためのデータパイプラインを構築し、ストレージに移動する
・ETLもしくはELTのプロセスの一部としてデータを仕込む
・データとスクリプト言語を繋ぎ合わせる
・DBAと共にデータストアを造る
・データが使える状態にあるかの保証をする
・データの提供にフレームワークとマイクロサービスを利用する

要するにデータエンジニアの仕事は、ビジネスで必要としている人達にクリーンで信頼のできるデータを供給することです。データサイエンティストの才気に比べ、データエンジニアは現場に慣れている熟練の配管工のようなものです。もしデータサイエンティストが新しいデータソースを収益化するグランドプランを思い付いたとしたら、データを移行するパイプラインの構築や、データをクレンズするためのトランスフォーメーションの作成、データサイエンティストの持つデータの安全を確保するサービスの実現などがデータエンジニアの仕事となります。

エンジニアの不足
データエンジニアは、企業がデータサイエンスプロジェクトを実行に移す際の決め手となります。ビッグデータミドルウェアのデベロッパーであるDremio社の共同創設者兼CEOのTomer Shiran氏によると、シリコンバレーの企業を筆頭に、近年データエンジニアを求める動きが強まってきているようです。

「データサイエンスプロジェクトで成功を収めるには、データサイエンティストに対して1対1の割合でデータエンジニアが必要です。ですが、盛り上がりを見せているシリコンバレーの企業ですら、その割合を2:1にすることが出来ないのです。能力の高いエンジニアの不足と、コストの問題です。」とShiran氏は語ります。
Hadoop、Amazon S3、Azure BLOBのようなデータストアの複雑なテクニカル性はデータエンジニアの需要を更に高めています。Shiran氏はその理由を「全般的に、エンジニアのみがシステムの対価を得られる状況だ からです」と説明します。(Demio社のソフトウェアはアナリストが”彼ら自身がエンジニアになる”ことが可能になるようにデザインされたそうです)

データエンジニアの不足は、彼らの需要を後押ししています。データエンジニアの求人情報をGlassdoorで検索してみたところ、全世界で107,730件がヒットしました。ほとんどは10万ドルを上回る初任給で、いくつかの企業は15万ドル以上を提示していました。これとは対照的にデータサイエンティストの求人件数は、同じく高い金額が提示されているものの21,760件に留まりました。Indeedの求人情報ではデータエンジニアに98,218件の求人が集まっているのに対し、データサイエンティストは24,695件と、約4倍の差がついていることがわかります。

Umbelのエンジニアリング・シニアディレクターを務めるKevin Stafford氏は「エンジニアリングは我々のデータプラットフォームを利用しているスポーツフランチャイズにもたらす価値の大部分を占めています。もし一からそれを構築するとなると、悪夢のような時間を過ごすことになるでしょう。第一、彼らはエンジニアリング企業でもソフトウェア企業でもありません。現在にたどり着くまで、優秀な人材を揃えることに苦労しましたし、たくさんの時間を費やしました。」と企業としての苦労を語ります 。

Umbelはいろいろなオープンソースと特許技術(Spark、Cassandra、ElasticSearchなど)を使い、チケットの購入方法やソーシャルメディアでの行動、ブランドへの興味、購入層や心理学のプロファイルなどを含んだスポーツ関係の消費者のメトリックをトラックするデータベースを作成しました。

「我々は特定の2億人に関する何万ものカラムを保持していますが、それはただの莫大なデータに過ぎません。データセットの管理は簡単ではないものの、それよりも大変なのは、それらの情報を素早く検索できる状態にすることです。簡単に思えるかもしれませんが、とても難しいことなのです。」とStafford氏は語りました 。