2018年がデータエンジニアの年になる理由2

パラレルビッグデータの世界
Overstock.comのグループプロダクトマネジャーCraig Kelly氏は「データサイエンスにはデータ管理面とデータ統計面の、2つのパラレルワールドが存在します。これらがオーバーラップすることはありません。我々のデータサイエンスグループに焦点を当てた時、彼らがとても優秀なデータサイエンティストだということは明らかなのですが、データエンジニアリングの面ではその力を発揮しないのです。」と話します。

強力な1対1のマーケティングマシーンを作り上げるには、Overstock.comはデータエンジニアリングの不足という問題を乗り越えなければいけませんでしたが、クラウドベースのデータ分析ソリューションを取り入れることにより、ある程度は解決することができました。「サポートに関してのデータエンジニアリング面での十分なリソースを持ち合わせていなかったので、SnowflakeやDatabricksを使い、データエンジニアリングの技術ではなく処理能力でその不足を補うことにしました。そうすることで、データサイエンティストが他の分野について新たに学ぶという手間を省くことができました」とKelly氏は語りました。

ストリーミング分析ソフトウェア販売Striimの創設者兼CTOであるSteve Wilkes氏はこう語ります。「企業はデータを選り好みするようになっていて、結果として、データレイクに放り込む代わりにそれらのデータを先に統合するようになりました。人員の配置や、彼らへの指示の内容にも変化が見られ、データサイエンティストにデータエンジニアの作業内容も任せる場合もあるのです。最近特に顕著になっているのが、データサイエンティストもイニシャルデータの採集を任されたり、インメモリデータの作成・フィーチャの抽出・正しいフォームで物事を進めるなど、データ作成におけることに関して先に発言する機会を得始めていることです。企業はデータレイクへのデータの格納に頭を悩ませています。バリューを得ることが大変難しくなるわけですから、無理もありません。」

エンジニアリングの成功
専門のデータエンジニアの不足により、データサイエンティストがどんなに良いプロジェクトを提案しても、それがつまづいてしまう可能性があるとUmbelのStafford氏は言います。

「成功するにはパラレルの両方に存在する問題を解決しなければいけません。なぜなら、データ管理に時間や労力、資金をいくら費やしてもそれを利用できないのであれば、膨大なコストをかけ無駄骨を折ることになるだけに過ぎないからです。そして同時に、問題の解決に特に役立つデータセットの作成・管理・保守を正しく行わないのなら、その分析チームは何もしていないことを意味します。」

Stafford氏は、ずさんなデータエンジニアのおかげでデータプロジェクトが台無しになる様子を何度も目にしてきました。
「データアプリケーションを作成するのと、とても大きなスケールのウェブアプリケーションを作るのでは、根本的な専門分野が違うのです。デッキを作る請負業者を雇ったり職人に任せるのと同じように、自分の時間を確保するために代金を払っているだけでなく、手遅れになる前に自分の間違いに気が付けるという点にも対価が生じています。」と彼は言い、こう続けました。

「企業はよくデータエンジニアの経験はプロジェクトをこなしているうちに身に付くと言いますが、大抵は間違っています。努力して得たものが特になかったり、データパイプライン、データ管理システム、データ分析、データを利用可能にし、それが正しいかどうかや行動が正しいかどうかを分析する中間コードなど、これらを構築した経験がないのであれば、放っておいても経験は付いて来ません。特定の専門知識がなければ、これらは後々解決出来るものに感じられるでしょうし、そう思い込む人達を多く見てきました。それは全くの間違いで、彼らはいつも同じ間違いをおかすのです。」