Azure Data Lake については、 Build でも発表がありましたが概要のみでした。今回よりどんな技術か?どのように使用するか?というより詳細な技術について発表がありました。今年中にプレビューとして使用出来る見込みです。
僕が最初にまず言いたいことは、Microsoft 嫌いな人も是非使って欲しいです。理由は後述します。
Build の時の発表内容についてはこちら。
今回の発表はこちら。
記事中では、「Azure Data Lake Analytics」「Azure Data Lake Store」「U-SQL」というキーワードが出てきます。その他「Cosmos」とか「Dryad」とかもでてきますがとりあえず先の3つを抑えておけば大丈夫でしょう。
さて、これらがどのようなものか見ていきましょう。
「Azure Data Lake Analytics」「Azure Data Lake Store」「U-SQL」とは?
HDFS互換の「Azure Data Lake Store」にデータを貯めて、Apache YARN で構成された「Azure Data Lake Analytics」で解析する。そのとき使う言語が「U-SQL」のようです。
「U-SQL」以外にも「Azure Data Lake Store」は HDFS 互換なので、「HD Insight」(マネージドな Hadoop)を使用して、Hive, Spark, HBase and Storm も使用出来るようです。
詳細は次の SQL Server Blog (英語) の図がわかりやすいので引用します。
そして、この blog 中に次の記載があります。これが最初に記載したMicrosoft嫌いの人も是非使って欲しい理由です。
“Hortonworks and Microsoft have partnered closely over many years to further the Hadoop platform for big data analytics, including contributions to YARN, Hive, and other Apache projects,” said Rob Bearden, CEO at Hortonworks.
Microsoft だからどうせ SQL Server だけとか、ベンダーロックインとか思っているかもしれませんが、そんなこと無いです。ちゃんと YARN, Hive, そして数々の Apache projects にちゃんと貢献しています。
これはすごい楽しみです。「U-SQL」については別途また書きたいと思います。
今夜開催される AzureCon で詳しい発表があるようです。英語ですが、日本でも JAZUG の有志が同時通訳?中継をするようなので、是非ご興味のある方は見てください。