読者です 読者をやめる 読者になる 読者になる

Technology Topics by Brains

ブレインズテクノロジーの研究開発機関「未来工場」で働くエンジニアが、先端オープン技術、機械学習×データ分析(異常検知、予兆検知)に関する取組みをご紹介します。

Apache Zeppelin & Spark SQLでサーバのログデータを整形・可視化する

こんにちは。春休みにブレインズテクノロジーのインターンシップに参加した、現在学部4年生の松井です。 インターン中にやったこと、ハマったことなどをまとめてみました。 やったこと Spark SQLについて 実行環境について S3に置かれているログデータをロー…

Spark1.6.0のDataset APIを触ってみた

あけましておめでとうございます。 Impulse開発チームの木村です。 今回は、Spark 1.6.0で導入されたDataset APIを、spark-shell上で触ってみました。 Dataset APIとは Dataset APIは、RDDやDataFrameと同じく、データのまとまりを扱うためのAPIです。 RDDと…

【Spark】Window Functions(その2)

どうも、ポンセです。 前回の続きです(タイトルを微妙に変えていますが)。SparkというよりSQLのWindow関数周りの話になっている気がしますが、気にせず書きます。今回はSQLの形式で書きたいと思います。 ROWS 前回と同様にグループ単位での平均値を行毎で…

pysparkのWindow Functions(その1)

はじめまして、ブレインズテクノロジーのポンセです。pysparkにWindow Functions(ウィンドウ関数)の機能がSpark 1.4で追加されました。 pyspark.sql module — PySpark 1.4.1 documentationこのWindow Functions、ランキングや移動平均値等々の集計を行うと…