Apache Spark 2.3 Vectorized ORC Reader 性能検証

こんにちは！データ周りをやってる朴です。先日ご紹介があったとおり「開発・デザイン部」はついに独立？！して違うフロアに移動しました。つい先日まで冷蔵庫も電子レンジもなく少し寂しい感じがしたのですが、本日ついに必需品が揃い、みんながテンショ…

初公開！データエンジニアのデスクトップ。1/3日の順調な環境移行

こんにちは、福田です。新緑が目を刺すGW明け、オフィスを引っ越しました。最近人が増えてきたため、開発・デザイン部は7Fから、8Fの新しいスペースへの移動です。なので、正確にはフロアを跨ぐ座席移動になります。私にとって、6回目の社内引越です。午前…

Big Data Hadoop Spark テストデータ開発エンジニア

こんにちは、朴と申します。本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、ちょっとした設定でスムーズに動かせた…

Big Data DB Hadoop イノベーションデータ開発エンジニア

こんにちは、福田 a.k.a. FDKです。バルトークのアレグロ・バルバロを聴きながらバルクロードを実行しています。点と点をこねくり回していると、イノヴェイションが生まれることがあります。そう、まさに “Connecting the Dots” の瞬間です。はじめに Ne…

クラウド Cloudera Hadoop Spark Jenkins データ開発エンジニアコスト最適化

福田です。ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。クラウドでは従量課金を活かしてコストの最適化を図ることができます。今回、Cloudera Manag…

Hadoop HBase Cloudera データ開発エンジニア

こんにちは。福田です。来る11月8日（火）、Cloudera World Tokyo 2016にて、午後のブレイクアウトセッションに登壇します。『HBaseで実現する大量の特許文書データを扱うためのアーキテクチャとベストプラクティス』と題しまして、イノベーションを支える…

Spark YARN Hadoop データ開発エンジニア

こんにちは、福田です。すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。今回は、先月末（9/29)にリリースされたCDH向けのSpark2.0 β版のセット…

自己紹介こんにちは、astamuseでデータエンジニアをやってる朴と申します。 astamuse入社３年目になります。最初の１年間はweb開発エンジニアをやってましたが、もともとデータを色々いじるのが好きだったので、上司と相談して１年前から現在の仕事をさせ…

Hadoop Spark HBase Java Scala Python YARN テキスト処理データ開発エンジニア

はじめまして。開発・インフラ部、福田です。分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…