こんにちは!データ周りをやってる朴です。 先日ご紹介があったとおり「開発・デザイン部」はついに独立?!して違うフロアに移動しました。 つい先日まで冷蔵庫も電子レンジもなく少し寂しい感じがしたのですが、本日ついに必需品が揃い、みんながテンショ…
こんにちは、福田です。 新緑が目を刺すGW明け、オフィスを引っ越しました。最近人が増えてきたため、開発・デザイン部は7Fから、8Fの新しいスペースへの移動です。なので、正確にはフロアを跨ぐ座席移動になります。私にとって、6回目の社内引越です。 午前…
こんにちは、朴と申します。 本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。 ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、 ちょっとした設定でスムーズに動かせた…
こんにちは、福田 a.k.a. FDKです。 バルトークのアレグロ・バルバロを聴きながらバルクロードを実行しています。 点と点をこねくり回していると、イノヴェイションが生まれることがあります。 そう、まさに “Connecting the Dots” の瞬間です。 はじめに Ne…
福田です。 ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。 クラウドでは従量課金を活かしてコストの最適化を図ることができます。 今回、Cloudera Manag…
こんにちは。福田です。 来る11月8日(火)、Cloudera World Tokyo 2016にて、午後のブレイクアウトセッションに登壇します。 『HBaseで実現する大量の特許文書データを扱うためのアーキテクチャとベストプラクティス』と題しまして、イノベーションを支える…
こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセット…
自己紹介 こんにちは、astamuseでデータエンジニアをやってる朴と申します。 astamuse入社3年目になります。 最初の1年間はweb開発エンジニアをやってましたが、 もともとデータを色々いじるのが好きだったので、上司と相談して1年前から現在の仕事をさせ…
はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…