astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

Apache Spark 2.3 Vectorized ORC Reader 性能検証

こんにちは!データ周りをやってる朴です。 先日ご紹介があったとおり「開発・デザイン部」はついに独立?!して違うフロアに移動しました。 つい先日まで冷蔵庫も電子レンジもなく少し寂しい感じがしたのですが、本日ついに必需品が揃い、みんながテンショ…

初公開!データエンジニアのデスクトップ。1/3日の順調な環境移行

こんにちは、福田です。 新緑が目を刺すGW明け、オフィスを引っ越しました。最近人が増えてきたため、開発・デザイン部は7Fから、8Fの新しいスペースへの移動です。なので、正確にはフロアを跨ぐ座席移動になります。私にとって、6回目の社内引越です。 午前…

Spark でUnit Testを書く

こんにちは、朴と申します。 本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。 ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、 ちょっとした設定でスムーズに動かせた…

DB3分クッキング Neo4jではじめるグラフデータベース入門

こんにちは、福田 a.k.a. FDKです。 バルトークのアレグロ・バルバロを聴きながらバルクロードを実行しています。 点と点をこねくり回していると、イノヴェイションが生まれることがあります。 そう、まさに “Connecting the Dots” の瞬間です。 はじめに Ne…

うわっ・・・先月のコスト、低すぎ・・・?Hadoopクラスタのクラウド移行とSparkオンデマンド

福田です。 ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。 クラウドでは従量課金を活かしてコストの最適化を図ることができます。 今回、Cloudera Manag…

Cloudera World Tokyo 2016登壇します!!

こんにちは。福田です。 来る11月8日(火)、Cloudera World Tokyo 2016にて、午後のブレイクアウトセッションに登壇します。 『HBaseで実現する大量の特許文書データを扱うためのアーキテクチャとベストプラクティス』と題しまして、イノベーションを支える…

もう待てない、Spark2.0の導入と実践

こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセット…

HadoopのWordCountを天気予報のデータに適用してみよう!

自己紹介 こんにちは、astamuseでデータエンジニアをやってる朴と申します。 astamuse入社3年目になります。 最初の1年間はweb開発エンジニアをやってましたが、 もともとデータを色々いじるのが好きだったので、上司と相談して1年前から現在の仕事をさせ…

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし

はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…

Copyright © astamuse company, ltd. all rights reserved.