astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

Hadoop

うわっ・・・先月のコスト、低すぎ・・・?Hadoopクラスタのクラウド移行とSparkオンデマンド

福田です。 ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。 クラウドでは従量課金を活かしてコストの最適化を図ることができます。 今回、Cloudera Manag…

Cloudera World Tokyo 2016登壇します!!

こんにちは。福田です。 来る11月8日(火)、Cloudera World Tokyo 2016にて、午後のブレイクアウトセッションに登壇します。 『HBaseで実現する大量の特許文書データを扱うためのアーキテクチャとベストプラクティス』と題しまして、イノベーションを支える…

もう待てない、Spark2.0の導入と実践

こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセット…

HadoopのWordCountを天気予報のデータに適用してみよう!

自己紹介 こんにちは、astamuseでデータエンジニアをやってる朴と申します。 astamuse入社3年目になります。 最初の1年間はweb開発エンジニアをやってましたが、 もともとデータを色々いじるのが好きだったので、上司と相談して1年前から現在の仕事をさせ…

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし

はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…

Copyright © astamuse company, ltd. all rights reserved.