astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

Spark3分クッキング HBaseで作る100万通りの文書分類器

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分…

Cloudera World Tokyo 2016登壇します!!

こんにちは。福田です。 来る11月8日(火)、Cloudera World Tokyo 2016にて、午後のブレイクアウトセッションに登壇します。 『HBaseで実現する大量の特許文書データを扱うためのアーキテクチャとベストプラクティス』と題しまして、イノベーションを支える…

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし

はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…

Copyright © astamuse company, ltd. all rights reserved.