読者です 読者をやめる 読者になる 読者になる

astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

Spark 2.0を使ってみた

山縣です。 新年あけましておめでとうございます。 本年もよろしくお願いいたします。 去年弊社の福田が CDH のアップグレードをしてくれてSpark が1.6系になるとともに、並行してSparkの2.0が使えるようになりました。(Spark2.0の導入については福田の記事…

もう待てない、Spark2.0の導入と実践

こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセット…

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし

はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…

Spark の driver で起きたエラーとその対応

はじめまして山縣です。 私のチームでは弊社のサービスやコンサルティングなどで必要となる特許やその他さまざまなデータを収集・解析しています。特許情報などのデータはデータサイズとして大規模であったり複雑だったりすることもあり Hadoop なども含めた…

Copyright © astamuse company, ltd. all rights reserved.