astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

Spark で機械学習を社内データに適用してみた

山縣です。夏休みの宿題のようにブログの当番が回ってきました。 機械学習が非常に注目を浴びている今日このごろですが、私もデータ関連を扱うソフトエンジニアの端くれとして機械学習について学んだり、機械学習のアルゴリズムを時々試したりしています。 …

Apache Spark 2.3 Vectorized ORC Reader 性能検証

こんにちは!データ周りをやってる朴です。 先日ご紹介があったとおり「開発・デザイン部」はついに独立?!して違うフロアに移動しました。 つい先日まで冷蔵庫も電子レンジもなく少し寂しい感じがしたのですが、本日ついに必需品が揃い、みんながテンショ…

初公開!データエンジニアのデスクトップ。1/3日の順調な環境移行

こんにちは、福田です。 新緑が目を刺すGW明け、オフィスを引っ越しました。最近人が増えてきたため、開発・デザイン部は7Fから、8Fの新しいスペースへの移動です。なので、正確にはフロアを跨ぐ座席移動になります。私にとって、6回目の社内引越です。 午前…

CoreNLPを使ってみる(3) Spark編

山縣です。 前回に引き続き CoreNLP を触っていきたいと思います。 前回までに API の使い方を見てきたので、今回は Spark からの使い方を見ていきたいと思います。 spark-corenlp セットアップ spark からCoreNLPを容易に使用する方法として spark-corenlp …

Spark でUnit Testを書く

こんにちは、朴と申します。 本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。 ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、 ちょっとした設定でスムーズに動かせた…

Spark3分クッキング HBaseで作る100万通りの文書分類器

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分…

Apache Zeppelin と Spark2 on YARN の連携

こんにちは、データ周りを担当してる朴です。 今日はのデータ分析、可視化ツールで注目されているApache ZeppelinとSparkの連携およびZeppelinのマルチユーザー環境の設定について共有したいと思います。 簡単な紹介 簡単にApache zeppelinの紹介をしますと…

うわっ・・・先月のコスト、低すぎ・・・?Hadoopクラスタのクラウド移行とSparkオンデマンド

福田です。 ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。 クラウドでは従量課金を活かしてコストの最適化を図ることができます。 今回、Cloudera Manag…

Databricks Community Edition で Spark に触れる

山縣です。 今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。 …

Spark 2.0 で Spark SQLを試す

こんにちは!Spark大好きな朴です。 本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spa…

Spark 2.0を使ってみた

山縣です。 新年あけましておめでとうございます。 本年もよろしくお願いいたします。 去年弊社の福田が CDH のアップグレードをしてくれてSpark が1.6系になるとともに、並行してSparkの2.0が使えるようになりました。(Spark2.0の導入については福田の記事…

もう待てない、Spark2.0の導入と実践

こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセット…

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし

はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…

Spark の driver で起きたエラーとその対応

はじめまして山縣です。 私のチームでは弊社のサービスやコンサルティングなどで必要となる特許やその他さまざまなデータを収集・解析しています。特許情報などのデータはデータサイズとして大規模であったり複雑だったりすることもあり Hadoop なども含めた…

Copyright © astamuse company, ltd. all rights reserved.