Spark で機械学習を社内データに適用してみた

山縣です。夏休みの宿題のようにブログの当番が回ってきました。機械学習が非常に注目を浴びている今日このごろですが、私もデータ関連を扱うソフトエンジニアの端くれとして機械学習について学んだり、機械学習のアルゴリズムを時々試したりしています。 …

2018-05-30

Apache Spark 2.3 Vectorized ORC Reader 性能検証

Spark Hadoop データ開発エンジニア働き方

こんにちは！データ周りをやってる朴です。先日ご紹介があったとおり「開発・デザイン部」はついに独立？！して違うフロアに移動しました。つい先日まで冷蔵庫も電子レンジもなく少し寂しい感じがしたのですが、本日ついに必需品が揃い、みんながテンショ…

2018-05-16

初公開！データエンジニアのデスクトップ。1/3日の順調な環境移行

データ開発エンジニア Hadoop Spark コスト最適化

こんにちは、福田です。新緑が目を刺すGW明け、オフィスを引っ越しました。最近人が増えてきたため、開発・デザイン部は7Fから、8Fの新しいスペースへの移動です。なので、正確にはフロアを跨ぐ座席移動になります。私にとって、6回目の社内引越です。午前…

2018-04-25

CoreNLPを使ってみる(3) Spark編

Scala Spark 自然言語処理データ開発エンジニア

山縣です。前回に引き続き CoreNLP を触っていきたいと思います。前回までに API の使い方を見てきたので、今回は Spark からの使い方を見ていきたいと思います。 spark-corenlp セットアップ spark からCoreNLPを容易に使用する方法として spark-corenlp …

2018-01-31

Spark でUnit Testを書く

Big Data Hadoop Spark テストデータ開発エンジニア

こんにちは、朴と申します。本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、ちょっとした設定でスムーズに動かせた…

2017-10-04

Spark3分クッキング HBaseで作る100万通りの文書分類器

HBase Spark 自然言語処理データ開発エンジニア Big Data

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。私たちの身の周りは、様々なデータで溢れています。ある２つの異なるデータ集合を互いに紐付けたいこともよくあります。どのように紐付けられるでしょうか。一方のデータ集合から分…

2017-06-28

Apache Zeppelin と Spark2 on YARN の連携

データ分析データ開発エンジニアデータ可視化 BI Big Data Spark

こんにちは、データ周りを担当してる朴です。今日はのデータ分析、可視化ツールで注目されているApache ZeppelinとSparkの連携およびZeppelinのマルチユーザー環境の設定について共有したいと思います。簡単な紹介簡単にApache zeppelinの紹介をしますと…

2017-06-21

うわっ･･･先月のコスト、低すぎ･･･？Hadoopクラスタのクラウド移行とSparkオンデマンド

クラウド Cloudera Hadoop Spark Jenkins データ開発エンジニアコスト最適化

福田です。ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。クラウドでは従量課金を活かしてコストの最適化を図ることができます。今回、Cloudera Manag…

2017-05-24

Databricks Community Edition で Spark に触れる

Scala Spark データ開発エンジニア

山縣です。今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。 …