astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

Python が Cloud Functionsで使えるようになったので試してみました

こんにちは、アスタミューゼでデザイナーをしている@YojiShirakiです。最近、細かい自動化したい処理が増えてきて困っておりまして。そんな折に Cloud Functions で Python が使えるようになったと聞いたので早速触ってみようかと。 そこそこちゃんと書いた…

DBTS (db tech showcase) 2018 TOKYO 参加レポート データエンジニアの外部セミナー参加日記

こんにちは! DB大好きなPKと申します。データエンジニアをやっております。 弊社の優秀なエンジニア達は新しい技術に常にアンテナを張るべく、最新の技術情報収集手段として外部セミナーに積極的に参加してしております。 外部セミナーに参加する目的は情報…

Spark でUnit Testを書く

こんにちは、朴と申します。 本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。 ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、 ちょっとした設定でスムーズに動かせた…

DB3分クッキング Neo4jではじめるグラフデータベース入門

こんにちは、福田 a.k.a. FDKです。 バルトークのアレグロ・バルバロを聴きながらバルクロードを実行しています。 点と点をこねくり回していると、イノヴェイションが生まれることがあります。 そう、まさに “Connecting the Dots” の瞬間です。 はじめに Ne…

データクレンジングとかクォリティチェックとかの話

いつもご覧いただき誠にありがとうございます。 ご存知のとおり?弊社は世界最大級のイノベーションデータベースを保有しており、中にはクラウドファンディング、科研費データ、特許データなど様々なデータが含まれてます。 普段仕事上データを入手してから…

Spark3分クッキング HBaseで作る100万通りの文書分類器

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分…

Apache Zeppelin と Spark2 on YARN の連携

こんにちは、データ周りを担当してる朴です。 今日はのデータ分析、可視化ツールで注目されているApache ZeppelinとSparkの連携およびZeppelinのマルチユーザー環境の設定について共有したいと思います。 簡単な紹介 簡単にApache zeppelinの紹介をしますと…

Spark 2.0 で Spark SQLを試す

こんにちは!Spark大好きな朴です。 本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spa…

Embulk について

山縣です。 前回はSpark について書きましたが今回は最近良く使うようになっているEmbulk について書きたいと思います。 Embulkとは? Embulk はオープンソースのバルクローダーです。あるデータストアから別のデータストアにデータを転送するためのツールで…

Copyright © astamuse company, ltd. all rights reserved.