Python が Cloud Functionsで使えるようになったので試してみました

Big Data GCP データ可視化プログラミングマーケティング

こんにちは、アスタミューゼでデザイナーをしている@YojiShirakiです。最近、細かい自動化したい処理が増えてきて困っておりまして。そんな折に Cloud Functions で Python が使えるようになったと聞いたので早速触ってみようかと。そこそこちゃんと書いた…

DBTS (db tech showcase) 2018 TOKYO 参加レポートデータエンジニアの外部セミナー参加日記

Big Data DB

こんにちは！ DB大好きなPKと申します。データエンジニアをやっております。弊社の優秀なエンジニア達は新しい技術に常にアンテナを張るべく、最新の技術情報収集手段として外部セミナーに積極的に参加してしております。外部セミナーに参加する目的は情報…

Big Data Hadoop Spark テストデータ開発エンジニア

こんにちは、朴と申します。本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、ちょっとした設定でスムーズに動かせた…

Big Data DB Hadoop イノベーションデータ開発エンジニア

こんにちは、福田 a.k.a. FDKです。バルトークのアレグロ・バルバロを聴きながらバルクロードを実行しています。点と点をこねくり回していると、イノヴェイションが生まれることがあります。そう、まさに “Connecting the Dots” の瞬間です。はじめに Ne…

いつもご覧いただき誠にありがとうございます。ご存知のとおり？弊社は世界最大級のイノベーションデータベースを保有しており、中にはクラウドファンディング、科研費データ、特許データなど様々なデータが含まれてます。普段仕事上データを入手してから…

HBase Spark 自然言語処理データ開発エンジニア Big Data

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。私たちの身の周りは、様々なデータで溢れています。ある２つの異なるデータ集合を互いに紐付けたいこともよくあります。どのように紐付けられるでしょうか。一方のデータ集合から分…

データ分析データ開発エンジニアデータ可視化 BI Big Data Spark

こんにちは、データ周りを担当してる朴です。今日はのデータ分析、可視化ツールで注目されているApache ZeppelinとSparkの連携およびZeppelinのマルチユーザー環境の設定について共有したいと思います。簡単な紹介簡単にApache zeppelinの紹介をしますと…

Spark Big Data データ開発エンジニア

こんにちは！Spark大好きな朴です。本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spa…

山縣です。前回はSpark について書きましたが今回は最近良く使うようになっているEmbulk について書きたいと思います。 Embulkとは？ Embulk はオープンソースのバルクローダーです。あるデータストアから別のデータストアにデータを転送するためのツールで…