astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

データエンジニアってなに?

ご挨拶 どうもお久しぶりです、gucciです。 あと3ヶ月ほどで入社して4年が経とうとしています。時の早さに驚きが隠せません。 1年経つのが本当にあっという間ですが、よく過去を振り返る際にスポーツやイベント行事とマッピングして記憶することはありますよ…

簡易的にデータリネージを試してみる

はじめまして。データチームのKimy(@yuu_kimy)です。 日々、各種データの整備に関わる開発を行っています。 早いもので、アスタミューゼにジョインしてから、1年が過ぎました。 ジョインしてから、グラント(研究助成)や特許データの整備開発、各種案件対応を…

アスタミューゼのデータエンジニアによる、データベース問答

今回のブログ担当のt-sugaiです。今回、弊社のじんからインタビュー形式で、データエンジニアが何を考えているのか、という記事にしてはどうか、という提案があり、インタビューを受ける形になりますが、インタビュー形式でお送りします。 ーー今日はよろし…

データ分析ことはじめ 〜はじめてのデータ分析やってみたよ〜

ご挨拶 どうもお久しぶりです、gucciです。 気づけばもう12月も半ば…今年は本当に色々なことがあった年でしたね。 新型コロナによってこれまでの日常が一変し、当たり前だったものが当たり前でなくなるという本当に大変な年だったと思います。 私の好きなプ…

初めてBigQueryを触って学んだ節約トピックを紹介するよ

みなさんこんにちは。たぶんアプリケーションエンジニアのkjです。 私にはもうすぐ1歳半になる娘がおりまして、リモート勤務の傍ら、ホンヨンデー!って訴えてきます。 その表情、振る舞いが愛おしく(親バカ)、スキマ時間をとって本を読んでいます。 ちなみ…

社内Podcastはじめました〜文字起こし〜形態素解析

ご挨拶 どうもお久しぶりです、gucciです。 入社してついに3年目に突入しました。信じられません。 まだまだ力不足な私ですが、周りの人に支えられてなんとかここまでやって参りました。 新しい仲間もどんどんと増え、これからは支える立場になれるように日…

PostgreSQL の バグ修正状況を調べてみた。

はじめに 初めてこちらのblogに登場いたします。データエンジニアのt-sugai です。 今年の1月頃からアスタミューゼにJOINしています。 前職はJavaをメインとしたアプリケーションエンジニア……だったと思うのですが、エンジニアはエンジニアでいっしょくたの…

SPTAGを触ってみた

ご挨拶 どうもお久しぶりです、gucciです。 入社して1年半経ちまして、なんともう3回目のブログのターンが回ってきました。 パソコンを一日ずっと同じような姿勢で叩いていると、肩甲骨周りの筋肉が凝り固まってきて、しまいには肩こりからくる吐き気やスト…

ターミナルなんて怖くない

ご挨拶 どうもお久しぶりです、元バンドマンの新米エンジニアgucciです。 未経験からエンジニアに転職して早1年が経ちました。 「まだ1年目なもんで、てへ」というのが通用しないと思うと、気を引き締めていかないとなと思う今日この頃です。 あっという間の…

今どきのシャッフルランチを支える技術

こんにちは、すしざんまいが恋しいfdkです。 今回は、件の社内プロダクトaimeshiの舞台裏を現場レポートします。 lab.astamuse.co.jp aimeshiとは 社内ワークショップから発足したプロジェクトで、 部門の垣根を超えたコミュニケーションを活性化するための…

MongoDB 4.0 探検日記

MongoDBと過ごした8年を振り返りながら、お気に入りのMongoDBマグカップで濃いめのモカを啜っています。 たのしくテンポの良い開発、フラグメンテーションとの長い夜、主語の大きいロック、星の数ほどのMongoDBステッカー、高嶺の花のMongoDB公式Tシャツなど…

Spark で機械学習を社内データに適用してみた

山縣です。夏休みの宿題のようにブログの当番が回ってきました。 機械学習が非常に注目を浴びている今日このごろですが、私もデータ関連を扱うソフトエンジニアの端くれとして機械学習について学んだり、機械学習のアルゴリズムを時々試したりしています。 …

アクセスログ収集用Elasticsearchの運用話

こんにちは。インフラ・開発部のtorigakiです。 早いもので2回目の投稿となります。 弊社はアクセスログの収集・解析にElasticsearchを使用しているのですが、今回はこのElasticsearchの運用環境について書きたいと思います。 システム構成 Elasticsearch環…

Apache Spark 2.3 Vectorized ORC Reader 性能検証

こんにちは!データ周りをやってる朴です。 先日ご紹介があったとおり「開発・デザイン部」はついに独立?!して違うフロアに移動しました。 つい先日まで冷蔵庫も電子レンジもなく少し寂しい感じがしたのですが、本日ついに必需品が揃い、みんながテンショ…

初公開!データエンジニアのデスクトップ。1/3日の順調な環境移行

こんにちは、福田です。 新緑が目を刺すGW明け、オフィスを引っ越しました。最近人が増えてきたため、開発・デザイン部は7Fから、8Fの新しいスペースへの移動です。なので、正確にはフロアを跨ぐ座席移動になります。私にとって、6回目の社内引越です。 午前…

CoreNLPを使ってみる(3) Spark編

山縣です。 前回に引き続き CoreNLP を触っていきたいと思います。 前回までに API の使い方を見てきたので、今回は Spark からの使い方を見ていきたいと思います。 spark-corenlp セットアップ spark からCoreNLPを容易に使用する方法として spark-corenlp …

groonga冗長構成で運用改善した話

はじめまして。インフラ・開発部のtorigakiと申します。 入社して初めての投稿となります。よろしくお願いします。 弊社は検索エンジンとしてgroongaを使用しているのですが、今回はgroongaの運用改善をした話を書きたいと思います。 groongaの運用構成 groo…

Spark でUnit Testを書く

こんにちは、朴と申します。 本日はSpark-testing-baseを使ってSpark処理の単体テストの書き方について触れてみたいと思います。 ローカルで並列処理の単体テスト動かすのは少しハードル高く感じるかもしれませんが、 ちょっとした設定でスムーズに動かせた…

DB3分クッキング Neo4jではじめるグラフデータベース入門

こんにちは、福田 a.k.a. FDKです。 バルトークのアレグロ・バルバロを聴きながらバルクロードを実行しています。 点と点をこねくり回していると、イノヴェイションが生まれることがあります。 そう、まさに “Connecting the Dots” の瞬間です。 はじめに Ne…

CoreNLPを使ってみる(2) API編

山縣です。 新年明けましておめでとうございます。 弊社の年末年始休暇は例年になく長く11連休となりました。おかげでかなりリフレッシュできました。 まだちょっと休みボケも残っていますが頑張っていきたいと思います。 本年も弊社と当ブログをよろしく…

データクレンジングとかクォリティチェックとかの話

いつもご覧いただき誠にありがとうございます。 ご存知のとおり?弊社は世界最大級のイノベーションデータベースを保有しており、中にはクラウドファンディング、科研費データ、特許データなど様々なデータが含まれてます。 普段仕事上データを入手してから…

Spark3分クッキング HBaseで作る100万通りの文書分類器

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分…

CoreNLP を使ってみる(1)

山縣です。 今回は 自然言語処理ツールである Stanford CoreNLPについて書きたいと思います。 Stanford CoreNLPとは Stanford CoreNLP は自然言語処理ツールのひとつです。スタンフォード大学がオープンソース(GPL3) で公開しています。 英語、中国語など主…

英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。

こんにちは。白木(@YojiShiraki)です。デザイナーです。 今日はPythonで英文形態素解析をする上でお手軽便利なpolyglotについて紹介します。 背景 当社ではデータを分析・解析する機会がままありまして、こうしたときに自然言語解析の処理のツールを利用し…

Apache Zeppelin と Spark2 on YARN の連携

こんにちは、データ周りを担当してる朴です。 今日はのデータ分析、可視化ツールで注目されているApache ZeppelinとSparkの連携およびZeppelinのマルチユーザー環境の設定について共有したいと思います。 簡単な紹介 簡単にApache zeppelinの紹介をしますと…

うわっ・・・先月のコスト、低すぎ・・・?Hadoopクラスタのクラウド移行とSparkオンデマンド

福田です。 ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。 クラウドでは従量課金を活かしてコストの最適化を図ることができます。 今回、Cloudera Manag…

Databricks Community Edition で Spark に触れる

山縣です。 今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。 …

Spark 2.0 で Spark SQLを試す

こんにちは!Spark大好きな朴です。 本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spa…

星屑のおじさま、野生のトラを撃つ

こんにちは。石橋を叩き過ぎて割るタイプの福田です。 春の足音を聴きながら、雲方面への移住を進めています。 さて、寒さもピークの昼下がり、ソイラテを片手にラップトップ整理。 2年物・書き捨てのPythonスクリプトに、ふと足を止めました。 すれっからし…

Spark 2.0を使ってみた

山縣です。 新年あけましておめでとうございます。 本年もよろしくお願いいたします。 去年弊社の福田が CDH のアップグレードをしてくれてSpark が1.6系になるとともに、並行してSparkの2.0が使えるようになりました。(Spark2.0の導入については福田の記事…

Copyright © astamuse company, ltd. all rights reserved.