astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

データ開発エンジニア

英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。

こんにちは。白木(@YojiShiraki)です。デザイナーです。 今日はPythonで英文形態素解析をする上でお手軽便利なpolyglotについて紹介します。 背景 当社ではデータを分析・解析する機会がままありまして、こうしたときに自然言語解析の処理のツールを利用し…

Apache Zeppelin と Spark2 on YARN の連携

こんにちは、データ周りを担当してる朴です。 今日はのデータ分析、可視化ツールで注目されているApache ZeppelinとSparkの連携およびZeppelinのマルチユーザー環境の設定について共有したいと思います。 簡単な紹介 簡単にApache zeppelinの紹介をしますと…

うわっ・・・先月のコスト、低すぎ・・・?Hadoopクラスタのクラウド移行とSparkオンデマンド

福田です。 ゆっくりとカモミールを飲みながらラップトップを叩いています。 3年間お世話になったデータセンターのHadoopクラスタをクラウド環境に移行しました。 クラウドでは従量課金を活かしてコストの最適化を図ることができます。 今回、Cloudera Manag…

Databricks Community Edition で Spark に触れる

山縣です。 今回は Spark を無料で手軽に触れる Databricks Community Edition について書きたいと思います。 Databricks Community Editionとは Databricks は Databricks 社が提供しているSparkサービスで、Community Edition はその無料版にあたります。 …

Spark 2.0 で Spark SQLを試す

こんにちは!Spark大好きな朴です。 本日はSpark 2.0で大幅の改善が行われてたSpark SQLについて書こうと思います。 弊社ではCDHのバージョンアップをこまめに行うことでSpark,HBaseなどのプロダクトの最新バージョンを常に試せる環境を作っております。 Spa…

星屑のおじさま、野生のトラを撃つ

こんにちは。石橋を叩き過ぎて割るタイプの福田です。 春の足音を聴きながら、雲方面への移住を進めています。 さて、寒さもピークの昼下がり、ソイラテを片手にラップトップ整理。 2年物・書き捨てのPythonスクリプトに、ふと足を止めました。 すれっからし…

Spark 2.0を使ってみた

山縣です。 新年あけましておめでとうございます。 本年もよろしくお願いいたします。 去年弊社の福田が CDH のアップグレードをしてくれてSpark が1.6系になるとともに、並行してSparkの2.0が使えるようになりました。(Spark2.0の導入については福田の記事…

特許とその制度について 特許出願および実用新案登録出願

お久しぶりです。主に特許関連のデータ処理を担当しているBTと申します。 前回、特許及び実用新案の概要についてご説明させて頂きましたが、今回は日本国内における「特許出願」および「実用新案登録出願」についてご説明いたします。 宜しくお願いいたしま…

【資料公開】Cloudera World Tokyo 2016 で登壇しました。

こんにちは。アスタミューゼ開発・インフラ部の福田です。 11月8日に開催された Cloudera World Tokyo 2016 にて登壇させていただきました。 こちらが、当日の資料になります。 セッションについて 『HBaseで実現する大量の特許文書データを扱うためのアー…

Cloudera World Tokyo 2016登壇します!!

こんにちは。福田です。 来る11月8日(火)、Cloudera World Tokyo 2016にて、午後のブレイクアウトセッションに登壇します。 『HBaseで実現する大量の特許文書データを扱うためのアーキテクチャとベストプラクティス』と題しまして、イノベーションを支える…

Apache UIMA ちょっと触ってみる

こんにちは、データ周りを担当してる朴です。 本日はJavaで自然言語処理をする為のオープンソースであるApache UIMA(ういま?)をちょっと触ってみたいと思います。 Apache UIMAはIBMが誇る人工知能システムであるWatsonの内部解析エンジンの一部のコード?…

もう待てない、Spark2.0の導入と実践

こんにちは、福田です。 すっかり秋らしくなり、過ごしやすくなりました。皆様いかがお過ごしでしょうか。 前回は、コンパクトで高速な大規模キーワード辞書の実装について書きました。 今回は、先月末(9/29)にリリースされたCDH向けのSpark2.0 β版のセット…

特許の「牽制」情報から、自社技術を活かした新たなテーマを探す方法

はじめまして、さかいです。このたび、第2回ゲストとして、namikawaさん、波多野さんからご指名いただきました。このお二人からのご指名とあっては断るわけにはいきませんので、ありがたく、機会を頂戴いたしました。 私は、アスタミューゼ株式会社のテクノ…

Embulk について

山縣です。 前回はSpark について書きましたが今回は最近良く使うようになっているEmbulk について書きたいと思います。 Embulkとは? Embulk はオープンソースのバルクローダーです。あるデータストアから別のデータストアにデータを転送するためのツールで…

特許とその制度について 特許・実用新案

お久しぶりです。主に特許関連のデータ処理を担当しているBTと申します。 前回、知的財産権の概要についてご説明させて頂きましたが、今回は特許と実用新案の概要についてご説明いたします。 宜しくお願いいたします。 特許とは 発明および特許になる発明と…

HadoopのWordCountを天気予報のデータに適用してみよう!

自己紹介 こんにちは、astamuseでデータエンジニアをやってる朴と申します。 astamuse入社3年目になります。 最初の1年間はweb開発エンジニアをやってましたが、 もともとデータを色々いじるのが好きだったので、上司と相談して1年前から現在の仕事をさせ…

1,100万文書×480万キーワード。コンパクト且つ高速な辞書マッチングのはなし

はじめまして。開発・インフラ部、福田です。 分散処理環境、ミドルウェアの整備と運用、ELT/ETL、R&D、雑用を担当しています。 舞台裏から眺めるAstamuse.com Astamuse.comは、イノベーションを起こすあなたの為のサイトです。そこでは国内約1,100万件の特…

Spark の driver で起きたエラーとその対応

はじめまして山縣です。 私のチームでは弊社のサービスやコンサルティングなどで必要となる特許やその他さまざまなデータを収集・解析しています。特許情報などのデータはデータサイズとして大規模であったり複雑だったりすることもあり Hadoop なども含めた…

特許とその制度について 特許権を含む知的財産権とは

主に特許関連のデータ処理を担当しているBTと申します。 今回初めて開発者ブログを担当させていただく事になりました。 宜しくお願いいたします。 弊社が運営するのAstamuse.comでは、特許情報の検索や表示をすることが出来ます。 そこで、開発言語の話やフ…

Copyright © astamuse company, ltd. all rights reserved.