astamuse Lab

astamuse Labとは、アスタミューゼのエンジニアとデザイナーのブログです。アスタミューゼの事業・サービスを支えている知識と舞台裏の今を発信しています。

名寄せの仕組み

この記事は 自然言語処理 Advent Calendar 2020 の25日目の記事です。 こんにちは、rinoguchi です。今年の4月に こちらの記事 を書いて以来、半年ぶりの投稿になります。 当社では、特許・研究課題・論文など多くの知的財産データを保持しています。これら…

ニューラル機械翻訳モデルを自作してみる

こんにちは、師走ですね。業務に関連した技術トピックをということで、今回は翻訳について書こうと思います。 ニューラル機械翻訳(NMT)システムがその内側でどんな処理をしているかを理解することを目的に、実際に簡単な翻訳モデルを手元で作成してみて、…

データ・オペレーション

データはいささか奇妙な性質を持っています。なんらかの事象の記録という観点では、それは文明の出現と時期をともにします。それが電子的に記録され、流通するようになってからは、まだ日が浅いものの、現在では、私たちの生活において決定的に重要な意味を…

BERTの事前学習済みモデルを使って特許検索に挑戦してみる

ご挨拶 新年、明けましておめでとうございます 本年もよろしくお願いいたします データエンジニアのaranです 昨年の6月以来、2回目の登場になります 去年の1月に入社して、ちょうど1年経ち 月日の流れの早さを感じています いきなりですが、皆様は年末年…

Spark で機械学習を社内データに適用してみた

山縣です。夏休みの宿題のようにブログの当番が回ってきました。 機械学習が非常に注目を浴びている今日このごろですが、私もデータ関連を扱うソフトエンジニアの端くれとして機械学習について学んだり、機械学習のアルゴリズムを時々試したりしています。 …

CoreNLPを使ってみる(3) Spark編

山縣です。 前回に引き続き CoreNLP を触っていきたいと思います。 前回までに API の使い方を見てきたので、今回は Spark からの使い方を見ていきたいと思います。 spark-corenlp セットアップ spark からCoreNLPを容易に使用する方法として spark-corenlp …

CoreNLPを使ってみる(2) API編

山縣です。 新年明けましておめでとうございます。 弊社の年末年始休暇は例年になく長く11連休となりました。おかげでかなりリフレッシュできました。 まだちょっと休みボケも残っていますが頑張っていきたいと思います。 本年も弊社と当ブログをよろしく…

お手軽に英文文書にメタ情報を!!Pythonでgensimを使ったLDAに挑戦してみた。

こんにちは。白木(@YojiShiraki)です。デザイナーです。 前回はpolyglotを用いて英文から名詞を抽出する処理を行いました。今回は、その延長でLDAという手法にチャレンジしたいと思います。 背景 当社ではぼちぼち大量の自然文章データを取り扱っています…

Spark3分クッキング HBaseで作る100万通りの文書分類器

こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分…

CoreNLP を使ってみる(1)

山縣です。 今回は 自然言語処理ツールである Stanford CoreNLPについて書きたいと思います。 Stanford CoreNLPとは Stanford CoreNLP は自然言語処理ツールのひとつです。スタンフォード大学がオープンソース(GPL3) で公開しています。 英語、中国語など主…

英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。

こんにちは。白木(@YojiShiraki)です。デザイナーです。 今日はPythonで英文形態素解析をする上でお手軽便利なpolyglotについて紹介します。 背景 当社ではデータを分析・解析する機会がままありまして、こうしたときに自然言語解析の処理のツールを利用し…

Apache UIMA ちょっと触ってみる

こんにちは、データ周りを担当してる朴です。 本日はJavaで自然言語処理をする為のオープンソースであるApache UIMA(ういま?)をちょっと触ってみたいと思います。 Apache UIMAはIBMが誇る人工知能システムであるWatsonの内部解析エンジンの一部のコード?…

Copyright © astamuse company, ltd. all rights reserved.