2020年4月 – rinoguchi's techlog

Category:

python
spark

PySparkの実装サンプルと実行方法

最近Sparkを触る機会があって、少しだけ勉強したのでメモがてら残しておきます。 Sparkの分散処理の仕組み Sparkとは高速で汎用的な分散処理システム分散データ（RDD）をDISKを介さずにメモリ上に持つので、Hadoopの100倍ぐらい高速 Java, Scala, Python, RなどのAPIを提供 Spark SQL, MLlib, GraphX, Spark Streamingなどのリッチなツールを提供分散処理システムの構成要素画像は、こちらからお借りしました。 Driver Program Master Nodeで実行される起点となるプログラム SparkContextを作成し、RDDを生成して、Taskを実行していく SparkContext Sparkの色々な機能へのエントリーポイント ClusterManagerを通じてクラスターを操作する DAG Sche Continue Reading

Posted On : 2020-04-29 Published By : rinoguchi

Category:

GCPのコスト見積もり

GCPを利用していてコスト見積もりを実行するにあたってのメモを記載しておきます。基本基本的にはこちらを利用することになると思います。 Google Cloud Platform 料金計算ツール GCE GCEに関しては、上記よりも実際にVMインスタンスを途中まで作成するのが一番確実です。コンソールを開いて、メニューからCompute Engine -> VMインスタンスを開き、作成ボタンをクリックします。インスタンス作成画面が開かれますので、あとは、リージョンマシンの構成 GPUの有無追加ディスクの有無など、色々設定を変えながら画面右上に表示されるコストを確認するだけです。 BigQuery 料金体系はこちらに記載されています。以下の3つは少なくとも気にしています。アクティブストレージコスト: $0.020 per GB per month 例) 1TBを1ヵ月保存す Continue Reading

Posted On : 2020-04-27 Published By : rinoguchi

Category:

Kotlin+Ktorで技術要素を試しながらクリーンアーキテクチャでAPIサーバ構築

サーバサイドKotlinといえばSpring Bootを採用することが多いと思います。個人的にはSpring Bootは、Auto Configurationのブラックボックス感が辛くて、もっとシンプルなフレームワークに乗り換えたいという思いが常々ありました。 JetBrains社製のWebフレームワークであるKtorが、2018年11月にv1.0.0がリリースされ、2020年4月現在v1.3.2まで順調にアップデートされ続けており、そろそろ本格的に利用しても良さそうな気配を感じています。この記事では、Kotlin+KtorでREST APIの作成に必要な技術要素をStep By Stepで検証してみながら、クリーンアーキテクチャなAPIサーバを構築してみたいと思います。最初の画面を表示 Ktor Pluginを使う方法だと良く設定内容を理解せずに使ってしまうことになりそうですし、D Continue Reading

Posted On : 2020-04-24 Published By : rinoguchi

Category:

TF-IDFのお勉強

少し前に会社の勉強会で発表した資料をブログにも転記しておきます。TF-IDFは自然言語処理の初心者にもとっつきやすく理解しやすい内容でした。 Wikipediaの記載に基づき手計算概要 Wikipediaには以下のような説明がなされています。 TF-IDFは、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。 TF（英: Term Frequency、単語の出現頻度）と IDF（英: Inverse Document Frequency、逆文書頻度）の二つの指標に基づいて計算される。 TF（単語出現頻度）とIDF（逆文書頻度）の二つの指標を元に文書中の単語の重要度を評価する手法であることがわかります。 Wikipediaの計算式計算式を見ると、TF-IDF値は、TF値とIDF値を掛け合わせたものであることが分かります。 TF Continue Reading

Posted On : 2020-04-12 Published By : rinoguchi

月: 2020年4月

PySparkの実装サンプルと実行方法

GCPのコスト見積もり

Kotlin+Ktorで技術要素を試しながらクリーンアーキテクチャでAPIサーバ構築

TF-IDFのお勉強

アーカイブ

カテゴリー

最近の投稿