TF-IDFのお勉強
少し前に会社の勉強会で発表した資料をブログにも転記しておきます。TF-IDFは自然言語処理の初心者にもとっつきやすく理解しやすい内容でした。 Wikipediaの記載に基づき手計算 概要 Wikipediaには以下のような説明がなされています。 TF-IDFは、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。 TF(英: Term Frequency、単語の出現頻度)と IDF(英: Inverse Document Frequency、逆文書頻度) の二つの指標に基づいて計算される。 TF(単語出現頻度)とIDF(逆文書頻度)の二つの指標を元に文書中の単語の重要度を評価する手法であることがわかります。 Wikipediaの計算式 計算式を見ると、TF-IDF値は、TF値とIDF値を掛け合わせたものであることが分かります。 TF Continue Reading