Category:

TF-IDFのお勉強

少し前に会社の勉強会で発表した資料をブログにも転記しておきます。TF-IDFは自然言語処理の初心者にもとっつきやすく理解しやすい内容でした。 Wikipediaの記載に基づき手計算 概要 Wikipediaには以下のような説明がなされています。 TF-IDFは、文書中に含まれる単語の重要度を評価する手法の1つであり、主に情報検索やトピック分析などの分野で用いられている。 TF(英: Term Frequency、単語の出現頻度)と IDF(英: Inverse Document Frequency、逆文書頻度) の二つの指標に基づいて計算される。 TF(単語出現頻度)とIDF(逆文書頻度)の二つの指標を元に文書中の単語の重要度を評価する手法であることがわかります。 Wikipediaの計算式 計算式を見ると、TF-IDF値は、TF値とIDF値を掛け合わせたものであることが分かります。 TF Continue Reading

Posted On :
Category:

NLPの前処理

仕事で自然言語処理(NLP)に少し取り組む必要が出てきたので、自分なりの理解をTipsとしてまとめていこうと思います。 小文字化 文字の正規化という意味で、アルファベットを小文字化します。日本語の場合は、半角を全角に統一する、などの対応も必要と思います。 sentences: List[str] = ['I have a pen', 'That is a window'] print(sentences) # -> ['I have a pen', 'That is a window'] lower_sentences: List[str] = list( sentence.lower() for sentence in sentences ) print(lower_sentences) # -> Continue Reading

Posted On :