TF-IDF는 "Term Frequency-Inverse Document Frequency"의 약어로, 문서의 특정 단어의 빈도수와 전체 문서에서의 빈도수에 따라 해당 단어의 중요도를 계산하는 방법입니다. 이는 문장의 클러스터링에도 유용한 방법입니다. 다수의 문장이나 feature가 있는 경우, 일반적으로 모든 문장이나 feature를 분석하고 이를 분류하려면 많은 자원과 시간이 소요됩니다. 하지만 TF-IDF를 사용하면 문서에서 특정 단어가 얼마나 중요한지 계산하고, 이를 이용하여 문서를 분류하거나 검색 결과를 필터링하는 것이 가능합니다. 예를 들어, 뉴스 기사에서 "비트코인"이라는 단어가 자주 등장한다면, 해당 기사가 비트코인과 관련이 있는 것으로 간주할 수 있습니다. 하지만 "비트코인"이라는 단어가..