'자카드유사도' 태그의 글 목록

Min-Hashing이란?

MinHash 알고리즘 설명 안녕하세요. 이번 시간에는 데이터 마이닝 분야에서 문서 등 자료형 간의 유사도를 빠른 시간 내에 쉽게 근사하여 비교할 수 있는 Min-Hashing 알고리즘에 대해서 이해해보도록 하겠습니다. 일반적으로 N개의 연속된 단어 집합인 N-gram을 토큰으로 사용하지만, 여기서는 쉬운 이해를 위하여 단어 단위를 토큰으로 가정해보겠습니다. 아래처럼 3개의 문서에서 각각 4개의 단어씩을 포함하고 있는 상황이라고 해보겠습니다. 아래처럼 문서 내 토큰(단어)의 포함 여부를 나타내는 TF 행렬을 생각해볼 수 있습니다. 이제, 이 예시를 기반으로 MinHash 알고리즘을 설명해보겠습니다. 유사도 예시 : Jaccard Similarity 문서 간의 유사도는 어떻게 측정할까요? 여러가지 방법이 ..

컴퓨터공학/Data Mining 2022.02.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지미뉴트론 개발일기

자카드유사도 1

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역