🔑 벡터 해싱(Hashing) 개념 정리
벡터 데이터베이스에서 수많은 벡터 중 유사한 벡터를 빠르게 찾기 위해 쓰이는 기술 중 하나가 해싱(Hashing)입니다.
특히 근사 최근접 탐색(ANN, Approximate Nearest Neighbor)에서 중요한 역할을 합니다.
1️⃣ 해싱(Hashing)이란?
해싱이란, 복잡한 데이터를 간단한 숫자(또는 코드)로 바꾸는 방식입니다.
예를 들어:
"사과" → 해시함수 → 932751
"바나나" → 해시함수 → 185240
이처럼, 데이터를 어떤 규칙에 따라 고정된 형태로 바꾸는 것이 해싱입니다.
이걸 벡터(Vector)에 적용하면, 고차원 벡터를 간단한 해시 코드로 바꾸는 것이 됩니다.
2️⃣ 벡터 해싱(Vector Hashing)의 목적
벡터는 수십~수백 차원의 숫자로 되어 있어 비교에 시간이 많이 듭니다.
벡터 해싱을 사용하면:
- 벡터 → 짧은 코드로 변환
- 변환된 코드끼리만 비교
- 비교 대상이 줄어드니 검색 속도가 훨씬 빨라짐
즉, 정확도는 약간 떨어질 수 있지만, 속도는 매우 빨라지는 방식입니다.
3️⃣ 대표적인 해싱 기법: LSH
✅ LSH (Locality-Sensitive Hashing)
- 이름 그대로, 서로 가까운(유사한) 벡터는 비슷한 해시값을 갖도록 설계된 해시 방식입니다.
- 반대로, 서로 다른 벡터는 다른 해시값을 갖게 만듭니다.
📌 예시:
| 입력 벡터 | LSH 결과 |
| [0.12, 0.45, -0.33] | 101001 |
| [0.10, 0.44, -0.35] | 101001 (비슷한 벡터 → 같은 해시) |
| [0.88, -0.12, 0.77] | 000110 (다른 벡터 → 다른 해시) |
이런 식으로 해시값을 기준으로만 검색하니, 계산량이 확 줄어듭니다.
4️⃣ 벡터 해싱(Vector Hashing)의 장단점
| ✅ 장점 | 빠른 검색 속도, 큰 데이터셋에도 적합 |
| ❌ 단점 | 정확도 감소 가능성, 해시 설계에 따라 성능 차이 큼 |
그래서 벡터 해싱은 정확도보다 속도가 중요한 상황에서 유용합니다.
검색, 필터링, 추천 등의 시스템에서 자주 사용됩니다.
5️⃣ 해싱 vs 인덱싱 차이점 간단 정리
| 인덱싱 (Indexing) |
해싱 (Hashing) |
|
| 목적 | 검색 범위 좁히기 | 비교 단순화 및 속도 향상 |
| 방식 | 벡터 구조(공간, 그래프 등) 기반 | 벡터를 고정된 코드로 변환 |
| 대표 기술 | IVF, HNSW 등 | LSH 등 |
| 정확도 | 상대적으로 높음 | 약간 낮음 (근사값 허용) |
| 속도 | 빠름 | 매우 빠름 |
🔚 정리
- 해싱은 고차원 벡터를 짧은 코드로 바꿔 검색을 빠르게 하는 기술
- LSH는 유사 벡터가 비슷한 해시를 갖도록 만드는 대표적인 방법
- 정확도보다 속도 중시할 때 매우 효과적
- 벡터 인덱싱과 해싱은 서로 보완 관계로 자주 함께 사용됨
관련 내용: 벡터 데이터베이스(Vector Database) ↓
벡터 데이터베이스(Vector Database)
📦 벡터 데이터베이스(Vector Database)란?최근 인공지능, 추천 시스템, 검색 기술 등에 널리 활용되는 벡터 데이터베이스(Vector DB)는 텍스트, 이미지, 음성 등 다양한 데이터를 벡터(수치 배열)로 변
em-cabinet.tistory.com
'500 기술과학 > IT,디지털' 카테고리의 다른 글
| 헤디 라마르(Hedy Lamarr) [정보과학] (6) | 2025.08.09 |
|---|---|
| 알고리즘(Algorithm), 프로토콜(Protocol) [정보과학] (5) | 2025.08.07 |
| TCP/IP(Transmission Control Protocol / Internet Protocol) [정보과학] (2) | 2025.08.03 |
| 벡터 데이터베이스(Vector Database) [정보과학] (6) | 2025.07.31 |
| 월드와이드 웹(World Wide Web, WWW) [정보과학] (3) | 2025.07.28 |
| HTTP (HyperText Transfer Protocol), HTTPS (HyperText Transfer Protocol Secure) (5) | 2025.07.28 |