500 기술과학/IT,디지털

벡터 데이터베이스(Vector Database) [정보과학]

Emily에밀리 2025. 7. 31. 07:31

 

 

 

📦 벡터 데이터베이스(Vector Database)란?

최근 인공지능, 추천 시스템, 검색 기술 등에 널리 활용되는 벡터 데이터베이스(Vector DB)
텍스트, 이미지, 음성 등 다양한 데이터를 벡터(수치 배열)로 변환해 저장하고,
유사한 데이터를 빠르게 찾아주는 기술입니다.

 

 

1️⃣ 벡터 데이터(Vector Data)란?

벡터(vector)여러 개의 숫자로 이루어진 배열입니다.
이 숫자 배열은 텍스트, 이미지, 음성 등의 의미나 특징을 수치화한 것입니다.

예를 들어, "강아지는 귀엽다"라는 문장을 벡터로 바꾸면 다음과 같습니다:

 
[0.21, -0.58, 0.77, ..., 0.03] → 수십~수백 차원의 숫자 벡터

이러한 벡터들은 사람의 언어나 이미지 의미를 기계가 처리할 수 있도록 바꾼 것입니다.
이 벡터들을 모아 저장하고 검색하는 데이터베이스가 바로 벡터 DB입니다.

 

 

 

2️⃣ 벡터 데이터베이스(Vector Database)란?

벡터 데이터베이스는 수많은 벡터들을 저장하고,
어떤 벡터와 가장 유사한 벡터들을 빠르게 찾아주는 데이터베이스입니다.

예를 들어, 다음과 같은 질문이 주어졌다고 가정해봅니다.

“인공지능의 역사에 대해 알려줘.”

 

이 문장을 벡터로 바꾼 후, 벡터 데이터베이스에 있는 수많은 문서 벡터 중 가장 유사한 벡터(=문서)를 찾아내는 방식입니다.

📌 기존의 키워드 기반 검색보다 훨씬 의미 중심의 검색이 가능해집니다.

 

 

 

3️⃣ 벡터 데이터는 어떻게 만드나?

✅ 벡터 생성(임베딩)

텍스트나 이미지를 벡터로 바꾸는 과정임베딩(embedding)이라고 합니다.

  • 텍스트 → 텍스트 임베딩 모델 사용 (예: BERT, OpenAI embedding)
  • 이미지 → 이미지 임베딩 모델 사용 (예: CLIP, ResNet 등)

이렇게 생성된 벡터가 벡터 DB에 저장됩니다.

 

 

 

4️⃣ 벡터 인덱싱(Vector Indexing)이란?

벡터가 수천 개, 수백만 개가 되면 유사 벡터를 찾는 데 시간이 오래 걸립니다.
그래서 벡터 DB는 검색 속도를 높이기 위해 벡터 인덱스(index)를 만듭니다.

 

✅ 주요 벡터 인덱싱 방식

방식 설명
Flat 모든 벡터를 하나하나 비교 (정확하나 느림)
IVF (Inverted File) 비슷한 벡터끼리 그룹으로 묶어서 검색 범위를 줄임
HNSW 그래프 기반 인덱스. 빠르고 정밀도도 높음
 

대부분의 벡터 DB는 위 방식들을 혼합해 사용합니다.
특히 HNSW는 최근 가장 널리 사용되는 고성능 인덱싱 방식입니다.

 

 

✅  벡터 데이터(Vector Data), 벡터 데이터베이스(Vector Database) 요약

항목 설명
벡터 데이터를 수치로 표현한 배열 (임베딩 결과)
벡터 DB 벡터들을 저장하고, 유사 벡터를 빠르게 찾아주는 DB
벡터 인덱싱 유사한 벡터를 효율적으로 찾기 위한 구조화 기법
대표 기술 Flat, IVF, HNSW 인덱싱 방식 등
활용 AI 검색, 추천, 질문 응답 시스템 등