목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_3

2026. 5. 14. 14:52·독서&지식

앞에서 지식그래프에 기본 이론과 온톨로지 설계 과정을 살려보았다면, 마지막으로 온톨로지 기반으로 지식그래프를 어떻게 생성하고 관리하는지 알아보도록 하게습니다. 참고한 도서는 유원북스의 지식그래프(2025)입니다.

 

1. 지식 그래프 성명주기 개요

1) 구축(Construction / Creation):

다양한 데이터로 부터 정보를 추출하고 구조화함

온톨로지 설계하고 원본 데이터를 RDF와 같은 그래프 형태로 변환

데이터 소스와 온톨로지 간의 매핑 규칙 정의

 

2) 저장 및 호스팅(Storage/ Hosting)

지식 그래프의 특성(데이터 모델, 규모, 쿼리 패턴)에 맞는 적절한 데이터베이스 기술을 선택

RDF 트리플 저장소나 속성 그래프 데이터베이스가 사용됨

데이터베이스에 구축된 지식그래프 데이터를 로드하고 인데싱하는 작업 포함

 

3) 관리 및 큐레이션(Management/ Curation)

지식그래프는 시간이 지남에 따라 제이터가 변경되거나 새로운 정보가 추가

품질평가,

정제,

보강/완성(누락된 정보를 추가하거나 추론)

스키마 관리

버전관리

보안 및 접근통제

 

4) 활용 및 추론(Utiliazation / Deployment/ Consumption)

저장되고 괸리되는 지시그래프르 실제 어플리케이션에서 활용하는 단계

시멘틱 검색, 추천 시스템, 질의응답 시스템 등에 지식그래프를 연동하여 사용자에게 가치를 제공하는 것

 

2. 데이터 수집 및 전처리 / 지식 그래프 구축

현실 세계의 파편화된 데이터를 수집하고 정제하여, 데이터 통합, 분석, 추론의 기반이 되는 '연결된 그래프 구조'로 변환하는 핵심 첫 단계입니다.

1) 지식그래프 구축 개요

  • 데이터 수집 원천: 내부 데이터베이스, 공개 데이터셋, 웹 크롤링, OCR(광학 문자 인식) 등
  • 데이터 정제 및 전처리: 추출된 데이터의 노이즈를 제거하고 형태를 규격화하는 과정
    • 주요 자연어 처리(NLP) 기법: 토큰화, 정제, 어간 및 표제어 추출, 불용어 처리
    • 상호참조 해결: 같은 대상을 지칭하는 다양한 표현을 하나로 통일하기 위해 레벤슈타인 거리, 코사인 유사도, 사전 기반 매핑, IRI 정규화 등의 기법 활용
  • 데이터 소스 유형별 특징:
    • 비정형 데이터: 명확한 구조가 없는 텍스트, 이미지, 영상 자료. 정보 지식을 추출하는 데 가장 고도화된 기술과 많은 노력이 요구됨.
    • 반정형 데이터: HTML, JSON, XML 등 태그나 마커를 통해 어느 정도 계층적, 구조적 정보를 포함하고 있는 데이터.
    • 정형 데이터: RDB(관계형 데이터베이스), CSV 등 엑셀 표의 형태로 완벽하게 구조화된 데이터.

2) 비정형 데이터로부터 구축: 정보 추출 (Information Extraction) 아무런 형태가 없는 텍스트에서 유의미한 지식(점과 선)을 뽑아내는 4단계 과정입니다.

  • 1단계: 개체명 인식 (NER)
    • 텍스트에서 인명, 지명, 조직명 등 핵심 개체를 식별하여 지식그래프의 '노드(Node)'를 생성
    • 접근법: 규칙 기반, 통계적 기계학습, 딥러닝 모델 활용
  • 2단계: 관계 추출 (RE)
    • 식별된 노드(개체)들 사이의 의미론적 관계를 파악하여 연결하는 '엣지(Edge)' 생성 (예: [버락 오바마] -태어남-> [하와이])
    • 접근법: 지도학습, 원거리 감독, 개방형 정보 추출(OpenIE)
  • 3단계: 이벤트 추출 (EE)
    • 특정 사건이 발생했음을 식별하고, 언제/어디서/누가/무엇을 했는지 다차원적인 속성을 가진 '이벤트 노드' 생성
    • 접근법: QA(질의응답) 기반, 생성 모델, 대규모 언어 모델(LLM) 활용
  • 4단계: 개체 연결 (EL)
    • 텍스트에서 추출한 개체를 기존 지식 베이스 내의 고유 식별자와 매핑하여 동명이인 등의 중의성을 해소하고 데이터 일관성 확보

3) 정형/반정형 데이터로부터 구축: 매핑(Mapping) 기술 이미 표나 트리 형태로 정리된 데이터를 그래프 구조(RDF 등)로 변환하는 표준화된 작업입니다.

  • 정형 데이터 변환 (R2RML):
    • RDB의 논리적 테이블을 지식그래프의 트리플(주어-술어-객체)로 매핑하는 W3C 표준 언어
    • 테이블 구조를 주어 맵, 술어-객체 맵 등을 통해 기계가 이해할 수 있는 그래프 데이터로 변환
  • 반정형 데이터 변환 (RML):
    • R2RML을 확장하여 JSON, XML 등 다양한 반정형 데이터 포맷까지 포괄적으로 지원하는 매핑 언어
    • 논리적 소스와 반복자(Iterator)를 활용해 계층적인 구조를 평면적인 그래프로 풀어냄

 

2) 비정형 데이터로부터 구축: 정보 추출

1단계: 개체 추출(규칙기반 접근,  통계적 기계 학습, 딥러닝 기반 접근)

 

2단계 : 관계 추출

관계 추출은 지식그래프에서 개체 노드들을 의미론적으로 연결하는 엣지를 생성하는 역할

지도학습, 원거리감독, 비지도/개방형 정보 추출

예) 버락오바마는 하와이에서 태어났다.(Barack Obama, PlaceOfBirth, Hawaii)

 

3단계 : 이벤트 추출

질의응답 기반 접근, 생성모델 기반 접근, 그래프 기반 접근, 대규모 언어 모델 활용

 

4단계:  개체연결

식별된 개체 언급을 기존의 지식 베이스나 지식 그래프 내에 존재하는 고유한 개체와 연겨 또는 매핑하는 작업

후보생성,  후보랭킹 및 중의성 해소, 대규모 언어 모델의 활용

 

작업 정의 KG 구축에서의 목표 주요 방법론
개체명 인식(NER) 텍스트에서 인명, 지명 등 미리 정의된 유형의 개체명 언급 식별 및 분류 KG의 노드(개체) 식별 규칙기반, 통계적ML,딥러닝
관계 추출(RE) 텍스트 내 식별된 개체들 사이의 의미론적 관계 식별 및 분류 KG의 엣지(관계) 생성 지도학습, 원거리 감독, OpenIE, 딥러닝 
이벤트 추출(EE) 텍스트에서 특정 사건 발생 식별 및 관련 정보(트리거, 유형, 인자, 역할) 추출 풍부한 속성을 가진 이벤트 노드 생성 순차 레이블링, QA 기반, 생성모델, 그리프 기반 , LLM활용
개체 연결(EL) 테스트 내 개체 언급을 지식 베이스 내 고유 개체에 연결 및 중의성 해소 추출된 정보를 기존 KG와 일관성 있게 통합 후모 생성 및 랭킹, 딥러닝(문맥/개체 임베딩 활용, 전역 일관성 고려)

 

3) 정형/반정형 데이터로부터 구축

정형 데이터 구축(R2RML)

논리적 테이블, 트리플 맵, 주어 맵, 술어-객체 맵, 술어맵, 객체 맵, 참조 객체 맵

 

반정형 데이터 구축(RML)

논리적 소스, 반복자, 참조 공식화

 

3. 지식그래프 저장 및 호스팅

구축된 지식그래프 데이터를 시스템의 목적과 쿼리 패턴에 맞춰 저장하는 단계입니다. 저장소는 크게 'RDF 트리플 저장소'와 '속성 그래프 데이터베이스' 두 가지 옵션으로 나뉩니다.

1) RDF 트리플 저장소 (RDF Triple Store)

  • 핵심 데이터 모델:
    • W3C 표준인 RDF(Resource Description Framework) 모델 기반
    • 모든 정보를 주어(Subject), 술어(Predicate), 객체(Object)의 세 가지 요소, 즉 '트리플(Triple)' 단위로 쪼개어 저장
    • 개체와 관계는 고유 식별자인 URI를 통해 표현됨
  • 표준 쿼리 언어: SPARQL
    • 그래프 패턴 매칭을 기반으로 트리플 데이터를 검색하는 W3C 표준 언어
    • FILTER, OPTIONAL, UNION 등 다양한 연산자를 통해 복잡하고 정교한 질의 수행 가능
  • 주요 장점:
    • 표준화 및 확장성: W3C 표준을 철저히 준수하여 시맨틱 웹 및 연결 데이터(Linked Data) 환경에 최적화
    • 강력한 추론 기능: RDFS, OWL 등 온톨로지 언어와 결합하여, 저장된 명시적 데이터로부터 내재된 새로운 사실을 논리적으로 추론해 내는 기능 지원
  • 주요 단점:
    • 속성 표현의 한계: 특정 관계가 발생한 '시간' 같은 메타데이터(속성)를 엣지(관계)에 직접 붙이기 어려움. 이를 표현하려면 모든 것을 트리플로 분해해야 하므로 구조가 복잡해짐
    • 탐색 성능: 매우 복잡한 그래프 탐색이나 깊은 경로 찾기(Pathfinding) 질의에서는 속성 그래프 DB보다 성능이 저하될 수 있음
    • 학습 곡선: 온톨로지 설계 개념과 SPARQL 문법에 대한 사전 학습이 필수적임

2) 속성 그래프 데이터베이스 (Property Graph Database)

  • 핵심 데이터 모델:
    • 노드(Node), 관계(Relation), 속성(Property), 레이블(Label) 등 4가지 기본 요소로 데이터를 모델링
    • 💡 핵심 차별점: 노드뿐만 아니라 관계(엣지)에도 직접 '키-값(Key-Value) 쌍' 형태의 속성 부여 가능
      • (예시: 'Person' 노드에 name, age 속성을 넣고, 노드 간의 'WORKS_FOR' 관계 선 위에 startDate 속성을 직접 저장)
  • 주요 쿼리 언어:
    • Cypher (Neo4j), Gremlin (Apache TinkerPop), GQL(Graph Query Language) 등 시스템별 언어 사용
  • 주요 장점:
    • 직관적 모델링: 현실 세계의 관계망에 포스트잇을 붙이듯 노드와 관계에 직접 속성을 달 수 있어 설계가 매우 자연스러움
    • 유연한 스키마: 엄격한 사전 스키마 없이도 데이터를 유연하게 확장하고 변경할 수 있음
    • 고성능 탐색: 이웃 노드 간의 복잡한 네트워크 탐색 및 패턴 매칭에서 압도적인 쿼리 성능 제공
    • 개발 용이성: 상대적으로 학습이 직관적이며, 실무 애플리케이션 적용 속도가 빠름

 

4. 지식그래프 관리 및 큐레이션

지식그래프의 신뢰성과 운영 효율성을 유지하기 위한 데이터 생명주기 관리 단계입니다.

1) 데이터 품질 관리

  • 품질 평가 및 오류 탐지: 지속적인 데이터 무결성 검증
  • 정제 (Cleansing): 노이즈 제거 및 데이터 일관성 확보
  • 보강 및 완성 (Enrichment/Completion): 누락된 정보를 추가하거나 추론을 통해 지식그래프 확장

2) 스키마 관리 및 검증

  • 온톨로지 (Ontology): 지식그래프 내 스키마 역할 수행
  • 의미 구조 정의 언어 (논리 및 추론 기반):
    • RDFS: RDF의 어휘 확장. 클래스/속성의 계층 구조, 정의역(Domain) 및 치역(Range) 명시
    • OWL: RDFS를 확장한 W3C 표준. 더 풍부하고 정교한 온톨로지 정의
  • 구조 제약 검증 언어 (유효성 검증 기반):
    • SHACL, ShEx: 데이터 인스턴스가 특정 구조적 제약 조건을 만족하는지 확인
  • 💡 핵심 요약: RDFS/OWL은 데이터의 '의미'와 '논리적 관계'를 정의하여 추론 기반을 마련하고, SHACL/ShEx는 데이터가 정해진 '구조'와 '형태'를 준수하는지 검증하는 데 초점을 맞춤.

3) 버전 관리

  • 시간 경과에 따른 지식그래프의 변경 이력 관리
  • 주요 고려사항 (난제):
    • 세분성 설정: 개별 트리플, 노드/관계, 하위 그래프, 혹은 전체 그래프 중 어느 단위로 관리할 것인가?
    • 시스템 부하: 일관성 유지, 저장 효율성, 쿼리 복잡성 증가 문제 해결 필요

4) 보안 및 접근 통제

  • 데이터 민감도에 따른 사용자별 읽기/쓰기 권한 제어

5. 지식그래프 활용 및 추론

구축 및 관리된 지식그래프를 실제 애플리케이션에 적용하고, 데이터의 불완전성을 극복하는 단계입니다.

1) 주요 활용 애플리케이션

  • 시맨틱 검색 (Semantic Search): 키워드 매칭을 넘어 의미 기반의 검색 결과 제공
  • 추천 시스템: 사용자 및 아이템 간의 복잡한 관계망을 분석하여 정교한 추천
  • 질의응답 (Q&A) 시스템: 복잡한 자연어 질의에 대한 정확한 사실 기반 답변 생성
  • 데이터 통합 및 분석: 사일로화된 데이터를 연결하여 다차원 분석 인사이트 도출

2) 지식그래프 추론 (Reasoning)

  • 목적: 현실 세계 지식의 본질적 '불완전성' 보완 및 지식 활용 가치 극대화 (예: 전이성, 대칭성 추론)
  • 접근 방식 1: 규칙 기반 추론 (Rule-based Reasoning)
    • 원리: 온톨로지 규칙(SWRL, SPIN 등)을 활용한 명시적 논리 도출 (IF 조건 THEN 결론)
    • 방식: 순방향 추론(데이터에서 결론 도출) 및 역방향 추론(목표에서 데이터 역추적)
    • 특징: 설명 가능성이 높으나, 대규모 확장이 어렵고 예외 상황(노이즈) 처리에 취약함
  • 접근 방식 2: 임베딩 기반 추론 (Embedding-based Reasoning / 지식 표현 학습)
    • 원리: 개체와 관계를 저차원의 연속적인 벡터 공간(수학적 공간)에 매핑
    • 방식: 삼중항(Head, Relation, Tail)의 타당성을 평가하는 '점수 함수'(거리 기반, 유사도 기반) 적용
    • 특징: 대규모 지식그래프 처리에 대한 확장성과 연산 효율성이 뛰어나나, 결과에 대한 설명 가능성(블랙박스)이 부족함
  • 최신 동향: 신경-기호 추론 (Neuro-symbolic Reasoning)
    • 규칙(기호)과 임베딩(신경망) 기반 추론의 결합으로 각 방식의 단점 상호 보완
    • 확장 연계: 그래프 신경망(GNN), 시간 흐름을 반영하는 시간적(Temporal) 지식그래프, 대규모 언어 모델(LLM)과의 적극적인 통합 연구 진행 중

'독서&지식' 카테고리의 다른 글

목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_2  (1) 2026.05.12
목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_1  (0) 2026.05.11
랭체인 에이전트 및 도구, Pydantic 스키마로 구조화된 입력받기, ReAct  (0) 2026.04.03
랭체인 프롬프트, 모델, 출력파서, 랭체인 허브  (1) 2026.04.02
국회 예산안 및 결산안 심사 과정  (0) 2026.03.31
'독서&지식' 카테고리의 다른 글
  • 목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_2
  • 목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_1
  • 랭체인 에이전트 및 도구, Pydantic 스키마로 구조화된 입력받기, ReAct
  • 랭체인 프롬프트, 모델, 출력파서, 랭체인 허브
AI강선생
AI강선생
AI강선생의 블로그 입니다.
  • AI강선생
    나의 배움과 성장의 궤적
    AI강선생
  • 전체
    오늘
    어제
    • 분류 전체보기 (68) N
      • 강의&프로젝트 (48)
      • 독서&지식 (11) N
      • 생각과다짐 (9)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Rag
    지식그래프
    한빛미디어
    claude code
    클로드코드
    이지스퍼블리싱
    docker
    유리링
    인프런
    랭그래프
    게임기획
    FastAPI
    AI agent
    혼공바이브코딩
    온톨로지
    국회
    오레일리
    AI에이전트
    랭체인
    챌린지
    spring
    에이전트
    cursor
    멀티에이전트
    Claude
    PostgreSQL
    rustfs
    java
    llmagent
    길벗
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
AI강선생
목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_3
상단으로

티스토리툴바