목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_3

앞에서 지식그래프에 기본 이론과 온톨로지 설계 과정을 살려보았다면, 마지막으로 온톨로지 기반으로 지식그래프를 어떻게 생성하고 관리하는지 알아보도록 하게습니다. 참고한 도서는 유원북스의 지식그래프(2025)입니다.

1. 지식 그래프 성명주기 개요

1) 구축(Construction / Creation):

다양한 데이터로 부터 정보를 추출하고 구조화함

온톨로지 설계하고 원본 데이터를 RDF와 같은 그래프 형태로 변환

데이터 소스와 온톨로지 간의 매핑 규칙 정의

2) 저장 및 호스팅(Storage/ Hosting)

지식 그래프의 특성(데이터 모델, 규모, 쿼리 패턴)에 맞는 적절한 데이터베이스 기술을 선택

RDF 트리플 저장소나 속성 그래프 데이터베이스가 사용됨

데이터베이스에 구축된 지식그래프 데이터를 로드하고 인데싱하는 작업 포함

3) 관리 및 큐레이션(Management/ Curation)

지식그래프는 시간이 지남에 따라 제이터가 변경되거나 새로운 정보가 추가

품질평가,

정제,

보강/완성(누락된 정보를 추가하거나 추론)

스키마 관리

버전관리

보안 및 접근통제

4) 활용 및 추론(Utiliazation / Deployment/ Consumption)

저장되고 괸리되는 지시그래프르 실제 어플리케이션에서 활용하는 단계

시멘틱 검색, 추천 시스템, 질의응답 시스템 등에 지식그래프를 연동하여 사용자에게 가치를 제공하는 것

2. 데이터 수집 및 전처리 / 지식 그래프 구축

현실 세계의 파편화된 데이터를 수집하고 정제하여, 데이터 통합, 분석, 추론의 기반이 되는 '연결된 그래프 구조'로 변환하는 핵심 첫 단계입니다.

1) 지식그래프 구축 개요

데이터 수집 원천: 내부 데이터베이스, 공개 데이터셋, 웹 크롤링, OCR(광학 문자 인식) 등
데이터 정제 및 전처리: 추출된 데이터의 노이즈를 제거하고 형태를 규격화하는 과정
- 주요 자연어 처리(NLP) 기법: 토큰화, 정제, 어간 및 표제어 추출, 불용어 처리
- 상호참조 해결: 같은 대상을 지칭하는 다양한 표현을 하나로 통일하기 위해 레벤슈타인 거리, 코사인 유사도, 사전 기반 매핑, IRI 정규화 등의 기법 활용
데이터 소스 유형별 특징:
- 비정형 데이터: 명확한 구조가 없는 텍스트, 이미지, 영상 자료. 정보 지식을 추출하는 데 가장 고도화된 기술과 많은 노력이 요구됨.
- 반정형 데이터: HTML, JSON, XML 등 태그나 마커를 통해 어느 정도 계층적, 구조적 정보를 포함하고 있는 데이터.
- 정형 데이터: RDB(관계형 데이터베이스), CSV 등 엑셀 표의 형태로 완벽하게 구조화된 데이터.

2) 비정형 데이터로부터 구축: 정보 추출 (Information Extraction) 아무런 형태가 없는 텍스트에서 유의미한 지식(점과 선)을 뽑아내는 4단계 과정입니다.

1단계: 개체명 인식 (NER)
- 텍스트에서 인명, 지명, 조직명 등 핵심 개체를 식별하여 지식그래프의 '노드(Node)'를 생성
- 접근법: 규칙 기반, 통계적 기계학습, 딥러닝 모델 활용
2단계: 관계 추출 (RE)
- 식별된 노드(개체)들 사이의 의미론적 관계를 파악하여 연결하는 '엣지(Edge)' 생성 (예: [버락 오바마] -태어남-> [하와이])
- 접근법: 지도학습, 원거리 감독, 개방형 정보 추출(OpenIE)
3단계: 이벤트 추출 (EE)
- 특정 사건이 발생했음을 식별하고, 언제/어디서/누가/무엇을 했는지 다차원적인 속성을 가진 '이벤트 노드' 생성
- 접근법: QA(질의응답) 기반, 생성 모델, 대규모 언어 모델(LLM) 활용
4단계: 개체 연결 (EL)
- 텍스트에서 추출한 개체를 기존 지식 베이스 내의 고유 식별자와 매핑하여 동명이인 등의 중의성을 해소하고 데이터 일관성 확보

3) 정형/반정형 데이터로부터 구축: 매핑(Mapping) 기술 이미 표나 트리 형태로 정리된 데이터를 그래프 구조(RDF 등)로 변환하는 표준화된 작업입니다.

정형 데이터 변환 (R2RML):
- RDB의 논리적 테이블을 지식그래프의 트리플(주어-술어-객체)로 매핑하는 W3C 표준 언어
- 테이블 구조를 주어 맵, 술어-객체 맵 등을 통해 기계가 이해할 수 있는 그래프 데이터로 변환
반정형 데이터 변환 (RML):
- R2RML을 확장하여 JSON, XML 등 다양한 반정형 데이터 포맷까지 포괄적으로 지원하는 매핑 언어
- 논리적 소스와 반복자(Iterator)를 활용해 계층적인 구조를 평면적인 그래프로 풀어냄

2) 비정형 데이터로부터 구축: 정보 추출

1단계: 개체 추출(규칙기반 접근, 통계적 기계 학습, 딥러닝 기반 접근)

2단계 : 관계 추출

관계 추출은 지식그래프에서 개체 노드들을 의미론적으로 연결하는 엣지를 생성하는 역할

지도학습, 원거리감독, 비지도/개방형 정보 추출

예) 버락오바마는 하와이에서 태어났다.(Barack Obama, PlaceOfBirth, Hawaii)

3단계 : 이벤트 추출

질의응답 기반 접근, 생성모델 기반 접근, 그래프 기반 접근, 대규모 언어 모델 활용

4단계: 개체연결

식별된 개체 언급을 기존의 지식 베이스나 지식 그래프 내에 존재하는 고유한 개체와 연겨 또는 매핑하는 작업

후보생성, 후보랭킹 및 중의성 해소, 대규모 언어 모델의 활용

작업	정의	KG 구축에서의 목표	주요 방법론
개체명 인식(NER)	텍스트에서 인명, 지명 등 미리 정의된 유형의 개체명 언급 식별 및 분류	KG의 노드(개체) 식별	규칙기반, 통계적ML,딥러닝
관계 추출(RE)	텍스트 내 식별된 개체들 사이의 의미론적 관계 식별 및 분류	KG의 엣지(관계) 생성	지도학습, 원거리 감독, OpenIE, 딥러닝
이벤트 추출(EE)	텍스트에서 특정 사건 발생 식별 및 관련 정보(트리거, 유형, 인자, 역할) 추출	풍부한 속성을 가진 이벤트 노드 생성	순차 레이블링, QA 기반, 생성모델, 그리프 기반 , LLM활용
개체 연결(EL)	테스트 내 개체 언급을 지식 베이스 내 고유 개체에 연결 및 중의성 해소	추출된 정보를 기존 KG와 일관성 있게 통합	후모 생성 및 랭킹, 딥러닝(문맥/개체 임베딩 활용, 전역 일관성 고려)

3) 정형/반정형 데이터로부터 구축

정형 데이터 구축(R2RML)

논리적 테이블, 트리플 맵, 주어 맵, 술어-객체 맵, 술어맵, 객체 맵, 참조 객체 맵

반정형 데이터 구축(RML)

논리적 소스, 반복자, 참조 공식화

3. 지식그래프 저장 및 호스팅

구축된 지식그래프 데이터를 시스템의 목적과 쿼리 패턴에 맞춰 저장하는 단계입니다. 저장소는 크게 'RDF 트리플 저장소'와 '속성 그래프 데이터베이스' 두 가지 옵션으로 나뉩니다.

1) RDF 트리플 저장소 (RDF Triple Store)

핵심 데이터 모델:
- W3C 표준인 RDF(Resource Description Framework) 모델 기반
- 모든 정보를 주어(Subject), 술어(Predicate), 객체(Object)의 세 가지 요소, 즉 '트리플(Triple)' 단위로 쪼개어 저장
- 개체와 관계는 고유 식별자인 URI를 통해 표현됨
표준 쿼리 언어: SPARQL
- 그래프 패턴 매칭을 기반으로 트리플 데이터를 검색하는 W3C 표준 언어
- FILTER, OPTIONAL, UNION 등 다양한 연산자를 통해 복잡하고 정교한 질의 수행 가능
주요 장점:
- 표준화 및 확장성: W3C 표준을 철저히 준수하여 시맨틱 웹 및 연결 데이터(Linked Data) 환경에 최적화
- 강력한 추론 기능: RDFS, OWL 등 온톨로지 언어와 결합하여, 저장된 명시적 데이터로부터 내재된 새로운 사실을 논리적으로 추론해 내는 기능 지원
주요 단점:
- 속성 표현의 한계: 특정 관계가 발생한 '시간' 같은 메타데이터(속성)를 엣지(관계)에 직접 붙이기 어려움. 이를 표현하려면 모든 것을 트리플로 분해해야 하므로 구조가 복잡해짐
- 탐색 성능: 매우 복잡한 그래프 탐색이나 깊은 경로 찾기(Pathfinding) 질의에서는 속성 그래프 DB보다 성능이 저하될 수 있음
- 학습 곡선: 온톨로지 설계 개념과 SPARQL 문법에 대한 사전 학습이 필수적임

2) 속성 그래프 데이터베이스 (Property Graph Database)

핵심 데이터 모델:
- 노드(Node), 관계(Relation), 속성(Property), 레이블(Label) 등 4가지 기본 요소로 데이터를 모델링
- 💡 핵심 차별점: 노드뿐만 아니라 관계(엣지)에도 직접 '키-값(Key-Value) 쌍' 형태의 속성 부여 가능
  - (예시: 'Person' 노드에 name, age 속성을 넣고, 노드 간의 'WORKS_FOR' 관계 선 위에 startDate 속성을 직접 저장)
주요 쿼리 언어:
- Cypher (Neo4j), Gremlin (Apache TinkerPop), GQL(Graph Query Language) 등 시스템별 언어 사용
주요 장점:
- 직관적 모델링: 현실 세계의 관계망에 포스트잇을 붙이듯 노드와 관계에 직접 속성을 달 수 있어 설계가 매우 자연스러움
- 유연한 스키마: 엄격한 사전 스키마 없이도 데이터를 유연하게 확장하고 변경할 수 있음
- 고성능 탐색: 이웃 노드 간의 복잡한 네트워크 탐색 및 패턴 매칭에서 압도적인 쿼리 성능 제공
- 개발 용이성: 상대적으로 학습이 직관적이며, 실무 애플리케이션 적용 속도가 빠름

4. 지식그래프 관리 및 큐레이션

지식그래프의 신뢰성과 운영 효율성을 유지하기 위한 데이터 생명주기 관리 단계입니다.

1) 데이터 품질 관리

품질 평가 및 오류 탐지: 지속적인 데이터 무결성 검증
정제 (Cleansing): 노이즈 제거 및 데이터 일관성 확보
보강 및 완성 (Enrichment/Completion): 누락된 정보를 추가하거나 추론을 통해 지식그래프 확장

2) 스키마 관리 및 검증

온톨로지 (Ontology): 지식그래프 내 스키마 역할 수행
의미 구조 정의 언어 (논리 및 추론 기반):
- RDFS: RDF의 어휘 확장. 클래스/속성의 계층 구조, 정의역(Domain) 및 치역(Range) 명시
- OWL: RDFS를 확장한 W3C 표준. 더 풍부하고 정교한 온톨로지 정의
구조 제약 검증 언어 (유효성 검증 기반):
- SHACL, ShEx: 데이터 인스턴스가 특정 구조적 제약 조건을 만족하는지 확인
💡 핵심 요약: RDFS/OWL은 데이터의 '의미'와 '논리적 관계'를 정의하여 추론 기반을 마련하고, SHACL/ShEx는 데이터가 정해진 '구조'와 '형태'를 준수하는지 검증하는 데 초점을 맞춤.

3) 버전 관리

시간 경과에 따른 지식그래프의 변경 이력 관리
주요 고려사항 (난제):
- 세분성 설정: 개별 트리플, 노드/관계, 하위 그래프, 혹은 전체 그래프 중 어느 단위로 관리할 것인가?
- 시스템 부하: 일관성 유지, 저장 효율성, 쿼리 복잡성 증가 문제 해결 필요

4) 보안 및 접근 통제

데이터 민감도에 따른 사용자별 읽기/쓰기 권한 제어

5. 지식그래프 활용 및 추론

구축 및 관리된 지식그래프를 실제 애플리케이션에 적용하고, 데이터의 불완전성을 극복하는 단계입니다.

1) 주요 활용 애플리케이션

시맨틱 검색 (Semantic Search): 키워드 매칭을 넘어 의미 기반의 검색 결과 제공
추천 시스템: 사용자 및 아이템 간의 복잡한 관계망을 분석하여 정교한 추천
질의응답 (Q&A) 시스템: 복잡한 자연어 질의에 대한 정확한 사실 기반 답변 생성
데이터 통합 및 분석: 사일로화된 데이터를 연결하여 다차원 분석 인사이트 도출

2) 지식그래프 추론 (Reasoning)

목적: 현실 세계 지식의 본질적 '불완전성' 보완 및 지식 활용 가치 극대화 (예: 전이성, 대칭성 추론)
접근 방식 1: 규칙 기반 추론 (Rule-based Reasoning)
- 원리: 온톨로지 규칙(SWRL, SPIN 등)을 활용한 명시적 논리 도출 (IF 조건 THEN 결론)
- 방식: 순방향 추론(데이터에서 결론 도출) 및 역방향 추론(목표에서 데이터 역추적)
- 특징: 설명 가능성이 높으나, 대규모 확장이 어렵고 예외 상황(노이즈) 처리에 취약함
접근 방식 2: 임베딩 기반 추론 (Embedding-based Reasoning / 지식 표현 학습)
- 원리: 개체와 관계를 저차원의 연속적인 벡터 공간(수학적 공간)에 매핑
- 방식: 삼중항(Head, Relation, Tail)의 타당성을 평가하는 '점수 함수'(거리 기반, 유사도 기반) 적용
- 특징: 대규모 지식그래프 처리에 대한 확장성과 연산 효율성이 뛰어나나, 결과에 대한 설명 가능성(블랙박스)이 부족함
최신 동향: 신경-기호 추론 (Neuro-symbolic Reasoning)
- 규칙(기호)과 임베딩(신경망) 기반 추론의 결합으로 각 방식의 단점 상호 보완
- 확장 연계: 그래프 신경망(GNN), 시간 흐름을 반영하는 시간적(Temporal) 지식그래프, 대규모 언어 모델(LLM)과의 적극적인 통합 연구 진행 중

'독서&지식' 카테고리의 다른 글

목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_2 (1)	2026.05.12
목숨 걸고 온톨로지 전문가 되기 1탄(지식그래프)_1 (0)	2026.05.11
랭체인 에이전트 및 도구, Pydantic 스키마로 구조화된 입력받기, ReAct (0)	2026.04.03
랭체인 프롬프트, 모델, 출력파서, 랭체인 허브 (1)	2026.04.02
국회 예산안 및 결산안 심사 과정 (0)	2026.03.31

1. 지식 그래프 성명주기 개요

2. 데이터 수집 및 전처리 / 지식 그래프 구축

3. 지식그래프 저장 및 호스팅

4. 지식그래프 관리 및 큐레이션

5. 지식그래프 활용 및 추론

'독서&지식' 카테고리의 다른 글

티스토리툴바