연구활동

Technology Management, Economics and Policy Program

[이정혜 교수님 연구실] 텍스트 마이닝과 지식그래프를 활용한 기술기회발굴 프레임워크 개발

2025-02-25l 조회수 99

텍스트 마이닝과 지식그래프를 활용한 기술기회발굴 프레임워크 개발

스타트업 생태계를 반영하여 급변하는 기술트렌드 포착 및 유망 기술 식별 가능

경영 분야 최상위 저널인 Technological Forecasting and Social Change에 논문게재




<연구 결과 개요>

[그림 1] 기술 기회 발굴 (Technology Opportunity Discovory, TOD) 프레임워크

1. 연구 배경

최근 인공지능, 바이오 헬스케어, 첨단 모빌리티 등 다양한 기술들이 새롭게 등장하고 있고, 이러한 기술들을 기반으로 많은 신기술 기반 기업 (New Technology-based Firm, NTBF)들이 설립되고 있음. 이러한 NTBF들은 급변하는 기술 트렌드를 빠르게 포착하고 기술을 개발하며, 새로운 시장을 개척함. 또한 벤처 캐피탈을 포함한 대형 투자사들은 새로운 기술의 시장성을 평가하고 다양한 NTBF에 투자를 집행하고 있음. 기존의 연구들은 기술 문헌과 특허를 중심으로 신흥 기술에 대한 기회를 정량적 혹은 정성적으로 평가하고 있음. 이러한 기존 연구들은 최근 급변하는 기술 트렌드를 빠르게 포착하고 반응하는 NTBF의 등장과 투자사의 투자 흐름으로 구성되는 생태계를 반영하지 못하고 있음. 빠르게 변화하는 기술 트렌드를 효과적으로 포착하고 그 잠재성을 평가하는 것은 국가와 기업의 기술 주권 및 시장에서의 영향력을 강화하기 위한 의사결정에 필수적인 요소라고 할 수 있음. 이러한 한계를 해결하기 위해 신흥 기술, NTBF 그리고 투자사의 관계를 반영한 기술 잠재력 평가를 통해 기술 기회를 발굴하는 모델 개발의 필요성이 대두되고 있음.


2. 연구 내용

본 연구는 새로운 기술이 발전하여 현재 또는 가까운 미래에 새로운 시장을 창출할 수 있는 잠재성과 가능성을 측정하는 기술 기회 발굴 연구에 기술, NTBF, 그리고 투자자의 관계를 반영하는 프레임워크를 제안하였음. 이를 위해 기술, NTBF, 그리고 투자자를 노드로 두고 이들 간의 관계를 연결한 지식 그래프 (Knowledge Graph, KG)를 구축한 후, 이를 활용하여 TOD 지수를 산출함.
본 연구가 제안하는 프레임워크는 크게 4단계로 구성됨. 우선 NTBF의 기술을 분류하는 통일된 기준이 없기 때문에, NTBF의 투자자를 위한 홍보 (Investor Relation, IR) 문서 데이터를 입력하였을 때 자동으로 기술을 분류할 수 있는 기술 문서 분류 모델을 개발함. 이를 위해 중소벤처기업부에서 제공하는 기술 보고서 문서를 수집함. 해당 문서는 기술과 그 하위 범주에 속하는 기술을 목차와 세부 목차로 구성하고 있기 때문에, 세부 목차별 텍스트를 입력 데이터로 활용함. 또한, 텍스트에 대응하는 목차 및 세부 목차를 정답 레이블로 설정하여 Doc2vec-LR (Doc2vec Logistic Regression) 모델을 학습함. 두 번째 단계에서 NTBFIR 문서를 입력하여 각 NTBF에 상위 기술과 하위 기술을 할당함. 이를 위해 창업한 지 5년 이내의 초기 NTBF에 대한 IR 문서를 수집함. 세 번째 단계에서 두 번째 단계의 결과를 활용하여 TOD-KG를 생성함. TOD-KG의 노드는 기술, NTBF, 그리고 투자자로 구성되며, 엣지는 NTBF가 보유한 기술, 유사한 기술, 유사한 업종의 기업, 그리고 투자자가 투자한 NTBF로 구성됨.이렇게 구축된 TOD-KG는 기술 생태계의 지식을 내포하고 있음. 마지막으로 TOD-KG의 중심성을 활용하여 TOD 지수를 산출함. 그래프 중심성은 특정 노드가 차지하는 중요도와 영향력을 나타내는 지표임.TOD 지수를 산출하기 위한 중심성은 근접 중심성 (Closeness Centrality, CC), 매개 중심성 (Betweenness Centrality, BC), 페이지 랭크 (PageRank, PR)가 사용됨. 이때 기술 노드의 중심성을 합계한 것이 기술 기반 지수, 각 기술에 연결된 NTBF 노드의 중심성을 합계한 것이 NTBF 기반 지수, 그리고 기술에 연결된 투자자 노드의 중심성을 합계한 것이 투자자 기반 지수로, 이들을 모두 더한 값이 기술 기회 지수 (Technology Opportunity Index, TOI)로 산출됨
.

[그림 2] TOD-KG 예시

[그림 3] TOI 산출 예시

3. 기대효과

- NTBF 생태계를 반영한 TOI 제공: 본 연구에서 개발된 프레임워크는 기술 변화에 가장 빠르게 반응하는 NTBF와 투자사의 생태계를 반영하여, 급변하는 기술 변화 트렌드를 반영한 정량화된 기술 기회 지수를 제공함. 이를 통해 새롭게 등장하는 기술 중에서 주요 기술의 교차점이 되는 핵심 기술과 NTBF 그리고 투자자들과 높은 연결성을 가지는 중요한 기술을 효과적으로 식별할 수 있음.

- KG확장 및 개선된 TOI 산출 방법 자동화: 본 연구에서는 TOD-KG를 구축하는 자동화된 프레임워크를 제안하였으며, 이를 통해 새로운 기술과 NTBF가 등장하더라도 효과적으로 KG에 반영할 수 있음. 또한, 지속적으로 KG를 확장하여 보다 정교한 TOI를 산출하는 것이 가능함.

- 다양한 정책 결정자를 위한 의사결정 지원: 본 연구에서 제안하는 기술 기회 지수는 기술, NTBF, 투자자의 측면에서 세분화할 수 있으며, 이를 바탕으로 정부, 투자자, 창업가 등 다양한 정책 결정자에게 맞춤형 정보를 제공함. 이러한 기술 기회 지수는 정책 결정자들이 보다 효과적으로 의사결정을 내릴 수 있도록 지원하며, 정부의 창업 생태계 조성, 투자사의 투자 결정등의 주요 지표로 활용될 수 있음.



<논문 정보>

이정혜 교수팀이 수행한 이번 연구는 경영 분야 최상위 학술지인 Technological Forecasting and Social Change (IF: 12.9, 98.8%)에 출판되었음. 연구 수행은 한국연구재단 우수 신전연구지원으로 이루어졌음.
MyoungHoon Lee, Suhyeon Kim, Hangyeol Kim, Junghye Lee*, “Technology opportunity discovery using deep learning-based text mining and a knowledge graph”, Technological Forecasting and Social Change, 180, 121718, July 2022, https://doi.org/10.1016/j.techfore.2022.121718.


 <용어 정리>

- 신기술 기반 기업(New Technology-Based Firm, NTBF): 새롭게 등장하는 신기술을 기반으로 제품 또는 서비스를 제공하는 기업을 의미함. 이들은 혁신적인 기술을 활용하는 위험을 감수하며, 기존 시장을 혁신하거나, 새로운 시장을 개척하는 역할을 수행함.
- 기술 기회 발굴(Technology Opportunity Discovery, TOD): 새로운 기술이 발전하여 현재 또는 가까운 미래에 새로운 시장을 창출할 수 있는 잠재력과 가능성을 분석하는 연구로, 기술의 최전선과 미래 동향을 파악하는 데 활용됨.
- Doc2vec: Doc2vec은 문서 내 맥락을 반영하여 단어를 벡터 표현으로 변환하는 Word2vec 모델을 확장한 신경망 모델임. 이를 통해 단어뿐만 아니라 문서 자체도 벡터 표현으로 변환할 수 있음.
지식그래프 (Knowledge Graph, KG): 지식 그래프는 개체와 관계를 이용하여 현실 세계의 지식을 그래프 구조로 나타냄.이종의 개체와 관계로 구성된 유향 그래프(directed graph)로 표현되며, 개체와 관계는 각각 노드와 엣지로 표현됨.개체는 현실 세계에 존재하는 사물, 개념, 사람 등을 나타내며, 관계는 개체 간의 의미와 상호작용을 표현함.
- 근접 중심성 (Closeness centrality): 특정 노드가 다른 노드와 얼마나 최단 경로로 연결되는지를 측정하는 지표.
- 매개 중심성 (Betweenness centrality): 특정 노드가 다른 노드 간 최단 경로 상에서 얼마나 자주 등장하는지를 측정하는 지표
- 페이지랭크 (PageRank): 노드가 연결된 다른 노드들의 중요도를 고려하여 점수를 부여하는 방식으로, 중요한 노드와 연결될수록 더 높은 가중치를 받게 됨.