기술적 지표의 한계

마지막 업데이트: 2022년 4월 11일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
네이버 아이디로 로그인

기술적 지표의 한계

부동산 관련 공공데이터를 수집 및 정제하여 데이터의 신뢰도 및 정확성 확보 ※ 데이터 형식 - 구분자 : ,(콤마) - 인코딩 : UTF-8 - 포맷 : csv ※ 참고사항 - UTF-8을 지원하는 프로그램(Notepad, Emeditor 등)을 통해 활용 가능 - 데이터는 매월 갱신 - Excel 활용 시, csv.

빅밸류 - 수도권 연립/다세대 매매 시세 데이터

빅밸류 - 전국 토지 정제 정보(4월 업데이트 완료)

부동산 관련 공공데이터를 수집 및 정제하여 데이터의 신뢰도 및 정확성 확보 ※ 데이터 형식 - 구분자 : ,(콤마) - 인코딩 : UTF-8 기술적 지표의 한계 - 포맷 : csv ※ 참고사항 - UTF-8을 지원하는 프로그램(Notepad, Emeditor 등)을 통해 활용 가능 - 데이터는 매월 갱신 - Excel 활용 시, csv.

빅밸류 - 수도권 나홀로 아파트 매매 시세 데이터

거래 사례 부족으로 시세 제공이 어려웠던 50가구 미만 아파트인 ‘나홀로 아파트’에 대한 시세 제공, 정기적인 시세정보 업데이트 및 제공 (매 달 10일) 전국 나홀로 아파트의 전용면적, 대지지분, 용도, 6개월간 시세 등을 가구별로 제공

빅밸류 - 전국 토지 정제 정보(4월 업데이트 완료)

부동산 관련 공공데이터를 수집 및 정제하여 데이터의 신뢰도 및 정확성 확보 ※ 데이터 형식 - 구분자 : ,(콤마) - 인코딩 : UTF-8 - 포맷 : csv ※ 참고사항 - UTF-8을 지원하는 프로그램(Notepad, Emeditor 등)을 통해 활용 가능 - 데이터는 매월 갱신 - Excel 활용 시, csv.

지인플러스 - 전국 지역별 아파트 지수

빅밸류 - 전국 단지형 아파트 정제 정보(4월 업데이트 완료)

부동산 관련 공공데이터를 수집 및 정제하여 데이터의 신뢰도 및 정확성 확보 ※ 데이터 형식 - 구분자 : ,(콤마) - 인코딩 : UTF-8 - 포맷 : csv ※ 참고사항 - UTF-8을 지원하는 프로그램(Notepad, Emeditor 등)을 통해 활용 가능 - 데이터는 매월 갱신 - Excel 활용 시, csv.

기술적 지표의 한계

다운로드, 열람은 기관인증 후에 가능합니다.

(구독기관 내 IP 이용 / 대학도서관 홈페이지 통해 접속)

개인로그인

개인회원 서비스 이용(알림서비스, 보관함 등)

닫기

네이버 아이디로 로그인

개인회원가입으로 더욱 편리하게 이용하세요. 개인 회원가입

아이디/비밀번호를 잊으셨나요? 아이디 찾기 비밀번호 찾기

논문 상세보기

질적 성과지표의 대표성 제고방안에 관한 연구

A Study on the Relevance of Qualitative Performance Indicators

  • 발행기관 : 한국행정연구원
  • 간행물 : 기본연구과제 2018권0호
  • 간행물구분 : 연속간행물
  • 발행년월 : 2018년 12월
  • 페이지 : 1391-1672(282pages)

기본연구과제

키워드 보기

초록 보기

UCI(KEPA)

간행물정보

  • KISS주제분류 : 사회과학분야 > 행정학
  • 국내등재 :
  • 해외등재 :
  • 간기 : 연간
  • ISSN(Print) :
  • ISSN(Online) :
  • 자료구분 : 학술지
  • 간행물구분 : 연속간행물
  • 수록범위 : 1992-2021
  • 수록 논문수 : 837
저작권 안내

한국학술정보㈜의 모든 학술 자료는 각 학회 및 기관과 저작권 계약을 통해 제공하고 있습니다.

이에 본 자료를 상업적 이용, 무단 배포 등 불법적으로 이용할 시에는 저작권법 및 관계법령에 따른 책임을 질 수 있습니다.

권호별 보기

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재 SCOUPUS

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재

KCI등재

발행기관 최신논문
자료제공: 네이버학술정보
발행기관 최신논문
자료제공: 네이버학술정보

KISS 콘텐츠를 사전허가 없이 무단으로 크롤링 및 복제, 배포할 경우 민형사상 책임을 물을 수 있습니다.

사업자등록번호 : 111-81-26181 통신판매업신고 : 파주-1250호 개인정보관리책임자 : 조동범

Copyright KISS. All rights reserved.

닫기

메인페이지로

Data Report

국가지식⋅
공공저작물

마이페이지

닫기

• 간행물: 문화·미디어·엔터테인먼트 법(구 문화산업과 법) 11권1호

권호 다운로드시 해당 논문을 포함한 권호 전체 논문이 다운로드됩니다.
(40개 이상일 경우 1~40개까지)

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

내 보관함
공유한 보관함

닫기

닫기

최근 검색어 저장

마이페이지 > 나의 검색 히스토리에 저장되었습니다.

닫기

최근 열람 자료 저장

닫기

메인페이지로

Data Report

국가지식⋅
공공저작물

마이페이지

닫기

원문 보기 안내

원문파일이 존재하지 않거나 준비 중입니다.

본 자료는 원문파일이 존재하지 않거나 서비스를 위한 준비 중입니다.
빠른 시일 내에 서비스할 수 있도록 노력하겠습니다.

관련문의사항은 [email protected] 으로 기술적 지표의 한계 연락주시기 바랍니다.

원문을 볼 권한이 없습니다.

KISS에서 서비스 중인 학술자료는 ㈜한국학술정보와 구독계약을 맺은 기관에
소속이신 분들만 이용이 가능하십니다.

구독기관 확인 및 문의
- 소속된 대학도서관에 확인 / 소속된 기관의 자료담당부서
- KISS 고객센터: [email protected]

구독기관의 교외접속방법
- 대학도서관홈페이지 로그인 후에 도서관 내 메뉴를 통해 접속
- 안내: KISS 고객센터 FAQ

구독기관에 속해 있지 않은 경우, 아래사이트에서 구매 가능합니다.

해당 자료는 원문이 제공되지 않습니다.

해당 자료는 발행기관과의 계약 만료, 혹은 저자 요청 등의 이유로 원문이 제공되지
않고 서지정보만 제공되고 있습니다.
관련 상세문의는 고객센터를 이용해 주시기 바랍니다.

한국조세재정연구원 KIPF 한국조세재정연구원

미래 선도 정책으로 국가발전에 기여하는
세계 일류의 조세재정정책 연구기관이 될 수 있도록 노력하겠습니다.

저자 이미지

저자 이미지

저자 이미지

저자 이미지

  • 연구보고서 21-05 임금 상승이 노인의 노동시장과 공적연금 수령에 미치는 영향 2022.05 조희평 , , 고창수
  • A-K 일반균형 모형에 의한 국민연금의 세대간회계 2021.12 최기홍
  • 국민연금 소득재분배의 미시모의실험 모형 연구 2021.08 최기홍
  • 재정포럼 2021년 5월호(제299호) 2021.05 한국조세재정연구원
  • OECD 국가별 연금충당부채 해외사례 조사 2021.03 한소영 , , 진태호 , , 이은경 , , 최은혜

상세 내용

지금까지의 공적연금의 재정안정성은 복지 또는 경제적 측면에서 주로 다루어지면서, 장기재정전망을 중심으로 국민연금과 사립학교교직원연금은 기금고갈 시점의 예측, 공무원연금과 군인연금은 보전금의 규모 산출 등 수지 균형에만 초점을 맞추어 오고 있다. 이러한 수지균형 개념의 재정안정성 평가는 해당 공적연금제도의 지속가능 여부 또는 지급의 안정성 등을 충분히 설명하지 못한다. 기금고갈 시점 등에만 초점을 맞춘 정책홍보는 국민들이 미래 의무인 보험료나 조세 인상에 대해 이해하기보다 연금의 수급가능성을 더 우려하게 될 것이다. 본 연구의 주된 목적은 공적연금 정보의 수요에 기초하여 현재 시점에서 공적연금의 재정안정성을 평가하고 정책결정에 활용할 수 있는 지표를 개발함에 있다.본 보고서에서는 국내 4대 공적연금과 해외 주요 5개국(미국, 영국, 호주,뉴질랜드, 캐나다)의 현황조사와 함께 국내 공적연금의 장기재정전망 등 현재 공시하고 있는 정보와 민간과 국내외 재정안정성 평가지표를 조사하였다. 조사결과 국내의 연금 평가지표는 수지 추계, 적립배율, 기금고갈 시점 등에 한정된 것에 비해 미국(OASDI), 캐나다(CPP), 일본(후생연금)의 경우 수지추계를 바탕으로 한 자산·부채 추계 정보를 활용하는 것을 확인할 수 있었다. 또한 캐나다와 일본의 경우 세대별 내부수익률 또는 세대별 수익비를 산출하여 하나의 연금제도하에서 가입자 간 비교 정보를 공시하는 것을 확인하였다.또한, 연금가입자의 정보수용 측면에서 연금가입자가 필요로 하는 공적연금에 관한 정보를 선별할 수 있도록 수요조사를 진행하였다. 현재 공적연금에서 제공하고 있는 정보와 국내외 조사결과를 바탕으로 재정안정성 평가 중요도를 조사하였으며, 국민연금과 직역연금(공무원연금, 군인연금, 사립학교교직원연금) 모두 ‘연금지급 가능 여부’에 대한 정보 수요가 기금의 고갈시점, 연금충당부채 등 보다 높은 것으로 조사되었다.해외사례와 수요조사 결과를 반영하여 평가지표의 가장 중요한 요소를 연금 지급 가능 여부에 대한 정보제공으로 설정하고(본문 참고), 이를 잘 표현할 수 있는 자산·부채 추계정보를 재정안정성 평가지표 개발에 적용하여 단기지표 1개와 장기지표 5개를 제시하였다. 6개의 지표는 모두 예상 연금적립금을 예상연금지급금으로 나눈 비율 기술적 지표의 한계 지표로 장기지표 5개는 자산은 가용자본, 현재 가입자의 연금보험료, 미래 가입자의 연금보험료 등 세 가지로, 부채는 현재 수급자의 연금급여, 현재 가입자의 연금급여, 미래 가입자의 연금급여 등 세 가지로 구분하여 가입자별로 기술적 지표의 한계 정보를 세분화하여 개발하였다.수요자 관점과 달리 정책결정자 입장에서의 재정안정성은 지급여력 정보가 중요하다고 판단되어 평가지표의 자산과 부채의 차액을 비율이 아닌 금액정보로 산출하여 GDP, 총세수 및 보험료 부과대상 총소득과 비교하는 지표도 제시하였다. 당 지표는 연금제도의 적자부분과 GDP, 총세수 등과 비교하여 연금보전 지급여력을 산출할 수 있고, 보험료 부과대상 총소득과 비교하여 연금제도의 균형을 위한 보험료 인상의 적정 값을 산출할 수 있다.본 연구에서는 재정안정성 평가지표 개발에 그치지 않고 설명력을 제고하기 위하여 시뮬레이션을 수행하였는데, FGI 분석 결과 제도 도입시기가 다른 4대 공적연금에 공통적으로 적용이 가능한 것은 장기지표V가 활용가능성이 가장 높을 것으로 판단하였으며, 제도 초기인 국민연금의 경우 폐쇄집단지표인 장기지표Ⅱ도 보조지표로 활용이 가능할 것으로 판단되었다. 지표값 1.00을 균형점으로 했을 때 장기지표Ⅴ 값은 국민연금 1.38, 공무원연금 0.82, 사립학교교직원연금 0.97, 군인연금 0.38로 각각 산출되었으며, 국민연금의 장기지표Ⅱ 값은 0.81로 산출되었다. 해당 지표는 수지 추계, 기금고갈시점 등 1차적 지표로만 안정성을 평가하는 국민연금과 사립학교교직원연금의 재정안정성을 수치로 표현하고, 현재 산출하고 있는 공무원연금ㆍ군인연금의 연금충당부채는 근로에 따른 지급 의무만을 평가함에 따라 재정안정성 평가에 한계가 존재한다는 점을 미래 수지를 적용하여 개선하였다는데 의의가 있다.다만 본 연구에서 시뮬레이션을 적용한 수치는 시기상 제4차 재정추계(2018.7)를 반영하지 못한 2016년 자료를 활용하였고, 자료의 한계로 추계기간도 한정(2017~2060년, 44년)됨에 따라 현재 시점의 재정안정성을 평가하는 수치로 바로 활용하는 것에는 한계가 존재한다. 국민연금의 경우 장기지표Ⅴ가 균형점(1.00)이 넘게 산출되었으나, 국민연금의 부양비가 최대치가 되는 2070년까지의 정보가 포함된다면 다른 결과가 산출될 수 있으므로 이에 대한 고려가 필요하다.본 연구에서는 재정안정성 평가지표 개발과 더불어 이를 공시하는 연금보고서 개선방안도 함께 제시하였다. 현재의 연금보고서는 국가결산보고서 중 60%를 차지하는 216페이지로 제공되고 있어 이해 가능성이 떨어지고, 해외 결산보고서와 비교하였을 때 상대적으로 주석에서 제공하는 정보의 양이 적고 전망정보가 부족한 것을 문제점으로 도출하였으며, 이를 개선하기 위하여 결산보고서상 주석 정보 강화, 연금보고서 간략화 및 본 연구에서 개발한 지표를 포함한 전망정보 강화를 개선방안으로 제시하였다.현재 국민연금과 사립학교교직원연금은 기금고갈 시점으로, 공무원연금과 군인연금은 연금충당부채로 정보를 제공하고 있는 상황에서 재정안정성 지표 등 다양한 관점의 정보를 제공함으로써 정보 비대칭성을 최소화하고 정보이용자가 이를 충분히 숙지하여 올바른 판단을 내릴 수 있도록 하는 것이 연금제도에 대한 가입자의 불신을 불식시키고 신뢰를 제고하며, 향후 제도 개선을 추진하는 데 필요한 과제라 할 수 있다.

기술적 지표의 한계

(~2022-07-14 23:59:00 종료)

모아시스 이벤트 모아시스 이벤트

-->
선물 60분지수의 기술적 지표상으로는 단기적으로 과매도 영역까지 하락하였던 스토캐스틱 지표가 가파른 반등세를 보이는 반면, 빠르게 하락하였던 상승 탄력지표의 경우 20선을 전후로 안정기미를 보여주고 있다. 하지만 이와 같은 단기적인 기술적 반등 시도는 장기 지표로 접근할 경우 조만간 한계에 부딪힐 가능성이 높아 보인다. 선물 일간 지수의 기술적 지표상으로 보면 MACD 지표가 하락 역배열을 확인시켜주고 있어 지수의 방향성 면에서 보수적인 시각을 요구하고 있으며 단기적인 스토캐스틱 지표 역시 과매수권을 하향 돌파한 이후 하락세가 진행되고 있어 단기적인 반등에도 불구하고 상승 폭과 기울기는 하락 압력에 의해 상쇄될 가능성이 높아 보인다.

결국 만기를 전후로 급격한 등락을 보였던 선물 시장은 기술적 반등으로서의 한계와 특별한 모멘텀을 갖지 못하는 시장 여건으로 인해 비탄력적인 지수 움직임을 보일 가능성이 높아 보인다. 이와 관련한 대응 전략은 반등시 선물 매도 대응 전략 기술적 지표의 한계 혹은 선물 매도에 대한 풋 매수 헤지 전략을 이용하는 것이 효과적일 것이다. 상승 탄력이 강화되기보다는 하락 위험을 대비하는 전략적 대응을 필요로 하는 시점이기 때문이다.

인공지능의 한계 3 - AI 응용 상용화 85% 실패, 그리고 Data-Centric AI로의 이동

2012년 국제영상인식대회(ImageNet Large Scale Visual Recognition Challenge)에서 심층학습(Deep Learning)은 전통적인 AI 대비 압도적인 성능을 학계 및 산업계에 선보이면서 3번째 AI 황금기의 신호탄을 올리게 됩니다. 그리고 2017년 이미지 인식 정확도는 98% 이상을 넘어서면서 인간의 인지 능력을 넘어서는 것이 가능함을 보여 주었습니다. 또한 심층강화학습(Deep Reinforcement Learning)으로 구현된 알파고(AlphaGo)는 절대로 정복할 수 없을 것 같았던 최강의 바둑기사를 연달아 이겼으며, 2020년 알파폴드(AlphaFold)는 단백질구조예측대회에서 2등(40점)과 압도적인 격차로 1등(60점)을 차지하면서 3번째 황금기를 이끌고 있습니다. 최근 GPT-3(Generative Pre-trained Transformer 3)이 만든 문장은 인간이 작성한 문장과 구별이 거의 불가능하며 글짓기, 번역, 언어 관련 문제풀이, 지시사항에 따른 코딩까지 인간에 근접한 엄청난 영향력과 잠재력을 보이고 있기 때문에 3번째 황금기는 기존보다 오래갈 것으로 예상됩니다.

" 인간 초고수를 이기는 AI보다 평범한 고객응대 챗봇이 더 만들기 어렵다 "

기존 신경망의 한계를 해결한 Model-Centric AI의 기술적 지표의 한계 대표주자인 심층학습은 우리에게 무한한 지평을 암시하는 듯 했고 많은 전문가들이 이제 인간 수준의 AGI(Artificial General Intelligence)가 멀지 않았다고 말하기도 했었습니다. 하지만 2018년도부터 Gartner(정보기술 연구 및 자문 회사)와 VentureBeat(IT 전문 매체)의 리포트에 의하면, 80~87% 이상의 AI•빅데이터 프로젝트가 실패로 끝나고 있다고 발표했으며 Gartner의 애널리스트 Svetlana Sicular는 ‘2020년은 AI의 하강이 시작하는 해’라는 진단을 내놨고, MMC Ventures(벤처캐피탈 펀드)는 유럽의 AI 스타트업을 조사한 뒤 이 중 40%가 아예 AI 기술을 쓰지 않는다고 발표했습니다. AI에 대한 우리들의 기대치와 실제 현실 간 격차는 생각보다 크다는 것입니다. 1960년대 Marvin Minsky가 5~8년 내에 인간 수준의 AI가 나올 것이라고 말했던 그 당시와 60년이 지난 지금, 우리는 얼마나 Super AI에 가까워졌고 언제 가능하다고 말할 수 있을까요?

" 활용 가능한 데이터가 너무 적으며 투자 대비 효용이 높지 않다 "

AI의 3대 거장들은 이런 기대에 대해서 우려의 시선을 보내고 있습니다. Yoshua Bengio는 지금의 딥러닝은 시스템1인지 기술(단순 지각, 예: “개”와 “고양이” 구분)에 국한된 것이며, 인간의 의식 흐름(Conscious Process)과 같은 것을 표현하는 시스템2 인지 기술과는 거리가 멀다고 말하며, AI에 거는 과도한 기대에 대해 우려를 표했습니다. Geoffrey Hinton은 시스템1인지 영역에서 최고의 성능을 보이는 딥러닝 모델조차도 정제된 데이터들을 상당히 많이 요구한다는 한계를 지적했습니다. Yann LeCun역시 레이블(Label)이 많이 필요한 지도학습(Supervised Learning)의 한계를 지적하고 지속적인 단순 관측에 의해 스스로 학습하는 자가지도학습(Self-Supervised Learning)을 차세대 AI로 말하고 있습니다. 이 외에도 비전 인식 분야 중국 최고 수장인 Jue Wang교수와 Zhi-Hua Zhou 교수 역시 데이터의 분포가 시간에 따라 변하는 문제를 말하면서 현재 AI 학습 이론의 한계를 지적하였으며, 뉴욕대학교 인지심리학 교수 Gary Marcus는 Google DeepMind가 18년도 5.7억$ 비용을 들여 1.2만 명이 3일 연속으로 학습한 성과가 얼마나 실리적인가를 꼬집으며 다소 냉소적인 관점에서 딥러닝의 한계에 대해 발표하였습니다. AI의 대가들이 말하듯이 이제는 딥러닝의 잠재력을 전파하기보다는 한계를 인지하고 다시 도약할 미래의 방향을 찾아야 할 때입니다.

" 딥러닝은 입력공간을 표적공간에 사상(寫像, mapping)시키기 위해
연쇄적 기하 변환을 하는 계층적 표현 학습에 불과하다 "

- Keras 창시자 François Chollet -

대규모 AI의 모체인 딥러닝이 나타난 지 10년이 지난 지금도 왜 수많은 응용 상용화로 직결되지 않는 이유가 무엇인지 생각해야 합니다. 최근 인기를 끌고 있는 GPT-3의 문장 생성 기능은 딥러닝의 무한한 가능성을 보여주는 또 하나의 사례입니다. 강력한 컴퓨팅 파워를 기반으로 엄청난 양의 데이터를 정제하고 1,750억 개의 매개변수를 조절함으로써 높은 성능을 자랑했습니다. 하지만 이 역시 주어진 단어에 대해 통계적으로 가장 잘 어울리는 다음 단어를 추론하는, 대규모 기술적 지표의 한계 언어 모델 기반의 시스템1인지 기술입니다. 이 엄청난 AI 기술도 “냉장고에 아이스크림을 넣으면 녹을까?”라는 일상적인 질문에는 “그렇다”라고 대답하는 물리적 상식을 가지지는 못합니다. 케라스의 창시자도 말했지만, 현재 우리가 사용하고 있는 딥러닝 1.0은 수많은 레이블을 기반으로 입력 공간을 레이블 표적 공간에 사상하기 위한 연쇄적 기하 변환일 뿐입니다.

우리가 많이 회자하는 대규모 AI의 사례인 왓슨, 알파제로, 알파고, GPT-3과 기술적 지표의 한계 같은 AI 시스템들은 복잡한 정보량을 가진 정제된 레이블 데이터셋이 빅데이터 수준으로 제공되거나, 수백만 번의 시행착오(폭발, 사고, 충돌, 게임 행동 등)나 시뮬레이션을 통한 데이터를 학습하기 때문에 성공적일 수 있었습니다. 하지만 실세계(자연 현상)에서 이 같은 환경과 조건이 주어지는 상황이 얼마나 있을까요? 관측한 데이터가 실세계의 지배 현상을 전부 설명할 수 있을 만큼의 충분한 정보량을 가진 품질을 보장 할 수 있을까요?

앞서 언급한 전문가들이 AI 한계의 요인에 대해 공통으로 언급하는 것이 있습니다. 현실 그리고 자연의 방대한 역사적 데이터셋을 스스로 그리고 손쉽게 제공받을 수 없으며, 실제 세계의 규칙성을 파악하기 위해서는 “적은 양의 조잡한 데이터"로 광범위한 신경망을 학습시키기 위한 견고한 새로운 기계학습 이론을 만들어야 한다는 것입니다. 응용 상용화가 실패하는 것은 “강력한 계산 이론” 기반의 기계학습법, 즉 표현 수용력이 높은 심층신경망 기술을 모르기 때문이 아닙니다. 실세계에서는 기계에게 학습시키기에는 너무나 적고 조잡한 낮은 품질의 데이터만 얻을 수 있기 때문입니다.

" 실세계의 조잡하고 적은 양의 데이터로 방대한 신경망을 학습할 수 있는,
강건한 학습 이론이 필요하다 "

2021년 3월 Andrew Ng은 위 문제를 직접적으로 해결하기 위한 방향을 제안했습니다. 한 예로 Steel 제조업에서 개발한 불량품 탐지 AI 시스템을 테스트한 결과 76.2% 정확도를 보였으며, 딥러닝 알고리즘의 Hyper-parameter를 튜닝하는 Model-Centric AI 접근법으로는 성능을 90% 이상으로 개선할 수 없었습니다. 하지만 Data-Centric(훈련/검증 데이터셋 분할, 오염 레이블 제거 등) AI 접근법으로 정확도를 93.1%로 개선할 수 있었습니다. Andrew Ng은 Data-Centric AI의 중요성을 설명하면서 Model-Centric AI의 한계를 설명하였습니다. 대규모 AI의 연구도 중요하지만, 성공적인 AI를 위해서는 기본적으로 첫째, 오염된 데이터셋을 보정하여 Clean Labels로 만드는 기술과 둘째, 품질이 좋은 새로운 데이터를 새로 자동 생성하는 기술을 연구해야 한다는 것입니다.

Andrew Ng의 사례도 보이지만 Data-Centric AI를 이용한 성능 개선 사례는 실제 제조 업계 AI에서 자주 발견됩니다. 공장 설비에서 주어진 원데이터(Raw Data)로 불량품 분류 모델을 학습했을 때는 53%의 정확도를 보였으나, 데이터 분석을 통하여 잘못된 레이블 4개를 보정 및 제거하여 재학습한 경우 71% 정확도로 크게 성능을 개선할 수 있었습니다. 또 다른 사례로, 복잡한 웨이퍼 패턴(Wafer Pattern, 미세회로 패턴이 새겨진 기판으로 반도체 집적회로의 핵심 재료)을 군집화(Clustering)하고자 했을 때, 패턴이 고차원으로 매우 복잡하여 전통적인 기법으로는 56% 정확도로 현장에 적용할 수가 없었습니다. 이 또한 데이터 분석을 통하여 데이터 품질과 모델 정확도에 악영향을 주는 원인이 노이즈성 미세 Pixel들과 카메라 축의 흔들림이라는 것을 파악하였고, 피처 전이 학습(Feature Transfer Learning)을 이용하여 자동으로 노이즈를 보정한 후 군집화한 결과 정확도가 78%로 개선되는 것을 확인하였습니다.

수많은 데이터 사이언티스트들이 참여한 모델 생성 기술적 지표의 한계 사례를 보면 더욱 극명하게 왜 Data-Centric AI가 중요한지 알 수 있습니다. 가전제품은 수만 개 이상의 제품을 출하하기 전에 내부의 불량 및 품질 검사를 해야 합니다. 문제는 내부결함을 검사해야 하기 기술적 지표의 한계 때문에 마이크로웨이브로 측정된 데이터를 사용해야 한다는 것과 정상 데이터는 수천 개가 넘지만, 불량은 단지 몇 십 개뿐이라는 것입니다. 이 데이터 분석 문제를 경진대회에서 사내 100여 명의 분석가들이 답안을 제출하였습니다.

  • A:Raw Data -0.34
  • B:Feature Transfomation Technique -0.71
  • C:Feature Selection Technique -0.79
  • D:Class Imbalance Technique -0.83
  • F:Model Tunning Technique -0.기술적 지표의 한계 86

*F1-Score : 조화평균으로 주로 분류 클래스 간 데이터가 심각한 불균형을 이루는 경우에 사용하는 평가지표

답안을 제출한 분석가 중 원시데이터 그대로 학습 모델에 이용한 95% 이상의 분석가들의 모델 성능은 (딥러닝을 이용하기도 하였지만) 정확도(F1-Score)가 34%(Fig. 1 A)도 넘지 못하였습니다. 70%(Fig. 1 B) 이상의 의미 있는 모델을 생성한 분석가들은 기법은 각각 다르지만 모두 “시계열 음향데이터 특성을 파악”하여 신호분해기법(FFT, MFCC등)을 이용하여 주파수 도메인으로 피처를 변환하여 학습하기 좋은 데이터를 생성하였습니다. 그리고 변환한 피처 중에서도 레이블과 관련성이 높은 변수만 선택하여 학습한 경우79%(Fig. 1 C)를 보였으며 클래스 불균형 문제까지 동시에 해결한 분석 모델은 83%(Fig. 1 D)의 성능을 보였습니다. 이런 지능적 전처리를 수행한 이후 하이퍼파라메터 최적화나 좀 더 학습 수용력이 높은 모델을 변경할 경우 86%(Fig. 1 F)로 추가적인 성능 개선이 이루어졌습니다. 이러한 데이터에 대한 이해와 학습 이론에 대한 접근 없이 아닌 원시데이터를 그대로 이용하거나 하이퍼파라메터 튜닝, 합성곱 심층신경망을 이용한 접근법으로는 유의할만한 모델이 생성되지 않았습니다. 즉, 학습데이터의 품질이 좋아야 모델 튜닝의 효과도 크다는 것입니다.

이런 데이터 품질의 중요성은 제조에 국한된 것이 아닙니다. 8월 테슬라 AI 데이에서 자율주행 기술적 지표의 한계 AI를 위해 적용한 기술 가운데 새로운 하드웨어 칩을 설명하기도 했지만, 1,000명의 라벨링(Labeling) 인력, 자동 라벨링(Auto-Labeling) 툴 비중의 확대, 그리고 희귀한 상황까지도 가상 시뮬레이션으로 분석하여 고품질의 데이터를 확보한 것들이 핵심 기술임을 강조하였습니다.

" 99%의 AI 연구는 Model-Centric AI이며
Data-Centric AI 기반의 소수 1% 연구만이 성과를 내왔다 "

정리하자면 AI 성능의 80%는 데이터 품질에 의해서 결정된다는 것입니다. 그렇지만 Andrew Ng이 지적하듯이 현재까지 99%의 AI 연구는 Model-Centric 접근법이며 1%만이 Data-Centric 연구를 진행 중이라는 것입니다. 물론 대량의 고품질 데이터 수집이 가능한 영역에 있어서는 기존 심층학습 기법이 여전히 주요 해결책이 될 것입니다. 하지만 현재까지의 Model-Centric AI는 연구실이나 실험실의 관점의 접근법이며 수리적 학습이론을 만족하는 데이터셋 들이기 때문에 고성능의 수용성 높은 표현학습 기술을 확보하는 것에 초점이 맞추어져 있으며 이것만으로는 응용 기술적 지표의 한계 상용화 수준에 도달할 수가 없다는 것을 이제는 인지해야 한다는 것입니다.

다른 분야와 다르게 AI 기술은 학계가 아닌 산업체에서 주도하고 있는 이유는 수리통계적 학습이론을 깊게 숙지해야 하는 것 외에, 각 물리 현상 별 데이터 생성 과정(Data-Generation Process)을 동시에 이해하여 “학습이 실패하는 원인을 빠르게 이해하고 이를 해결하는 알고리즘을 빠르게” 만들어내야 하기 때문입니다. 즉, 소량이면서 조잡하며 변화하는 데이터들로 어떻게든 현실의 복잡한 지배 현상을 학습해 내는 Data-Centric AI 기술로 이동해야 합니다. 그래야만 AI 응용 상용화의 성공율은 높아질 것이며, AI가 특정 소수 인력의 소유물로 남아 있는 우리가 직면한 현실적인 문제를 해결할 수 있습니다.

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


0 개 댓글

답장을 남겨주세요