|
서울시가 지자체 최초로 개발한 ‘재현데이터’는 가명결합데이터 샘플을 전체로 확대·재현한 것이다. 예컨대 이번에 데이터 개발 대상은 740만 명이었는데 74만 명 샘플 값으로 확대 재현하는 형식이다. 원본의 통계적 특성은 유지하면서 개인정보 유출위험이 없어 정책 설계·분석·모델 개발 등 다방면에서 활용 가능한 것이 특징이다.
이번에 발표한 재현데이터는 서울시민의 가구·주거·이동·소비·금융 등의 가명결합데이터인 ‘서울 시민생활 데이터’를 활용해 금융 현황, 소비패턴 두 개 주제로 재현했다.
또한 대출이 있는 1인가구 약 62만 중 23.2%, 다인가구 약 140만 중 13.3%가 연소득대비 부채잔액비율(DTI) 300%이상으로 부채상환 위험이 큰 것으로 분석됐다. 부채 보유는 다인가구가 많았지만 위험률은 1인가구가 더 높은 셈이다.
가구주의 연령대별로 살펴보면 1인·다인가구 모두 청년(40세미만)이 각각 27%, 21.4%로 부채상환 위험률이 가장 높았고 다음이 노년(65세이상), 중장년(40세이상~65세 미만) 순이었다.
청년 1인 가구는 소비의 절반 이상(평균 53.7%)을 ‘전자상거래’와 ‘요식(식당)’에 할애하는 반면, 노년 1인 가구는 ‘소형유통점’과 ‘의료’에 소비의 절반 가량(평균 47.0%)을 사용하는 것으로 나타났다.
또한 방대한 데이터로 실제값에 가까운 통계치를 추출할 수 있고 기존 정보를 활용가능해 데이터 작성 주기를 단축할 수 있다고 덧붙였다.
윤충식 서울시 빅데이터담당관은 “1년여의 준비 끝에 개발한 서울시민 라이프스타일 재현데이터는 개인정보 보호와 데이터 활용 사이 균형을 찾는 새로운 시도”라며 “데이터를 정기적으로 업데이트해 시민들에게 최신정보를 제공하고 데이터가 다양한 분야에서 활용돼 서울시민의 삶의 질을 개선하는 데 도움을 주겠다”고 말했다.