Predictive Analysis of Default Risk in Peer-to-Peer Lending Platforms: Empirical Evidence from LendingClub
‣
- 모델링 기법과 평가 방법
- 로지스틱 회귀, 랜덤 포레스트, DNN을 활용하여 LendingClub 플랫폼의 대출 부도 확률을 예측
- 모델 성능 평가는 ROC 곡선과 AUC, confusion matrix 기반 정확도 등이 활용됨
- Kolmogorov-Smirnov(K-S) Test 도 사용되어 모델의 분류능력을 평가
- 로지스틱 회귀 - R의 glm 함수
- AIC 기준(stepwise)으로 최적 변수를 선택하여 최종 13개 유의한 변수를 포함하는 모델 확정
- 랜덤 포레스트
- 훈련 데이터의 75%를 이용해 트리 500개, 분할 시 변수 2개로 하는 것이 OOB 오류율을 최소화하는 최적 모델로 선정
- DNN - R의 nnet 패키지 사용
- 은닉층 1개에 뉴런 18개를 갖는 다층퍼셉트론을 500회 반복 학습, 활성화 함수로 로지스틱 함수를 사용
- confusion matrix를 통해 민감도(재무율)와 특이도 등의 지표도 제시
→ 신경망 분류기가 가장 높은 AUC를 보여 세 모델 중 성능이 우수
- 변수 선택 및 파생 변수 생성 방식
- Fully Paid를 정상으로, 그 외 Default, Charged Off 등을 부도로 간주하여 목표변수를 정의
- 사용하지 않을 변수들을 제거
- 결측치가 지나치게 많은 변수들
- 사후 관리에 생성되는 변수들
- 범주형 변수들을 수치형으로 변환
- 결측값 대체 방식 적용(여기서는 평균)
Recoveries, DTI, Annual Income, Loan Amount 등이 부도와 강한 관계를 가진 주요 변수
→ Recoveries 가 가장 강력한 변수인데, 대출 발행 후 부실이 발생해야만 값이 생기는 특수한 변수로서, 부도 예측 모델에 넣을 경우 데이터 누수의 우려가 있음.
→ 부도 가능성이 낮은 대출을 선별함으로써 평균 손실은 낮추고 투자 포트폴리오의 샤프 지수를 높일 잠재력이 있음. 개별 대출의 이자율(수익률)과 부도 확률(위험)을 함께 고려하여 위험조정수익이 높은 대출 위주로 포트폴리오를 구성하는 전략
- 베이스라인
- 오버샘플링, 언더샘플링(불균형 데이터) → 여기서는 언더샘플링(무작위 추출)
- DTI가 지나치게 높거나 대출 금액이 큰 신청은 보수적으로 취급하고, 차입자의 소득수준이 높고 신용계좌 관리 이력이 풍부한 경우 우대하는 등의 전략
- 부도 예측 모델이 포트폴리오의 위험 관리 도구로 기능하도록 만드는 ..
- 그리고 잘못 예측한 게 왜 잘못 예측하는지 분석하는 것도 중요..!!