sol’s blog

Lending Club 데이터 분석: 데이터 개요, EDA, 전처리, 그리고 파생 변수 설계

sol-commits
sol-commitsJul 23, 2025
Lending Club 데이터 분석: 데이터 개요, EDA, 전처리, 그리고 파생 변수 설계
프로젝트 개요• P2P 대출 플랫폼인 Lending Club에서는 투자자가 대출 신청자들의 신용위험을 면밀히 검토해야 하며, 채무 불이행(부도)의 위험은 투자 원금 및 이자의 손실로 이어질 수 있기 때문에 중요한 고려 요소
• Lending Club 플랫폼자체에서도 신청자의 신용도를 바탕으로 대출 승인 여부를 결정하고 등급(grade)에 따라 이자율을 책정
프로젝트 목표• 포트폴리오의 위험 대비 초과수익을 최대화 = sharpe ratio 최대화
Sharpe Ratio(포트폴리오 수익률 - 무위험이자율) / 수익률 변동성
• LC에서 부도가 예측되어 애출을 승인하지 않았더라면, 해당 투자금은 투자 결정 당시의 3년/5년만기 미 국채에 투자하였다고 가정
data shape(1,755,295, 141) - 전체 데이터의 약 60% 정도
• 40% 정도는 Private 성능 확인하는 데 사용
internal rate of return• LC의 대출은 원리금 균등사환 구조로 매월 일정한 상환금이 발생
• 투자자는 대출 실행 시 원금을 지급 → 대출자는 고정 상환금(원금 + 이자) 납입
• 본 프로젝트에서 IRR은 대출 투자 수익률을 측정하는 데 적용

    데이터 전처리

    loan_status(target value) 정제

    대출 심사 시점에 얻을 수 없는 후행 정보가 포함된 변수들을 제거

    url 컬럼 제거

    policy_code 컬럼 제거

    pymnt_plan 컬럼 제거

    int_rate 타입 변경 (object → float)

    term 타입 변경 (object → int)

    annual_inc(연소득) 결측치 2개 drop

    범주형 변수 중 빈도가 2% 미만인 범주 → 기타로 통합

    acc_open_past_24mths

    all_util

    annual_inc & annual_inc_joint

    bc_open_to_buy

    bc_util

    chargedoff_within_12_mths

    dti & dti_joint

    earliest_cr_line

    emp_length

    emp_title

    fico_range_high & fico_range_low

    EDA

    sub_grade로만 int_rate(이자율)이 결정되는지?

    application_type - Joint Application(공동 대출), Individual(개인 대출)

    issue_d(대출 승인월) - 2007/6 ~ 2020/9

    Initial List Status - W(Whole, 단일 투자자), F(Factional, 여러 투자자)

    addr_state

    dti(debt-to-income ratio)

    annual_inc

    funded_amnt, funded_amnt_inv

    파생변수

    소득 대비 대출금 비율

    월 납입액 대비 소득비율

    신용기간(신용이력 길이)

    연체 이력 플래그

    최근 신용조회 빈도 플래그

    대출 등급/금리 파생