λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

데이터 λ§ˆμ΄λ‹

데이터 λ§ˆμ΄λ‹ : 데이터 μ‹œκ°ν™”

728x90

데이터 λ§ˆμ΄λ‹ κ³Όμ • 

1. λͺ©μ κ²°μ •

2. 데이터 μˆ˜μ§‘

3. 데이터 탐색 및 μ •μ œ ( 데이터 μ‹œκ°ν™” )

4. 데이터 λ§ˆμ΄λ‹ 방법 κ²°μ • ( λΆ„λ₯˜ )

5. μ΅œμ’… λͺ¨λΈ κ²°μ •

6. μ„±λŠ₯ 평가

7. 적용

 

μ‹œκ°ν™” 기술

  • 데이터 λ§ˆμ΄λ‹ κ³Όμ •μ˜ μ „μ²˜λ¦¬ 단계에 μ‚¬μš©
  • 데이터 클리닝 (Data Cleaning)
  • λ³€μˆ˜ 생성과 선택 : λΉ„μŠ·ν•œ λ³€μˆ˜λΌλ¦¬ λ¬Άμ–΄ μƒˆλ‘œμš΄ λ³€μˆ˜, ν•„μš”μ—†λŠ” λ³€μˆ˜ μ‚­μ œ
  • 좔가적인 데이터 μˆ˜μ§‘μ—μ„œ μœ μš©ν•œ λ³€μˆ˜, μΈ‘μ •μΉ˜λ₯Ό 미리 μ„ λ³„ν•˜μ—¬ λΉ„μš©μ„ 쀄인닀.

데이터 탐색을 μœ„ν•œ κ·Έλž˜ν”„

κΈ°λ³Έ 차트 (λ²”μ£Ό) 
: λ°μ΄ν„°μ˜ ꡬ쑰, λ³€μˆ˜μ˜ μ–‘κ³Ό μœ ν˜•, μ‹€μΈ‘κ°’μ˜ 크기*μœ ν˜•νŒŒμ•…μ— 유용

- μ„  κ·Έλž˜ν”„
 : μ‹œκ³„μ—΄μ—μ„œ 자주 μ‚¬μš©

- λ§‰λŒ€ 차트 (단일 λ³€λŸ‰)
 : 평균, 개수, λΉ„μœ¨κ³Ό 같은 ν†΅κ³„μΉ˜λ₯Ό μ§‘λ‹¨λ³„λ‘œ 비ꡐ

- 산점도
 : 두 λ³€μˆ˜λŠ” 숫자 값을 κ°€μ Έμ•Όν•œλ‹€. 비지도 ν•™μŠ΅μ—μ„œ 두 κ°€μ§€ μˆ˜μΉ˜ν˜• λ³€μˆ˜κ°„μ˜ 정보 쀑볡, κ΅°μ§‘ 식별과 같은 연관성을 λ°νžˆλŠ” 데 도움이 됨.
뢄포도 (뢄포)

- λ°•μŠ€ν”Œλ‘― 
 : y좕은 λ³€μˆ˜, λ°•μŠ€λŠ” λ°μ΄ν„°μ˜ 50%λ₯Ό κ°€μ§€κ³  μžˆλ‹€.
  25μœ„, 50μœ„, 75μœ„, '+'=평균,
  λ°•μŠ€ μœ„μ•„λž˜ μ—°μž₯선은 데이터 λ²”μœ„μ˜ λ‚˜λ¨Έμ§€,
  μ•„μ›ƒλΌμ΄μ–΄λŠ” 점으둜 ν‘œμ‹œ, 

- νžˆμŠ€ν† κ·Έλž¨(μˆ˜μΉ˜ν˜• λ³€μˆ˜μ˜ 전체뢄포)
 : λͺ¨λ“  xκ°’μ˜ μΆœν˜„ λΉˆλ„λ₯Ό λ‚˜νƒ€λƒ„.

μ„  κ·Έλž˜ν”„                                                 λ§‰λŒ€ 차트                                                             μ‚°μ λ„
 λ°•μŠ€ ν”Œλ‘―                                                                                    νžˆμŠ€ν† κ·Έλž¨                

 

 

 

닀차원적 μ‹œκ°ν™”

 

히트맡(Heatmaps) : μƒ‰μœΌλ‘œ 정보 전달

상관 관계, κ²°μΈ‘ 데이터

상관 관계 κ²°μΈ‘ 데이터


색이 짙을 수둝, 숫자의 μ ˆλŒ€κ°’μ΄ 클수둝
=> λ³€μˆ˜ 사이 연관성이 λ†’μŒ

0.7=> λΉ„λ‘€ / -0.7 =>λ°˜λΉ„λ‘€
 
κ²°μΈ‘κ°’(값이 μ—†λŠ” 것)만 색칠





  • λ³€μˆ˜ μΆ”κ°€ : 색상, 크기, λͺ¨μ–‘, λ©€ν‹° νŒ¨λ„, μ• λ‹ˆλ©”μ΄μ…˜
  • 차트 쑰절 : μŠ€μΌ€μΌ 쑰절, 집계와 계측ꡬ쑰, ν™•λŒ€*μΆ•μ†Œμ™€ νŒ¨λ‹
  • 참고사항 :  μΆ”μ„Έμ„ κ³Ό λ ˆμ΄λΈ”
  • μŠ€μΌ€μΌ μ—… : λŒ€μš©λŸ‰ 데이터 μ„ΈνŠΈ
  • λ‹€λ³€λŸ‰ 차트 : ν‰ν–‰μ’Œν‘œκ³„ 차트
  • λŒ€ν™”ν˜• μ‹œκ°ν™”

=>데이터λ₯Ό 더 높은 μ°¨μ›μœΌλ‘œ ν‘œν˜„ν•˜μ§€ μ•Šκ³ , 정보 이해λ₯Ό λ•λŠ”λ‹€.

λ²”μ£Όν˜• - 색쑰 , λͺ¨μ–‘, λ©€ν‹° νŒ¨λ„

μˆ˜μΉ˜ν˜• - 색상 강도, 크기

μ‹œκ°„ - μ• λ‹ˆλ©”μ΄μ…˜

 

 

- λ³€μˆ˜μΆ”κ°€

색이 더해진 산점도                                      λ§‰λŒ€μ°¨νŠΈ λ©€ν‹° νŒ¨λ„                            산점도 맀트릭슀

 

 

- 차트 쑰절

λ°€μ ‘ ν˜•μƒ 제거 , λ³€μˆ˜μ‚¬μ΄μ˜ μ„ ν˜• 관계 λ“œλŸ¬λƒ„.

 

- μŠ€μΌ€μΌ μ—… : λŒ€μš©λŸ‰ 데이터 μ„ΈνŠΈ

1. μƒ˜ν”Œλ§ : μƒ˜ν”Œμ„ λ¬΄μž‘μœ„λ‘œ μΆ”μΆœν•΄μ„œ 차트λ₯Ό κ·Έλ¦¬λŠ”λ° μ‚¬μš©

2. 마컀 μ‚¬μ΄μ¦ˆλ₯Ό μ€„μž„ ●→ ·

3. 투λͺ…ν•œ 마컀 색을 μ‚¬μš© ●

4. 데이터λ₯Ό λΆ„λ¦¬ν•΄μ„œ μ„œλΈŒμ„ΈνŠΈλ₯Ό λ§Œλ“¦ ( λ©€ν‹° νŒ¨λ„ μ‚¬μš© )

5. 집계λ₯Ό μ‚¬μš©

6. 지터링을 μ‚¬μš© (지터링 : μ†Œκ·œλͺ¨ λ‚œμˆ˜λ‘œ 마컀 이동 -> 더 λ§Žμ€ λ§ˆμ»€κ°€ λ³΄μ΄λ„λ‘ν•˜μ—¬ λ°μ΄ν„°μ˜ λ°€μ§‘ν˜„μƒ 제거)

 

 

- λ‹€λ³€λŸ‰ 차트 : 평행 μ’Œν‘œκ³„ 차트

728x90