- N:1
- 큐
- ORM
- 그리디
- 트리
- 스택
- DB
- outer join
- stack
- regexp
- count
- migrations
- update
- distinct
- M:N
- 백트래킹
- 뷰
- Vue
- SQL
- create
- 쟝고
- delete
- Article & User
- Tree
- 완전검색
- 통계학
- Queue
- 이진트리
- drf
- Django
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
목록데이터 분석 (29)
데이터 분석 기술 블로그

데이터의 분포 파악에 용이함 - 최빈값, 최댓값, 중앙값, 사분위수를 시각적으로 제공아웃라이어 쉽게 파악 가능 - 상자 밖 위치한 데이터 값다른 변수 또는 그룹간의 분포 차이를 쉽게 확인 가능

가장 적합한 그래프는 무엇일까?청중이 쉽게 이해할 수 있는 그래프입니다.다양한 범주에 대한 총합 또는 서브 구성 요소들의 비교상/하단에 위치하지 않는 항목들 간의 상대적인 비교가 어려움비교하고 싶은 중요 값을 상/하단에 위치시키기 - 파란색 데이터가 주 데이터라면 가운데가 아닌 상/하단에 위치시키는 것이 좋음

가장 적합한 그래프는 무엇일까?청중이 쉽게 이해할 수 있는 그래프이다.히트맵 (heatmap)행과 열로 구성된 테이블 형태의 데이터를 색상 또는 그러데이션을 활용해 시각화큰 장점은 많은 정보를 한 번에 효과적으로 시각화 가능여러 변수의 상호작용이나 패턴 쉽게 파악 가능범례를 꼭 포함 시키기해당 범위의 말단에 위치한 값을 신속하게 찾을 수 있음중요 항목을 상단에 위치시켜 전달하고자 하는 메시지를 사용자가 빠르게 인식하도록 하기사람들은 데이터를 읽을 때 위에서 아래로 읽는 경향이 있음내가 표현하고자 하는 중요 데이터는 항상 상단에 위치하는 것이 좋음
데이터 스토리텔링의 6가지 원칙 (Book - Storytelling with data)해당 상황 정보를 이해한다.적합한 시각적 디스플레이를 선택한다.불필요한 시각적 요소는 제거한다. (ex. 불필요한 레이블, 다양한 색 등.)원하는 곳에 집중시켜야 한다. (색상, 크기, 형태 등)청중처럼 생각한다.스토리를 전달한다.Tableau Prep 이란?데이터를 정리하고 변형하여 분석이나 시각화에 적합한 형태로 돕는 Data Prep 도구직관적인 드래그 앤 드롭 인터페이스와 미리보기 기능을 통해 복잡한 데이터 준비 작업을 훨씬 쉽고 빠르게 수행 가능Tableau Desktop에서 분석 및 시각화 작업을 시작하기 전에 사용Tableau Prep Builder와 SQL/Python 차이Tableau Prep Buil..
인지적 편향(Congnitive bias)이란, 분석가의 성향이나 상황에 따라 비논리적인 추론을 내리는 편향입니다. 인지심리학자인 트버스키(Amos Tversky)와 행동경제학자 대니얼 카너먼(Daniel Kahneman)은 사람들이 언제나 합리적으로 생각하고 행동하는 것이 아니고, 휴리스틱(heuristic)을 통해 왜곡된 지각으로 결정하는 경우가 많다고 주장합니다. 1. 확증 편향(confirmation bias)사람들이 자신이 믿고 있는 대로 정보를 받아들이고 임의로 판단하는 경향입니다. 자신의 판단에 대한 확신을 더해주는 방향으로 데이터를 조정하거나 처음부터 생각해 두었던 가설에 유리한 방향으로 정보를 수집하고 해석하여 명백한 오류를 만들고 분석의 신뢰성을 떨어뜨립니다. 이러한 기존의 상식과 고..
표본 오차(sampling error)이란, 모집단과 표본의 자연 발생적인 변동입니다. 같은 크기의 두 개의 표본을 조심해서 추출한다고 해도 우연, 표본 수의 부족 등의 이유로 완벽하게 똑같은 표본을 얻는 것은 거의 불가능합니다. 다시 말해, 모집단의 모수와 표본의 통계량 간의 차이로 인해 통계치가 모수치의 주위에 분산되어 있는 정도를 말합니다, 비표본 오차(non-sampling error)이란, 표본 오차를 제외한 변동입니다. 조사원의 미숙, 자료의 그릇된 해석뿐만 아니라, 편향(bias)이 비표본 오차의 원인입니다. 편향의 종류표본추출편향(sample selection bias) : 조사 대상자를 선택하는 과정에서 특정 그룹이 과도하게 대표되거나 과소되어 전체 모집단을 제대로 반영하지 못하는 현상..

표본조사의 필요성분석 모델링에서는 수많은 테스트와 검증이 필요하고, 머신러닝 모델에서는 데이터를 가공할 때에 원하는 데이터 구조를 완성시키기 위해 여러 번의 시행착오를 거쳐야 합니다. 이 모든 단계를 전체 데이터로 수행하려면 많은 시간과 비용이 소모되기 때문에 모든 데이터를 사용하는 것은 비효율 적입니다. 최종 분석에서는 전체 데이터를 사용하는 게 정확성 측면에서 좋을 수 있지만, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적으로나 시간적으로 유리합니다. 일반적으로는 최소 200개 이상 표본이 있으면 분석이 가능합니다. 통계적으로는 변수 하나당 최소 30개의 관측치가 필요하므로 예를 들어 10개의 변수를 사용하는 예측 모델을 만들려면 최소 300개의 표본 관측치를 가지고 있어야 합니다..

모집단(population) : 분석 대상 전체의 집합표본(sample) : 모집단의 일부를 추출한 것전수조사 : 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것표본조사 : 모집단에서 추출한 표본을 통해 모집단을 정보(평균, 표준편차 등)를 추정하고 검정하는 것 가장 대표적인 전수조사는 전체 국민의 투표 데이터를 통해 결과를 도출하는 선거 투표입니다.하지만 모집단 전체를 조사하면 가장 정확하지만 비용가 시간이 많이 필요하기 때문에 표본조사를 해서 모집단의 결과를 유추하는 여론조사를 합니다. 여론조사는 적은 표본만으로도 최대한 높은 정확도를 이끌어 내는 것이 중요합니다.효과적인 표본조사표본 추출을 잘해야 합니다. 표본 추출은 다양한 방법이 있는데, 데이터의 형태나 분포에 따라 올바른 방법을 선택..