-
[데이터정보처리입문]2강 요약NOTE 2020. 6. 2. 23:26
데이터의 입력과 점검
데이터란?
어떤 주제에 대한 수집되어 구조화된 정보 (수치, 문자, 그림 등)
데이터의 특징
- 구조화되어 있어야 한다. (데이터 분석에 알맞은 규칙과 형태로 수립되고 정리되어야 함)
- 분석과정을 통해 유용한 정보가 된다. (쓸모 있는 정보를 담아야 한다)
- 수집되는 것이다. (통계조사나 실험, 이미 존재하는 데이터베이스)
- 관심 있는 주제에 대한 것
통계적 데이터란?
수치적 계산에 알맞은 / 수치적 계산을 할 수 있는 데이터
통계 분석을 통해 유용한 결과를 얻을 수 있는 데이터
데이터 수집, 정리, 분석 목적?
1)기술적
어떤 집단의 현상이나 특성 등을 있는 그대로 기술, 정확히 파악
2)인과관계 밝힘
왜 그런 현상이 나타났는가?
3)법칙성 발견, 미래 상황 예측, 합리적 의사결정
1) 데이터 수집 방법
관찰, 통계조사, 실험을 통해 측정(표본의 몸무게, 키 등을 관측해 수치화→ 데이터), 기존 자료 활용
2) 데이터 관련 기본 용어
케이스(= 레코드): 데이터 처리 기본 단위, 데이터세트에서 한 조사 단위 정보 집합체 _데이터베이스 시스템에선 레코드가 행, 투플과 같다
예) 수강생 150명
변수 = 변량 = 필드: 조사 단위로부터 측정된 개별 속성 _데이터베이스 시스템에선 필드가 열, 컬럼
예) 번호, 학력, 성별, 점수
수치변수: 나이, 월수입 (수학 연산 가능), (남여를 1,2로 표기하는 것은 수치변수가 아님→명목형 변수의 값)
문자변수: 이름, 성별
값 = 엔트리: 변수에 대한 측정값
예) 20100223, 대졸, 여, 100점
결측치: 수치 측정이 결여
3)측정 수준 - 측정 척도에 따라 통계적 분석 방법이 달라짐
(1) 명목척도 (=명명척도)
각 조사단위가 어떤 속성을 지니는지, 어떤 범주에 속하는지
예)인종, 지지 정당, 성별, 출신지, 종교
(2) 순서척도 (=서열척도)
각 조사단위에 부여된 수(측정값)는 어떤 특성을 많이/적게 지니고 있는가
예)찬성/반대(적극 찬성/찬성/반대/적극 반대) 제품,서비스 질(아주 좋음/약간 좋음/보통/약간 나쁨/아주 나쁨), 제품 선호도 조사(아주 좋음/좋음/보통/싫음/아주 싫음), 학력(초졸 이하(1), 중졸(2), 고졸(3), 대졸 이상(4))
— 질적 데이터 = 범주형 데이터 = 이산형 데이터
(3) 구간척도 - 구간척도와 비율척도는 같은 분석기법을 이용함
두 값 사이의 차이만 의미 있고 비는 의미 없다, 절댓값 0을 정의할 수 없다.
예)섭씨온도, 습도, 지능지수(IQ) 감성지수(EQ), 적성검사 점수
점수가 0이라는 건 척도구성상의 위치
(4) 비율척도
구간척도와 비슷하되 절댓값 0을 정의할 수 있음
예) 소득, 체중, 신장, 시간
결근자 수, 방문객 수 → 이산형 변수지만 비율척도를 가짐
—양적 데이터 = 연속형 데이터
—우리가 사용하는 데이터 대부분은 질적+양적 데이터
일변량(변수 1) / 이변량(변수 2) / 다변량(변수 다)
통계 패키지나 소프트웨어는 아스키 형식 텍스트 파일도 분석 가능
데이터 입력 1) 데이터 파일 명칭 정하기 2) 변수 명칭 정하기
*부호화(코딩) 설계 : 데이터를 간편하고 효과적으로 분석하기 위해 입력 전에 설계하는 과정
1)부호화(CODING, 코딩)
수집한 데이터를 통계적으로 분석할 수 있게 숫자를 부여하는 과정
연속형 변수, 폐쇄형 질문은 그대로 입력
개방형 질문은 응답에 숫자를 부여
부호화 지침서(CODE BOOK)
여러 사람이 부호화 작업에 참여하는 경우 일관성 유지를 위해 만들어 사용
각 질문지의 식별번호, 변수 이름, 영문변수이름, 입력열(텍스트 파일 형식), 코드 및 설명(변수값이 될 수 있는 수치와 수치의 의미)
→ 행렬 형태로 입력 및 저장해 통계 소프트웨어나 다른 컴퓨터 소프트웨어로 분석
가능한 데이터 파일 형태: 텍스트 파일, 스프레드시트, 데이터베이스 파일, 통계 패키지 시스템 파일
2) 데이터 파일의 종류
(1) 텍스트 파일
ASCII 코드 형식 / 한글 등 문서 편집기로 만들고 파일 형식을 .TXT로 저장
통계 패키지, 스프레드시트, 데이터베이스 프로그램, 문서 편집기 등에서 읽어 들일 수 있음.
자유형식: 변수 사이를 공란으로 구별 - 변수 개수가 적을 때
고정형식: 정해진 열에 자료를 위치 - 변수 개수가 많을 때
예) SAS 프로그램으로 survey.dat라는 파일명 읽기
data survey;
infile 'c:\survey.dat';
input ID $ C1 C2 P1 P2 P3;
run;
(2) 스프레드시트나 데이터베이스 파일
엑셀 / 액세스
보통, 행은 케이스 열은 변수
(3) SPSS에서 데이터 입력
직접 SPSS의 워크시트에 데이터 입력 / 외부 텍스트 파일 및 엑셀 파일 불러오기
데이터의 점검
디버깅: 데이터세트 검토 및 분석을 통해 오류 찾아 수정하는 것
데이터 수가 많은 경우 변수가 취하는 값의 범위 확인 / 변수가 논리적 일관성 만족하는지 확인
1) 각 변수의 입력범위 확인하는 방법
변수의 최댓값과 최솟값을 확인, 해당 변수가 범위를 벗어나면 오류
예) 성별_ 남 1/여 2 → 2보다 큰 값 → 오류
기술통계량을 구할 수 없는 값을 가지는 경우 (평균,중앙값,분산,표준편차,최댓값,최솟값)
연속형 데이터의 분포 형태를 상자그림, 줄기-잎 그림을 이용해 특이값, 입력 오류 찾기
2) 변수 간의 논리적 일관성 여부
변수 간의 분할표 작성
성별과 암 종류 간의 분할표에서 남자가 자궁암이나 유방암에 걸렸다고 표시될 경우
데이터 파일이 범위 안에 있고 논리적 일관성을 지킨다고 해서 입력 오류가 전혀 없는 것은 아니다.
데이터세트의 디버깅 방법과 정도는 데이터 중요도에 따라 달라진다.
중요한 데이터의 경우 범위 확인, 기술통계량 외에도 시험지의 점수와 대조 실시
데이터 디버깅 + 프로그램 디버깅
'NOTE' 카테고리의 다른 글
김버그 개발자의 조언 (0) 2020.07.02 [데이터정보처리입문]3강 요약 (0) 2020.06.03 [데이터정보처리입문]1강 요약 (0) 2020.06.01 절대 경로와 상대 경로 (0) 2020.06.01