- 빅데이터 분석기사 안내
- 마스터 / 2021.08.11
빅데이터 분석기사란
빅데이터 분석기사의 필요성은 4차산업의 발전과 대량의 데이터 확보가 가능해지면서 대두되고 있는데
전 세계적으로 빅데이터가 미래성장동력으로 인식돼,
각국 정부에서는 관련 기업투자를 끌어내는 등 국가, 기업의 주요 전략분야로 부상하고 있습니다.
국가와 기업의 경쟁력 확보를 위해 빅데이터 분석 전문가의 수요는 증가하고 있으나
수요 대비 공급 부족으로 인력 확보에 어려움이 높은 상황입니다.
이에 정부차원에서 빅데이터 분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는
국가기술자격 수요가 높아지고 있습니다.
빅데이터 분석기사의 직무는 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해
목적에 따라 분석기술과 방법론을 기반으로
정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무를 수행합니다.
그렇다면 수행 자격을 위해 검증하는 빅데이터 분석기사의 시험은 어떻게 구성되었을까요?
필기 시험의 주요 내용은 다음과 같습니다.
과목은 크게 4개로 분리되며 빅데이터 분석 기획, 빅데이터 탐색, 빅데이터 모델링, 빅데이터 결과해석으로 구성되어 있습니다.
(출처: 한국데이터산업진흥원)
문제의 난이도는 데이터분석 준전문가(이하 ADsP)와 데이터분석 전문가(이하 ADP)사이의 난이도로 구성되어 있으며
내용적으로도 유사한 부분이 포함되어 있습니다.
다만 ADsP보다 중단원과 소단원이 세세하게 구성되어 있으며 정보처리기사와 마찬가지로
기획 구성단계부터 시작하는 특징을 가지고 있습니다.
빅데이터의 전반적인 이해를 시작으로
데이터 추출을 위한 탐색법, 분석을 위한 모델링 기법의 특징과 방법,
분석이 끝난 뒤 기법을 활용한 모델(모형)의 분석 평가와 개선 방법에 대해 확인하고
이를 시각화 하는 방법까지 검증하게 됩니다.
실제로 2회 빅데이터 분석기사 필기 시험에 출제된 문항들은
- 개인정보처리자가 안내해야 하는 사항,
- 정규분포의 모수의 개수,
- 결정계수 변수의 선택,
- 매개변수와 초매개변수의 차이,
- 데이터베이스 크롤러의 특징,
- AdaBoost의 특징 등
각 과목별로 세부적인 특징에 대한 문항과 어느 정도 통계 지식을 기반으로 한 계산 문제들이 출제되었습니다.
이론적인 내용에 초점을 두었기 때문에 직접 실습해본 경험이 없는 비 전공자 혹은 비 실습자의 경우
체감 난이도가 높으며 결과 해석을 하는 방법에 대해서도 숙지해야 하기 때문에
체감 난이도가 급격하게 높아지는 편입니다.
물론 이해를 바탕으로 분석 기획에서 결과 해석까지 흐름에 맞춰 학습을 하게 된다면
검정시험을 보는데 좀 더 쉽게 준비하실 수 있습니다.
각 과별 주요 내용들을 확인해보면
1과 빅데이터 분석 기획
- 빅데이터의 특징에 대한 세부사항
- 빅데이터를 분석하는 조직의 구성과 인력
- 빅데이터를 분석하는 플랫폼의 특성과 그에 대한 이해
- 개인정보 보호법과 제도 및 활용법
- 빅데이터를 분석하기 위한 문제 정의와 분석 방법
- 데이터를 수집하는 목적과 수집 기술 및 방법의 계획과 절차 수립
- 분석을 위한 전처리 방법 수립과 비식별화, 품질 검증 방법
- ETL 및 데이터 적재 방법, 저장 방법
2과 빅데이터 탐색
- 데이터 전처리 방법(결측치, 이상치 검출 및 정제)
- 효율적 분석을 위한 데이터 전처리 방법론
- 차원 축소법, 변수 선택 및 파생변수 생성법
- 샘플 데이터들의 불균형 처리
- 데이터 유효성 판별
- 기초 통계량 종류 및 계산 방법
- 기술 통계와 추론 통계의 방법론 및 계산법
3과 빅데이터 모델링
- 데이터 분석 모델링의 종류 및 방법
- 분석 모델 선택 및 환경 구성
- 모델에 넣을 데이터의 분류 방법
- 분석기법의 종류 및 특징
4과 빅데이터 결과해석
- 시행한 분석 모델의 평가 및 개선방법
- 분석 결과의 시각화 종류 및 특징
- 모델 개선을 위한 모니터링 방법
- 모델 개선을 위한 리모델링
위와 같이 각 과에서 중요하게 여기는 내용들을 위주로 판별하여 검정 시험 문제가 출제되며
세부적인 사항은 내용 숙지에 대해 얼마나 깊게 이해했는지를 검정합니다.
기사 자격 검정 시험의 경우 이론 암기와 숙지에서 끝나는 것이 아니라 정말 실무에 적합한지 판별하기 위해 실기 시험도 존재합니다.
실기의 세부적인 내용은 다음과 같이 구성되어 있습니다.
(출처: 한국데이터산업진흥원)
2회 시험에서는 채점 오류, 복수 정답 등의 이슈가 많았지만 검증하는 영역에서는 큰 이견 없이 출제되었습니다.
주관식 및 실제 모델 생성을 통해 검증하는 방식으로 이론적으로 숙지한 내용을 바탕으로
문항에 대한 답을 올바르게 작성할 수 있는 지의 여부를 판별하게 됩니다.
시험 시간은 필기 120분, 실기 180분으로 구성되어 있으며 각 과별 과락 점수도 존재하기 때문에
전체적으로 내용 숙지가 필요합니다.
필기 시험에서 많이 어려워하시는 부분은 3과 빅데이터 모델링입니다.
많은 기사 준비자분들이 직접 모델을 세워본 경험이 없으시기 때문에
실제 구동되는 원리와 결과에 대해 이해가 부족한 경우가 많아서
결과에 대한 암기가 없는 경우 많이 어려워하시는 편입니다.
출제 영역에 대한 주요 항목은 다음과 같습니다.
(출처: 한국데이터산업진흥원)
이해의 차원을 높이기 위해서는 모델을 작성하는 방법과 연습이 조금 더 효과적일 수 있습니다.
연습을 하는 방법은 실기를 준비하면서 자연스럽게 익히는 부분이기 때문에 우선 이론을 숙지한 다음
실습을 병행하는 것이 빅데이터 분석기사 자격증을 취득할 때 더 효과적일 수 있습니다.
ADsP와 달리 실무에 직접 적용하여 사용할 수 있는 부분이기 때문에 실습은 실기 시험용이 아닌
커리어 확장을 위해서도 반드시 익숙해지도록 연습을 해야 합니다.
실기 시험을 준비하기 위해서는 R과 Python, 두가지의 프로그래밍 언어에 대한 숙지가 필요합니다.
통계학을 전공으로 준비하셨거나 통계 분석 분야 실무를 진행하신 분들이라면
R을 이용하시는 것이 좀 더 편하실 수 있으나 R은 언어 자체로 프로그래밍에는 편하지 않은 언어이기 때문에
모델 생성 코딩과 라이브러리의 활용, 결과 확인의 용이성, 프로그램의 연산 속도 등을 고려했을 때에는
Python을 좀 더 추천합니다.
작성이 좀 더 직관적이며 언어를 숙지하는 난이도, 컴퓨터의 연산 속도, 라이브러리 활용도가 더 높기 때문에
적극 추천 드립니다.
시험의 예시 문항은 한국데이터산업진흥원(http://dataq.or.kr) 공지사항 게시판에 연습문제가 게시되어 있어
확인해 보시고 유사한 방법으로 연습을 하시면 되지만
자료의 한계가 있기 때문에 전처리가 되어있지 않은 데이터를 확보하셔서
직접 정제 및 분석 작업을 시행하시는 것이 시험 대비에 더 효과적일 수 있습니다.
시험 환경과 플랫폼을 확인하시고 이에 맞춰 연습을 해보시길 바랍니다.
시험의 유형은 다음과 같습니다.
(출처: 한국데이터산업진흥원)
실기의 출제 문항들은 다음과 같았습니다.
- 데이터 전처리 단계의 용어 문항
- 데이터 학습 기법
- 모델 구축 용어
- 실제 데이터 분석 - 보스턴 범죄율 데이터
- 캐글 데이터 셋을 이용한 결측치 대체 및 통계값 추출
- 데이터의 이상치 추출 후 연산
- 구매 데이터를 활용한 예측 모델 생성
위와 같이 이론적 용어에 대한 질의 10문항과 실제의 데이터를 제공하고 그에 맞는 연산과 결과 값,
직접 모델을 생성하여 답을 제시하는 예측 문항이 출제되어
응시자가 직접 모델을 생성하고 예측을 해본 경험에 바탕하여 출제가 되었습니다.
모델을 생성하고 하이퍼파라미터 값을 수정해본 경험이 있는 응시자에게 유리한 문항이었으며
이에 따른 체감 난이도 편차는 상당히 컸습니다.
얼마나 많은 데이터와 모델 생성을 해보았느냐에서 실기 합격이 판가름 놨다고 해도 과언이 아니었습니다.
이지업에서는 독학으로 준비하기 힘든 빅데이터 분석기사 시험 대비를 위해
온라인으로 필기 및 실기 대비 과정을 개설 및 제작 중에 있습니다.
확실하게 자격증을 취득하기 위해서 준비 기간동안 여러분들의 학습 길라잡이가 될 수 있도록 준비했습니다.
담당 강사님께서는 2회 필기/실기 모두 응시하시고 합격하셨으며 이에 맞춰 강의를 제작하셨습니다.
여러분이 모두 열심히 준비하셔서 빅데이터 분석기사 자격을 취득하시길 희망합니다!