본문 바로가기

자격증

빅데이터분석기사 3회 실기 문제 복원 (기출) + 시험공부 팁

빅데이터분석기사 필기 합격 (출처 : 데이터자격검정시험)
빅데이터분석기사 실기 합격 (출처 : 데이터자격검정시험)

 

 

이전 시험인 2회 복원 문제를 연습하고 갔다.

이번 작업형 또한 비슷하게 나왔지만, 주관식문제는 좀 더 답하기 어려웠던 것 같다.

 

생각나는대로 복기한걸 정리해보자면,

(아래 나열 순서는 실제 기출 순서와는 다를 수 있음)

 

 

3회 빅분기 실기 기출문제

Q1.

1) 연관성분석에서 규칙이 우연에 의해 발생한 것인지 판단하기 위해 연관성의 정도를 측정하는 척도는?

답) 향상성

 

2) 최소최대정규화에서 고려하지 못하는 것 ?

답) 분산(?) 분포(?) 편차(?) 평균(?) 뭘까..

 

3) knn은 (   )을/를 계산 ...

답) 거리 

 

4) 군집화 연결법 문제 였다. 

키워드 : 중심 거리계산, 가중평균을 계산하여 새로운 중심을.. 

답) 중심연결법

cf) 최장연결법, 최단연결법, 평균연결법, 와드연결법

 

5) 0과 1 사이의 값을 가지는 것

답) 최소-최대 정규화

 

6) 일일 건수를 월별로 또는 분기별로 그룹화하는 방법은?

답) 그룹연산(??) 범주화(?)

 

7) 순서형 말고, 예를 들어 국가별 코드 값을 가진 이러한 특징을 가진 것을 (   )데이터 라고 한다.

답) 명목형

cf) 범주형 <- (명목형, 순서형)

    수치형 <- (이상형, 연속형)

 

8) 어떤 분석방법인가?

분석방법에 대한 설명 키워드 : 투표(보팅), 예측 결과를 결합하여 분석

답) 배깅(?) 앙상블(?)

 

9) 마지막 은닉층 두개(0.2, 0.3), 가중치 두개(0.3,-0.1), 바이어스bias(=상수항의 가중치) 0.1 들의 값은 이러하다. 마지막 출력에 입력되는 선형합값은?

선형합 : 0.2*0.3 + 0.3*(-0.1) +0.1

          0.06 -0.03 +0.1 = 0.13

답) 0.13 

 

10) 알고리즘 이름

설명 키워드 : 사상된 경계, 회귀 분류 다 되는 지도학습, 경계의 가장 큰 폭을 평가 지표로 하는 알고리즘 

답) SVM (서포트벡터머신) 

 

 

 

Q2.  제출 : print(result)

아래 답은 해답이 아닌 시험장에서 제가 제출한 답입니다;

1)  결측치를 포함하는 모든 행을 제거한 후,

    상위 70% 데이터에 대해서, 00컬럼의 1분위수 값은?  

사용 함수 : na.omit(데이터명)     

              q1 <- fivenum(변수명)[2]

답) 19

 

2) year변수와 국가들의 결핵 유병률 값을 가진 데이터셋이 주어졌음.

   ex) year  국가이름1  국가이름2  국가이름3 ....

      1990       356          20           27

      1991       400          25           30

      1992       350          30           40

       .......  

위 데이터셋에서 2000년 때의 데이터에 대해서, 국가 전체 유병률 평균 값보다 큰 값을 가진 국가 개수는?

답) 71 

 

3) 각 변수들의 결측치 비율 중 가장 큰 비율값을 가진 변수명은? 

답) AGE

 

 

Q3.  제출 : write.csv( RESULT ,  "수험번호.csv", row.names=F)

이전 기출과 문제 유형이 똑같았음.

Q) 종속변수 Y  (1:구매, 0:비구매  ) 에 대한 구매 예측 확률을 구하시오.

 

 

*주의*

임의의 숫자를 넣으면 안되고, 계속 변수명으로 계산해야됨.

제출 후에도 저장 버튼을 누르기. 

 

 

 

 

시험공부 팁

ㅇ 적당히 합격컷(60점) 정도의 목표에 맞는 공부량 전략세우기

주관식문제 반타작 맞으면  15점 받을 수 있고,

핸들링작업형문제  2/3 정도 맞으면   20점 받을 수 있고,

모델링작업형문제  정확도70% 정도로 모델링 해주면  받을 수 있는 25점을 목표로 해본다.

(다들 바쁘시잖아요.. 언제 100점 맞을 정도의 공부시간을 가지겠습니까..)

 

ㅇ 주관식 문제 대비

필기 합격하셨으면 무난히 반타작 이상은 하실거라 생각됩니다 :)

시험 전날 한번 쭉 "키워드" 중심으로 눈에 바르고 가시면 될 것 같습니다. 

 

ㅇ 작업형 문제 대비

1) 실기시험은 필사(손으로 적어가며 공부함)가 아닌 실제 시험장 클라우드환경에서 타자치며 손으로 익힌다. 

인터넷연결이 안되는건지 클라우드상 시각화가 안되며, 안되는 패키지도 많으니, 직접 시험장환경에서 타자치면서 안되는 패키지 코드는 걸러가며 하면됩니다.

저는 핸들링 패키지로 library(dplyr) 내 사용 함수들만 외워갔습니다.

 

2) 시험공부 교재는 빅데이터분석기사 교재가 시중에 많이 나와있지 않을뿐더러 적중률이 굉장히 낮다고 알고있습니다.. 하지만 실제 출제기관(데이터자격검정시험 주관기관)에서 시행중인 ADP도 빅데이터분석기사 출제 범위랑 굉장히 많이 비슷한데,  adp시험은 그래도 축적된 기출과 정갈한 교재가 많이 나와있습니다. 저는 데이터에듀에서 나온 adp실기 교재로 공부했는데, 만족도 너무너무 좋았습니다.. 문제 유형별로 코드랑 예제문제가 달려있는데, 예제문제 중에 빅분기2회 기출이랑 똑같은 문제가 있어서 보면서도 신뢰가 많이 가던 책이었습니다.. (광고 아닙니다. 제돈제산입니다ㅠ)

 

3)  마지막 모델링 작업형문제는, 시험 채점상, 군집분석 같은건 힘들거라 예상 됩니다. 분류 아니면 회귀일 것 같고, 자기가 가장 자신있는 언어(R, 파이썬) 중에, 예측분류랑 예측확률이 산출가능하며 회귀도 가능한 모델링이면서, 가장 코드가 짧은 알고리즘 하나 외워가시면 될 듯 싶습니다. 저는 정확도 상관없이 제일 코드 짧은 의사결정나무 하나 외워갔습니다. 공부하면서 같은 test데이터가지고 알고리즘별로 roc 계산해보니 거기서 거기더군요..

관련 패키지로 library(rpart) 와 library(caret), library(pROC)정도만 외워갔습니다.

 

 

시험 중에 메모장 사용은 가능하다고하니, 시험 시작하면 메모장에 외웠던 함수들 다다다 써놓고 시작하시면 마음 편히 보실 수 있습니다.