본문 바로가기
[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석

미니탭 교육 회귀 분석 개념에 대해 알아보자!!

by 몽상쟁이 2021. 12. 7.
반응형

회귀 분석이란?

 

하나 이상의 예측 변수와 반응 변수 사이의 통계적인 관계를 설명하고, 새 관측치를 예측하는 방정식을 생성합니다. 

선형 회귀 분석에서는 일반적으로 제곱 잔차 합을 최소화하여 방정식을 유도하는 범용 최소 제곱 추정방법을 사용합니다.

 

ex)

한 감자 칩 회사에서 배송 전에 용기당 부스러진 감자 칩의 백분율(반응변수)에 영향을 미치는  요인을 분석하려고 한다. 다른 성분 및 조리 온도(섭씨)에 상대적인 감자의 백분율을 예측 변수로 포함하는 회귀 분석을 수행하고자 한다. 

결과는 다음과 같다.

 

회귀 방정식 예시

회귀 분석 결과는 예측 변수 두 개가 모두 p-값이 낮기 때문에 유의함을 보여줍니다. 두 개의 예측 변수가 함께 부스러진 감자 칩 분산의 66.41%를 설명합니다. 다음과 같이 해석할 수 있습니다.
  • 조리 온도가 섭씨 1도씩 증가할 때마다 부스러진 감자 칩의 백분율이 0.022% 증가할 것으로 예측됩니다.
  • 감자 0.5(50%)와 조리 온도 175°C 설정의 경우 부스러진 감자 칩 백분율을 예측하려면 7.7%의 부스러진 감자 칩 기대값을 계산합니다: 4.251 - 0.909 * 0.5 + 0.2231 * 175 = 7.70075.
회귀 분석 결과에서는 예측 변수와 반응 사이의 관계에 대한 방향, 크기 및 통계적 유의성을 나타냅니다.
  • 상관 계수의 부호는 관계의 방향을 나타냅니다.
  • 상관 계수는 다른 예측 변수가 상수로 고정된 상태에서 예측 변수의 각 단위 변경에 대한 평균 반응 변경을 나타냅니다.
  • 각 상관 계수의 p-값은 상관 계수가 0(효과 없음)인 귀무 가설을 검정합니다. 따라서 낮은 p-값은 예측 변수가 모형에 유의한 추가임을 나타냅니다.
  • 방정식은 지정된 예측 변수 값이 주어진 새 관측치를 예측합니다.

참고

예측 변수가 하나인 모형은 단순 선형 회귀 분석이라고 합니다. 예측 변수가 두 개 이상인 모형은 다중 회귀 분석이라고 합니다.


단순 선형 회귀

단순 선형 회귀 분석에서는 두 개의 계량형 변수, 즉 하나의 반응 변수(y)와 하나의 예측 변수(x) 사이의 선형 관계를 조사합니다. 두 변수가 연관되어 있으면 단순 추측보다 높은 정확성으로 예측 변수로부터 반응 변수 값을 예측할 수 있습니다.

회귀 분석을 통해 데이터를 "가장 잘" 적합하는 선을 얻을 수 있습니다. 이 선을 사용하여 다음 작업을 수행할 수 있습니다.
  • 예측 변수의 변경에 따른 반응 변수의 변경 정도를 조사합니다.
  • 예측 변수(x)에 대한 반응 변수(y) 값을 예측합니다.

다중 선형 회귀 분석

다중 선형 회귀 분석에서는 하나의 계량형 반응 변수와 둘 이상의 예측 변수 사이의 선형 관계를 조사합니다.

예측 변수가 많으면 모든 예측 변수를 포함한 회귀 모형을 적합하기 전에 단계적 또는 최량 부분 집합 모형 선택 방법을 사용하여 반응 변수와 관련이 없는 예측 변수를 제거해야 합니다.


범용 최소제곱법의 정의

범용 최소제곱법에서 추정된 방정식은, 표본의 데이터 점과 방정식에 의해 예측된 값 사이의 거리 제곱합을 최소화하는 방정식을 결정함으로써 계산됩니다.

반응 대 예측 변수

반응 대 예측 변수

예측 변수가 하나일 때(단순 선형 회귀 분석) 각 점에서 선에 이르는 거리의 제곱합은 가능한 만큼 작아집니다.


범용 최소제곱법의 경우 충족되어야 하는 가정

범용 최소제곱법은 다음과 같은 가정들이 충족될 때 가장 정확하고 치우침이 없는 추정치를 제공합니다.
  • 회귀 모형이 계수에서 선형입니다. 최소제곱법이 (계수가 아니라) 변수를 변환하여 곡면성을 모형화할 수 있습니다. 곡면성을 모형화하려면 적절한 함수 형식을 지정해야 합니다.

2차 모형

2차 모형

여기서는 곡면성을 모형화하기 위해 예측 변수 X를 제곱합니다. Y = bo + b1X + b2X2

  • 잔차의 평균이 0입니다. 모형에 상수를 포함하면 평균이 0과 같아집니다.
  • 모든 예측 변수가 잔차와 상관되지는 않습니다.
  • 잔차가 서로 상관(계열 상관)되지 않습니다.
  • 잔차의 분산이 일정합니다.
  • 어떤 예측 변수도 다른 예측 변수와 완전히 상관되지 않습니다(r=1). 불완전하게 높은 상관(다중 공선성)도 피하는 것이 좋습니다.
  • 잔차가 정규 분포를 따릅니다.

이러한 가정을 모두 충족할 경우에만 범용 최소제곱법이 최적의 추정치를 제공하므로, 이 가정들을 검사하는 것이 아주 중요합니다. 일반적인 방법으로는 잔차 그림을 검사하고 적합성 결여 검정을 사용하며 분산 팽창 인수(VIF)를 사용하여 예측 변수 간의 상관 여부를 확인하는 것입니다.


다음 시간에는 회귀분석의 예시를 가져와서 같이 해보는 시간을 가져보기로 하겠습니다. 통계와 분석이라는 거 자체가 상당히 복잡하고 어렵기는 하지만, 한번 개념을 잘 잡아놓으면 상당히 업무하는데 도움이 많이 될 것이라고 생각합니다.

 

때문에, 필자 또한 꾸준히 공부를 하고 있고 이렇게 기록을 남기기 위해서 블로그에 글을 쓰고 있습니다. 많은 분들에게 도움이 되셨음 하는 바램이고 꾸준히 좋은 내용 올릴 수 있도록 하겠습니다. 

2021.12.01 - [[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석] - 미니탭 가속수명시험 예제 가속모형에 대해서 알아보자!!

2021.11.27 - [[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석] - 미니탭 예제 Weibull 데이터 구조 조사 분석 예제

2021.11.25 - [[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석] - 미니탭 예제 Weibull분포란? 형상모수에 대해 알아보자!!

2021.11.21 - [[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석] - 미니탭 '분포 개관 그림' 사용법!!!

2021.11.19 - [[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석] - 미니탭 교육 사용법 2표본 t-검정 이란?

2021.11.18 - [[몽상쟁이] DFSS 6 시그마/미니탭 활용 및 신뢰성분석] - 미니탭 t-검정 이란_(1표본 t-검정)?

반응형

댓글