PART1 데이터 모델링의 이해 / Chapter2 데이터 모델과 SQL

자격증 & 언어/SQLD

PART1 데이터 모델링의 이해 / Chapter2 데이터 모델과 SQL

코린이살려 2022. 8. 24. 14:32

정규화(Nomalization)

데이터 정합성(데이터의 정확성과 일관성을 유지하고 보장)을 위해 엔터티를 작은 단위로 분리하는 과정이다.
정규화를 할 경우 데이터 조회성능은 처리조건에 따라 향상되는 경우도 있고 저하되는 경우도 있다.
일반적으로 입력, 수정, 삭제 성능은 향상된다.

제1 정규형
- 모든 속성은 반드시 하나의 값만 가져야 한다. (Table 1)
- 유사한 속성이 반복되는 경우도 1차 정규화 대상이 된다.(Table2)
- 하나의 속성이 다중값을 가지는 경우 데이터를 꺼내 쓸 때 불필요한 Split을 사용해야 하는 번거로움이 발생한다.
- 한 엔터티 내 유사한 속성이 반복되는 경우는 데이터가 늘어날 때 공간낭비가 발생할 여지가 있다.

Table 1

이름	생년월일	직업
이지은	1993.05.16	배우, 가수, 작곡가

↓

이름	생년월일
이지은	1993.05.16

이름	직업
이지은	배우
이지은	가수
이지은	작곡가

Table 2

이름	생년월일	사이트1	사이트2
이지은	1993.05.16	인스타그램	페이스북
김향기	2000.08.09	인스타그램	싸이월드

↓

이름	생년월일
이지은	1993.05.16
김향기	2000.08.09

이름	사이트
이지은	인스타그램
이지은	페이스북
김향기	인스타그램
김향기	싸이월드

제2 정규형
- 엔터티의 모든 일반속성은 반드시 모든 주식별자에 종속되어야 한다.(Tabel 3)

Tabel 3.

주문번호	음료코드	주문수량	음료명
1234567890	A123	2	아메리카노
1234567891	A124	3	라떼
1234567892	A125	1	카푸치노

↓

주문번호	음료코드	주문수량
1234567890	A123	2
1234567891	A124	3
1234567892	A125	1

음료코드	음료명
A123	아메리카노
A124	라떼
A125	카푸치노

제3 정규형
- 주식별자가 아닌 모든 속성 간에는 서로 종속될 수 없다.
- 일반속성이 다른 일반속성에 종속된 경우에 제3 정규형을 적용한다. (Table 4)

Table 4

일렬번호	이름	생년월일	소속사코드	소속사명
1	이지은	1993.05.16	A1001	EDAM엔터테인먼트
2	김향기	2000.08.09	B1004	지킴엔터테인먼트

↓

일렬번호	이름	생년월일	소속사코드
1	이지은	1993.05.16	A1001
2	김향기	2000.08.09	B1004

소속사코드	소속사명
A1001	EDAM엔터테인먼트
B1004	지킴엔터테인먼트

주의사항

과유불급, 지나친 정규화는 오히려 성능 저하를 일으킬 수 있다.
정보를 얻기 위해 여러 번의 JOIN이 불가피한 경우 반정규화를 통해 성능을 개선하여야 한다.

반정규화(De-Nomalization)

데이터 조회 성능을 향상시키기 위해 데이터의 중복을 허용하거나 데이터를 그룹핑하는 과정이다.
조회 성능은 향상될 수 있으나 입력, 수정, 삭제 성능은 저하될 수 있으며 데이터 정합성 이슈가 발생할 수 있다.
반정규화 과정은 정규화가 끝난 후 거치게 되며 정규화와 마찬가지로 일정한 룰이 존재한다.

테이블 반정규화

테이블 병합	1:1 관계 테이블 병합
	1:M 관계 테이블 병합
	슈퍼 서브 타입 테이블 병합
테이블 분할	테이블 수직 분할(속성 분할)
테이블 분할	테이블 수평 분할(인스턴스 분할, 파티셔닝)
테이블 추가	중복테이블 추가
	통계테이블 추가
	이력테이블 추가
	부분테이블 추가

테이블 병합
- 업무 프로세스상 JOIN이 필요한 경우가 많아 테이블을 통합하는 것이 성능 측면에서 유리할 경우 고려한다.
- 1:M 관계 테이블 병합의 경우 1쪽에 해당하는 엔터티의 속성 개수가 많으면 병합했을 경우 중복 데이터가 많아지므로 테이블 병합에 적절하지 못하다.
테이블 분할
- 테이블 수직 분할 : 엔터티의 일부 속성을 별도의 엔터티로 분할 (1:1 관계 성립)
- 테이블 수평 분할: 엔터티의 인스턴스를 특정 기준으로 별도의 엔터티로 분할(파티셔닝)
  - 파티션 기능을 사용하여 데이터를 물리적으로 분리 → 관계가 없는 다수의 테이블이 생성된다.
테이블 추가
- 중복 테이블 추가: 데이터의 중복을 감안하더라도 성능상 반드시 필요하다고 판단되는 경우 별도의 엔터티를 추가한다.
  - 단순히 같은 데이터를 여러 테이블에 저장하는 것을 데이터 정합성에 위배되는 상황을 발생시킬 수 있다.
- 통계 테이블 추가
  - Ex. 월매출 통계치를 미리 계산하여 저장
- 이력 테이블 추가
  - Ex. 과거의 상품가격에 대한 데이터를 관리
- 부분 테이블 추가
  - Ex. 회원 대상 메일 발송건이 다량으로 생기는 경우 메일 발송에 필요한 정보만 부분 테이블로 생성

칼럼 반정규화

중복 컬럼 추가
- 업부 프로세스상 JOIN이 필요한 경우가 많아 컬럼을 추가하는 것이 성능 측면에서 유리할 경우 고려한다.
파생 컬럼 추가
- 프로세스 수행 시 부하가 염려되는 계산값을 미리 컬럼으로 추가하여 보관하는 방식으로 상품의 재고나 프로모션 적용 할인가 등이 이에 해당할 수 있다.
이력 테이블 컬럼 추가
- 대량의 이력 테이블을 조회할 때 속도가 느려질 것을 대비하여 조회 기준이 될 것으로 판단되는 컬럼을 미리 추가해 놓는 방식이다. 최신 데이터 여부 등이 이에 해당할 수 있다.

관계 반정규화(중복관계 추가)

업무 프로세스상 JOIN이 필요한 경우가 많아 중복 관계를 추가하는 것이 성능 측면에서 유리할 경우 고려한다.

트랜잭션(Transaction)

데이터를 조작하기 위한 하나의 논리적인 작업 단위이다.

NULL이란?

NULL은 존재하지 않음, 즉 값이 없음을 의미한다.
NULL ≠ 0, 데이터가 입력되지 않은 것이다.
SQL NULL 처리 방식 (Table 5)
- SELECT 수입 - 지출 FROM Table 5
  - 가로 연산: NULL이 포함되어 있으면 결과 값은 NULL이 된다. → NULL
- SELECT SUM(수입) FROM Table 5
  - 세로 연산: 다른 인스턴스의 데이터와 연산할 때는 NULL 값을 제외한다. → 0

Table 5.

이름	수입	지출
강산	0	10
지원	NULL	20

※ 추가 정보 (문제 풀이 중 나온 개념 정리)

성능 데이터 모델링의 순서

데이터 모델이 맞게 정규화를 수행한다
데이터베이스의 용량 및 트랜잭션 유형을 파악하여 성능 저하를 일으키는 부분이 없는지 검토한다.
용량과 트랜잭션 유형에 맞게 반정규화를 수행한다.
성능 향상을 위한 이력모델의 조정, PK/FK 조정, 슈퍼/서브타입 조정 등을 수행한다.
데이터 모델의 성능을 검증한다.

트랜잭션

트랜잭션은 데이터를 조작하기 위한 논리적인 작업 단위로, 데이터 모델로 표현할 수 이쓰며 데이터는 트랜잭션 범위로 묶일 수 있다.
트랜잭션은 하나의 커밋 단위로 묶여야 한다.

NULL

㉮ WHERE COL IS NULL 조건과 ㉯ WHERE COL = NULL 조건은 다르다.
㉮ 조건은 값이 NULL인 행을 반환한다.
㉯ 조건의 결과는 항상 False이므로 아무 행도 반환하지 않는다.

집계함수

COL1	COL2
10	NULL
NULL	15
30	25

SELECT COUNT(COL1)*10 FROM TABLE;
- NULL을 제외하고 계산되어 2*10 = 20
SELECT SUM(COL1+COL2)/4 FROM TABLE;
- NULL과 사칙연산 결과는 제외되어 55/4 = 13.75
SELECT SUM(COL2)/2 FROM TABLE;
- NULL을 제외하고 계산되어 40/2 = 20
SELECT AVG(COL1) FROM TABLE;
- NULL을 제외하고 계산되어 40/2 = 20

정규화

1차 정규화
- 원자값이 아닌 도메인을 분해한다.
2차 정규화
- 부분 함수 종속성을 제거한다.
3차 정규화
- 이행 함수 종속성을 제거한다.
4차 정규화
- 다중값 종속성을 제거한다.

이력 테이블 추가

이력 테이블 컬럼 추가는 대량의 이력 테이블을 조회할 때 속도가 느려질 것을 대비하여 조회 기준이 될 것으로 판단되는 컬럼을 미리 추가해 놓는 방식이다.
Ex. 최신 가격 여부 컬럼 추가 등

슈퍼-서브 타입

공통 속성을 조회하는 빈도수가 개별 속성을 조회하는 빈도수보다 높을 경우 공통 속성과 개별속성을 별도로 관리하는 슈퍼-서브 타입의 설계가 적절하다.

중복 관계 추가

반정규화 기법 중 하나로 데이터 무결성을 깨뜨릴 위험성이 없어 데이터 처리 성능을 향상시킬 수 있는 기법이다.
테이블 반정규화는 데이터의 무결성을 깨트릴 위험성을 가지고 있다.