1. 데이터베이스의 필요성

 

데이터, data

현실 세계에서 단순히 관찰하거나 측정하여 수집한 사실(fact)이나 값(value)

 

정보, information

의사 결정에 유용하게 활용할 수 있도록 데이터를 처리한 결과물

 

정보 처리, information processing

데이터에서 정보를 추출하는 과정 또는 방법

 

지식 피라미드, DIKW 체계

 

 

 

정보 시스템, information system

조직 운영에 필요한 데이터를 수집하여 저장해두었다가 필요할 때 유용한 정보를 만들어 주는 수단

 

데이터베이스, database

정보 시스템 안에서 데이터를 저장하고 있다가 필요할 때 제공하는 역할을 담당

 

정보 시스템의 역할과 구성

 

 

 

 

2. 데이터베이스의 정의와 특징

 

데이터베이스의 정의

특정 조직의 여러 사용자가 공유하여 사용할 수 있도록 통합해서 저장운영 데이터의 집합

 

 

 

통합 데이터, integrated data

중복을 최소화하고 통제 가능한 중복만 허용하는 데이터

 

공유 데이터, shared data

특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있는 공용 데이터

 

저장 데이터, stored data

컴퓨터가 접근할 수 있는 매체에 저장된 데이터

 

운영 데이터, operational data

조직의 주요 기능을 수행하기 위해 지속적으로 유지해야 하는 데이터

 

 

 

데이터베이스의 특징

 

 

 

실시간 접근성, real-time accessibility

사용자의 데이터 요구에 실시간으로 응답

 

내용 기반 참조, contents reference

데이터가 저장된 주소나 위치가 아닌 데이터의 내용(content), 값(value)으로 참조

 

계속 변화, continuous evolution

데이터의 계속적인 삽입, 삭제, 수정을 통해 현재의 정확한 데이터를 유지

 

동시 공유, concurrent sharing

여러 사용자의 서로 다른 데이터의 동시 사용뿐만 아니라 같은 데이터의 동시 사용도 지원

 

 

 

 

3. 데이터 과학 시대의 데이터

 

형태에 따른 데이터 분류

 

 

 

정형 데이터, structured data

미리 정해진 데이터의 구조(스키마)에 따라 저장된 데이터

 

반정형 데이터, semi-structured data

구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재

구조를 파악하는 파싱(parsing) 과정이 필요

 

비정형 데이터, unstructured data

정해진 구조가 없이 저장된 데이터

 

 

 

특성에 따른 데이터 분류

 

 

 

명목형 데이터, nominal data

서열이 없는 값을 가지는 데이터

 

순서형 데이터, ordinal data

서열이 있는 값을 가지는 데이터

 

이산형 데이터, discrete data

단절된 숫자 값을 가지는 데이터

 

연속형 데이터, continuous data

연속적으로 이어진 숫자 값을 가지는 데이터

 

 

 

 

'CS > Database' 카테고리의 다른 글

[데이터베이스 개론] 데이터베이스 관리 시스템  (0) 2022.05.30

 

그리디 알고리즘

     그리디 알고리즘(탐욕법)은 현재 상황에서 지금 당장 좋은 것만 고르는 방법을 의미

  –   일반적인 그리디 알고리즘은 문제를 풀기 위한 최소한의 아이디어를 떠올릴 수 있는 능력을 요구

  –   그리디 해법은 그 정당성 분석이 중요

       →  단순히 가장 좋아 보이는 것을 반복적으로 선택해도 최적의 해를 구할 수 있는지 검토

 

 

 

다음 그래프에서 루트 노드부터 시작하여 거쳐 가는 노드의 합을 최대로 만들고자 한다면

최적의 해는 그림에서와 같이 5 + 7 + 9 = 21 이 된다.

 

 

 

이때 그리디 알고리즘을 적용하면 매 상황에서 가장 큰 값을 선택하게 되어

그림에서와 같이 5 + 10 + 4 = 19로 최적의 해보다 작은 값을 얻게 된다.

 

 

 

  • 일반적인 상황에서 그리디 알고리즘은 최적의 해를 보장할 수 없을 때가 많음
  • 하지만 코딩 테스트에서의 대부분의 그리디 문제는 탐욕법으로 얻은 해가 최적의 해가 되는 상황에서, 이를 추론할 수 있어야 풀리도록 출제됨

 

 


 

<문제> 거스름 돈

​당신은 음식점의 계산을 도와주는 점원입니다. 카운터에는 거스름돈으로 사용할 500원, 100원, 50원, 10원짜리 동전이 무한히 존재한다고 가정합니다. 손님에게 거슬러 주어야 할 돈이 N원일 때 거슬러 주어야 할 동전의 최소 개수를 구하세요. 단, 거슬러 줘야 할 돈 N은 항상 10의 배수입니다.

 

문제 해결 아이디어 

  –   최적의 해를 빠르게 구하기 위해서는 가장 큰 화폐 단위부터 돈을 거슬러 준다.

  –   N원을 거슬러 줘야 할 때, 가장 먼저 500원으로 거슬러 줄 수 있을 만큼 거슬러 준다.

  –   이후에 100원, 50원, 10원짜리 동전을 차례대로 거슬러 줄 수 있을 만큼 거슬러 준다.

 

 

정당성 분석

Q. 가장 큰 화폐 단위부터 돈을 거슬러 주는 것이 최적의 해를 보장하는 이유는?

A. 가지고 있는 동전 중에서 큰 단위가 항상 작은 단위의 배수이므로 작은 단위의 동전들을 종합해서 다른 해가 나올 수 없기 때문이다.

 

Q. 만약에 800원을 거슬러 주어야 하는데 화폐 단위가 500, 400원, 100원이라면 어떻게 될까?

A. 그리디 알고리즘으로는 최적의 해를 보장하지 못한다. 

 

→  그리디 알고리즘 문제에서는 이처럼 문제 풀이를 위한 최소한의 아이디어를 떠올리고 이것이 정당한지 검토할 수 있어야 함

 

 

시간 복잡도 분석

  –   화폐의 종류가 K라고 할 때, 소스코드의 시간 복잡도는 O(K).

  –   이 알고리즘의 시간 복잡도는 거슬러줘야 하는 금액과는 무관하며, 동전의 총 종류에만 영향을 받는다.

 

 


 

<문제> 1이 될 때까지

어떠한 수 N1이 될 때까지 다음의 두 과정 중 하나를 반복적으로 선택하여 수행하려고 한다. , 두번째 연상은 NK로 나누어 떨어질 때만 선택할 수 있다.

    A.  N에서 1을 뺀다.

    B.  NK로 나눈다.

 

예를 들어 N17, K4라고 가정하자. 이때 A를 한 번 수행하면 N16이 된다. 이후에 B를 두 번 수행하면 N1이 된다. 결과적으로 이 경우 전체 과정을 실행한 횟수는 3이 된다. 이는 N1로 만드는 최소 횟수다.

NK가 주어질 때 N1이 될 때까지 A 혹은 B의 과정을 수행해야 하는 최소 횟수를 구하는 프로그램을 작성하라.

 

문제 해결 아이디어 

  –   주어진 N에 대하여 최대한 많이 나누기를 수행하면 된다.

  –   N의 값을 줄일 때, 2 이상의 수로 나누는 작업이 1을 빼는 작업보다 수를 훨씬 많이 줄인다.

 

 

정당성 분석

Q. 가능하면 최대한 많이 나누는 작업이 최적의 해를 항상 보장할 수 있을까?

A. N이 아무리 큰 수여도 K로 계속 나눈다면 기하급수적으로 빠르게 줄일 수 있다.

A. 다시 말해 K2 이상이기만 하면, K로 나누는 것이 1을 빼는 것보다 항상 빠르게 N을 줄일 수 있다.

 

 


 

<문제> 곱하기 혹은 더하기

각 자리가 숫자(0부터 9)로만 이루어진 문자열 S가 주어졌을 때, 왼쪽부터 오른쪽으로 하나씩 모든 숫자를 확인하면 숫자 사이에 ‘x’ 혹은 ‘+’ 연산자를 넣어 결과적으로 만들어질 수 있는 가장 큰 수를 구하는 프로그램을 작성하라. , +보다 x를 먼저 계산하는 일반적인 방식과는 달리, 모든 연산은 왼쪽에서부터 순서대로 이루어진다고 가정한다.

예를 들어 02984라는 문자열로 만들 수 있는 가장 큰 수는 ((((0+2)x9)x8)x4) = 576이다. 또한 만들어질 수 있는 가장 큰 수는 항상 20억 이하의 정수가 되도록 입력이 주어진다.

 

 

문제 해결 아이디어 

  –   대부분의 경우 ‘+’보다는 ‘x’가 더 값을 크게 만든다.

  –   다만 두 수 중에서 하나라도 ‘0’ 혹은 ‘1’인 경우, 곱하기보다는 더하기를 수행하는 것이 효율적이다.

  –   따라서 두 수에 대하여 연산을 수행할 때, 두 수 중에서 하나라도 1이하인 경우에는 더하며, 두 수가 모두 2이상인 경우에는 곱하면 정답이다.

 

 


 

<문제> 모험가 길드

한 마을에 모험가가 N명 있다. 모험가 길드에서는 N명의 모험가를 대상으로 공포도를 측정했는데, ‘공포도가 높은 모험가는 쉽게 공포를 느껴 위험 상황에서 제대로 대처할 능력이 떨어진다.

모험가 길드장인 동빈이는 모험가 그룹을 안전하게 구성하고자 공포도가 X인 모험가는 반드시 X명 이상으로 구성한 모험가 그룹에 참여해야 여행을 떠날 수 있도록 규정했다. 동빈이는 최대 몇 개의 모험가 그룹을 만들 수 있는지 궁금하다. N명의 모험가에 대한 정보가 주어졌을 때, 여행을 떠날 수 있는 그룹 수의 최댓값을 구하는 프로그램을 작성하라.

 

예를 들어 N=5이고, 각 모험가의 공포도가 2 3 1 2 2 와 같다고 가정하자.

이 경우 그룹 1에 공포도가 1, 2, 3인 모험가를 한 명씩 넣고, 그룹 2에 공포도가 2인 남은 두 명을 넣게 되면 총 2개의 그룹을 만들 수 있다. 또한 몇 명의 모험가는 마을에 그대로 남아 있어도 되기 때문에, 모든 모험가를 특정한 그룹에 넣을 필요는 없다.

 

 

문제 해결 아이디어 

 

  –   오름차순 정렬 이후에 공포도가 낮은 모험가부터 하나씩 확인한다.

 

 

  –   앞에서부터 공포도를 하나씩 확인하며 '현재 그룹에 포함된 모험가의 수'가 '현재 확인하고 있는 공포도'보다 크거나 같다면 이를 그룹으로 설정하면 된다.

  –   이러한 방법을 이용하면 공포도가 오름차순으로 정렬되어 있다는 점에서, 항상 최소한의 모험가의 수만 포함하여 그룹을 결성하게 된다.

 

 

 

 

↓ 참고 사이트

https://www.youtube.com/watch?v=2zjoKjt97vQ 

 

 

 

검색 (=탐색)

데이터 집합에서 원하는 값을 가진 요소를 찾아내는 작업

 

 

검색 기법

1. 배열 검색

2를 검색

 

2. 선형 리스트 검색

53을 검색

 

3. 이진검색트리 검색

4를 검색

 

 

 

배열 검색에서 사용되는 알고리즘

1. 선형 검색, Linear Search (=순차 검색, Sequential Search)

  -  무작위로 늘어놓은 데이터 모임에서 검색을 수행

function linearSearch(arr, key){
    for(let i = 0; i < arr.length; i++){
        if(arr[i] === key){
            return i; //검색 성공
        }
    }
    return -1; //검색 실패
}

 

※ 보초법

기존의 선형 검색에서는 반복문의 종료 조건이 2가지다.

    1. 검색할 값을 발견하지 못하고 배열의 끝에 도달한 경우

    2. 검색할 값과 같은 요소를 발견한 경우

 

반복될 때마다 종료 조건을 검사하는 비용을 반으로 줄이기 위해 사용할 수 있는 방법이 보초법이다. 

 

2를 검색 (검색 성공)
5를 검색 (검색 실패)

위 그림에서와 같이 보초법은 검색하고자 하는 key값을 원래 데이터 배열 끝에 추가한다. 

이때 저장하는 값을 보초(sentinel)라고 부른다.

이렇게 하면 원래의 데이터에 찾고자 하는 값이 없더라도 결국 보초로 인해 종료 조건 2를 만족하기 때문에

원하는 값을 찾지 못했을 때를 판단하는 종료 조건 1은 없어도 된다. 

 

function linearSearch(arr, key){
	var i = 0;
    var n = arr.length;
    arr.push(key); // 보초 추가
    
    while(true) {
        if(arr[i] === key){
            break; //검색 성공
        }
        i++;
    }
    return i === n ? -1 : i; // 찾은 값이 보초인지 원래 데이터인지 판단
}

 

 

 

2. 이진 검색, Binary Search

  -  일정한 규칙으로 늘어놓은 데이터 모임에서 아주 빠른 검색을 수행

  -  데이터가 오름차순 혹은 내림차순으로 정렬(sort)되어 있는 것이 전제 조건

 

이진 검색 예시 (39를 검색) - 검색 성공

 

    1) arr[pc] < key일 때

       데이터가 이미 오름차순으로 정렬되어 있기 때문에

       arr[pl] ~ arr[pc]는 key보다 작은 것이 분명하므로 검색 대상에서 제외

       pl = pc + 1로 값을 변경해 검색 범위를 좁힘

 

    2) arr[pc] > key일 때

       arr[pc] ~ arr[pr]은 key보다 큰 것이 분명하므로 검색 대상에서 제외

       pr = pc - 1로 값을 변경해 검색 범위를 좁힘

 

 

이진 검색 알고리즘의 종료 조건

    1. arr[pc]와 key가 일치하는 경우, arr[pc] === key

    2. 검색 범위가 더 이상 없는 경우, pl > pr

 

이진 검색 예시 (6을 검색) - 검색 실패

 

이진 검색은 검색을 반복할 때마다 검색 범위가 절반이 되므로 검색에 필요한 비교 횟수의 평균값은 log n 이다.

검색에 실패한 경우는 ⌈log (n+1)⌉ 회, 검색에 성공한 경우는 대략 log n - 1 회다.

※ 천장(올림) 메서드: ⌈x⌉는 x보다 크거나 같으면서 가장 작은 정수

 

 

  • 반복문을 사용하여 작성한 코드
function binarySearch(arr, key){
    var pl = 0;				// 검색 범위 첫 인덱스
    var pr = arr.length - 1;		// 검색 범위 끝 인덱스
 	
    do {
    	var pc = (pl + pr) / 2;	// 중앙 요소의 인덱스
        
        if (arr[pc] === key) 
        	return pc;		// 검색 성공
        else if (arr[pc] < key)
        	pl = pc + 1;		// 검색 범위를 우측 절반으로 줄임
        else 
        	pr = pc - 1;		// 검색 범위를 좌측 절반으로 줄임
    } while (pl <= pr);
    
    return -1;				// 검색 실패
}

 

  • 재귀호출을 사용하여 작성한 코드 
function binarySearch(arr, key, pl, pr){
    if (pl > pr) return -1;
    var pc = Math.ceil((pl + pr) / 2);
    
    if (arr[pc] === key) 
    	return pc;
    else if (arr[pc] > key)
    	pl = pc + 1;
    else 
    	pr = pc - 1;
        
    return binarySearch(arr, key, pl, pr);
}

 

 

 

3. 해시법

  -  추가, 삭제가 자주 일어나는 데이터 모임에서 아주 빠른 검색을 수행합니다. 

  -  체인법: 같은 해시 값의 데이터를 선형 리스트로 연결하는 방법

  -  오픈 주소법: 데이터를 위한 해시 값이 충돌할 때 재해시하는 방법

 

 

 

 

복잡도 (Complexity)

알고리즘의 성능을 객관적으로 평가하는 기준

    1. 시간 복잡도(Time Complexity) : 실행에 필요한 시간을 평가한 것

    2. 공간 복잡도(Space Complexity) : 기억 영역과 파일 공간이 얼마나 필요한가를 평가한 것

 

 

선형 검색의 시간 복잡도

function linearSearch(arr, key){
    var i = 0; 				// 1회 - O(1)
    
    while(i < arr.length){		// n/2회 - O(n)
        if(arr[i] === key)		// n/2회 - O(n)
            return i; 			// 1회 - O(1)
        i++;					// n/2회 - O(n)
    }
    return -1; 				// 1회 - O(1)
}

 

※ 복잡도를 표기할 때 사용하는 O는 Order에서 따온 것으로, O(n)은 'O - n', 'Order n', 'n의 Order'라고 읽는다.

  • O(n): n에 비례하는 횟수만큼 실행하는 경우의 복잡도
  • O(1): n과 무관한 상수 횟수만큼 실행한는 경우의 복잡도
  • 전체 복잡도는 차원이 가장 높은 복잡도를 선택
  • 따라서 선형 검색 알고리즘의 복잡도는 O(n)

 

 

이진 검색의 시간 복잡도

function binarySearch(arr, key){
    var pl = 0;				// O(1)
    var pr = arr.length - 1;		// O(1)
 	
    do {
    	var pc = (pl + pr) / 2;	// O(log n)
        
        if (arr[pc] === key) 		// O(log n)
        	return pc;		// O(1)
        else if (arr[pc] < key)	// O(log n)
        	pl = pc + 1;		// O(log n)
        else 
        	pr = pc - 1;		// O(log n)
    } while (pl <= pr);		// O(log n)
    
    return -1;				// O(1)
}

 

  • 이진 검색 알고리즘의 복잡도는 O(log n)

 

 

복잡도의 대소관계

 

 

 

+ Recent posts