티스토리 뷰

용어정의

빅데이터와 관련한 용어정의

제이스트림 2024. 9. 14. 17:14
728x90
반응형
SMALL

이번 포스팅에서는 빅데이터와 관련된 주요 용어들을 정리해보겠습니다.

 

1. 빅데이터(Big Data) : 방대한 양의 데이터를 의미하며, 전통적인 데이터 처리 방식으로는 관리하거나 분석하기 어려운 데이터를 포함합니다. 빅데이터는 주로 3V로 정의됩니다.

  • Volume(양): 방대한 데이터의 크기.
  • Velocity(속도): 데이터가 생성되고 처리되는 빠른 속도.
  • Variety(다양성): 구조화된 데이터, 비구조화된 데이터 등 다양한 형식의 데이터.

2. 구조화된 데이터(Structured Data) : 행과 열로 구성된 정형 데이터로, 주로 관계형 데이터베이스에서 사용됩니다. 예를 들어, 스프레드시트나 SQL 데이터베이스에서 쉽게 관리되고 처리되는 데이터 형식입니다.

 

3. 비구조화된 데이터(Unstructured Data) : 텍스트 파일, 이미지, 동영상, 소셜 미디어 포스트 등 일정한 형식이 없는 데이터를 의미합니다. 비구조화된 데이터는 분석이 어려워, 빅데이터 처리 기술을 통해 패턴을 찾고 유용한 정보를 추출해야 합니다.

 

4. 반구조화된 데이터(Semi-Structured Data) : 완전히 구조화되지는 않았지만, 어느 정도의 조직화된 형태를 가지고 있는 데이터입니다. XML, JSON과 같은 형식이 이에 해당되며, 데이터의 일부는 구조화되어 있지만 나머지는 자유로운 형식입니다.

 

5. 데이터 마이닝(Data Mining) : 대규모 데이터셋에서 유의미한 패턴이나 관계를 추출하는 과정을 말합니다. 데이터 마이닝은 기계 학습, 통계적 기법 등을 활용해 데이터에서 숨겨진 정보를 찾아냅니다. 예시)  고객 행동 분석, 사기 탐지, 추천 시스템.

 

6. 데이터 분석(Data Analytics) : 데이터를 분석하여 유의미한 인사이트와 정보를 도출하는 과정입니다. 데이터 분석은 통계적 분석, 예측 모델링, 시각화를 통해 데이터를 해석하고 의사결정을 지원합니다.

 

7. 인공지능(AI) 및 머신러닝(Machine Learning) : 인공지능(AI)은 기계가 인간처럼 학습하고 추론하는 능력을 가지는 기술이며, 머신러닝(ML)은 데이터를 기반으로 패턴을 학습하고 예측하는 AI의 하위 분야입니다. 머신러닝 알고리즘은 빅데이터에서 학습하여 자동화된 의사결정을 내릴 수 있습니다.

 

8. 데이터 레이크(Data Lake) : 구조화된 데이터, 비구조화된 데이터 등 다양한 유형의 데이터를 원시 상태로 저장하는 대규모 데이터 저장소입니다. 데이터 레이크는 데이터를 변환하거나 분석하기 전에 저장하여, 다양한 분석 목적에 사용할 수 있습니다.

 

9. 데이터 웨어하우스(Data Warehouse) : 여러 출처에서 수집된 데이터를 통합하여, 분석 및 보고 목적으로 조직화된 데이터 저장소입니다. 데이터 웨어하우스는 구조화된 데이터를 주로 저장하며, 분석이 용이하도록 최적화되어 있습니다.

 

10. 실시간 데이터 처리(Real-time Data Processing) : 이터가 생성됨과 동시에 즉시 처리하는 방법으로, 빠른 의사결정이 필요한 상황에서 사용됩니다. 예를 들어, 금융 거래 모니터링이나 실시간 교통 데이터 분석에 활용됩니다.

 

11. 배치 처리(Batch Processing) : 대량의 데이터를 일정한 시간 간격으로 모아서 처리하는 방법입니다. 데이터가 한꺼번에 처리되므로 실시간 처리가 필요하지 않은 경우에 적합합니다.

 

12. 분산 컴퓨팅(Distributed Computing) : 빅데이터 분석을 위해 여러 대의 컴퓨터가 협력하여 작업을 분담하는 컴퓨팅 방식입니다. 대표적으로 Hadoop과 같은 기술이 사용되며, 대규모 데이터를 효율적으로 처리할 수 있게 합니다.

 

13. 하둡(Hadoop) : 오픈소스 분산 컴퓨팅 프레임워크로, 빅데이터를 저장하고 분석하는 데 사용됩니다. 하둡은 여러 대의 컴퓨터에 데이터를 분산 저장하고 처리하는 방식으로, 대규모 데이터셋을 효율적으로 처리할 수 있습니다.

 

14. NoSQL 데이터베이스 : 관계형 데이터베이스와는 달리 비정형 데이터 또는 구조화되지 않은 데이터를 효율적으로 처리할 수 있는 데이터베이스입니다. MongoDB, Cassandra 등이 대표적인 NoSQL 데이터베이스입니다.

 

15. 클라우드 컴퓨팅(Cloud Computing) : 데이터를 저장하고 처리하는 컴퓨팅 자원을 인터넷을 통해 제공하는 서비스입니다. 빅데이터는 클라우드 환경에서 저장, 관리 및 분석될 수 있으며, 데이터 분석에 필요한 유연성과 확장성을 제공합니다.

 

 

728x90
반응형
LIST

'용어정의' 카테고리의 다른 글

양자컴퓨팅 관련 용어정의  (55) 2024.09.14
주식 관련 용어정의  (29) 2024.09.14
클라우드 컴퓨팅 관련 용어정의  (11) 2024.09.14
부동산 경매 관련 용어정의  (11) 2024.09.14
부동산 관련 용어정의  (10) 2024.09.14
공지사항
최근에 올라온 글
최근에 달린 댓글
글 보관함