본문 바로가기

Computer Science/[dev]cloud.linux.git.data

DW 란 무엇일까? (데이터웨어하우스)

728x90

개발자 입장에서 마케터들이 DW라 부르는 것을 서술한다.

개발자한테 걍 디비임.  거기에 확장하면 큐 붙이는거고 (큐가 레디스 -> 카프카 등  사이즈 커짐)

 

근데 마케터나 따른 사람들이 쿼리도 날릴 수 있고 분석도 용이하게 파이프라인을 구축하게 Date warehouse

ex) 구글 빅쿼리 붙이거나, AWS 레드시프트 붙이거나, 스노우플레이크 등 

 

데이터 엔지니어는 큐 써서 input - 전처리 - 디비 저장 - 분석  파이프라인 만들어줌 (ELK 스택 생각하면 빠름)

그리고 마케터나 다른 사람들 볼 수 있게 쿼리 Client 툴가지 같은 파이프라인에서 만들어주면 그게 Datawarehouse임

 

Data Lake 는 데이터 더 규모 큰거 -> 예전 같으면 하둡 규모 인데 지금은 걍 클라우드 쓰는 것 같음

데이터 웨어하우스나 데이터 레이크는 모두 비개발자의 추상적 용어이고

개발자 입장에서 걍 카프카 빅쿼리 쓰면서 데이터들이 input 부터 분석까지 잘 이어지면 규모 쫌 있는 데이터 파이프라인 구축된거고

 

데이터양이 페타바이트 단위로 계속 들어온다 그러면 걍 데이터 레이크라 할수있겠지

 

 

 

728x90