[강의 후기] Apache Spark와 Python으로 빅데이터 다루기


개발 글쓰기 모임 글또를 통해서 Udemy 강의를 들을 수 있는 기회가 있었습니다. 데이터엔지니어링 직무에서 필요한 역량으로 Spark 기초부터 간단한 활용 예제를 다루는 강의를 들어보고 싶어서 [Apache Spark와 Python으로 빅데이터 다루기] 를 수강했습니다. 

 

강의 구성

개념 설명

Spark 특징, RDD, transformation, action 연산, partitioning 등 현업에서 Spark을 사용하면서 매번 만날 수 밖에 없는 구성들과 해당 개념이 등장하게 되는 배경이나 필요성과 그 특징에 대해서 다룹니다. 

 

실습

배운 내용을 연습해볼 수 있는 구성이라는 점이 이 강의에서 가장 큰 장점이었습니다. 예시 코드에 대한 스크립트가 제공되고 실습 강의에서는 자료로 제공한 코드에 대해서 진짜 한줄 한줄 설명을 들을 수 있습니다. 강의에서 소개한 기능을 더 잘 이해할 수 있도록 실습 강의가 더 많아서 다양한 주제 예시를 볼 수 있었습니다. 

그리고 온라인 강의 플랫폼에서 당연한 부분이지만...플랫폼과 강의 자료적 장점으로는 예시 코드 다운로드가 기본적으로 제공되어서 참고하기 편해서 화면의 코드를 따라치기 급급하거나 기술 서적으로 실습 코드 연습할때 해당 출판사나 저자의 사이트 링크를 찾아서 코드를 찾아보지 않아도 되는 점도 좋았습니다. 더 바라는 점은 실습환경까지 제공된다면 더 편하겠지만...실습환경 세팅도 강의 개요에서 필요한 의존성(python, jdk..) 단계별로 설정하는 것까지 강의로 함께합니다. 

 

실습을 위한 pyspark 세팅 방법

강의에서 로컬환경에 pyspark을 세팅하는 방법을 자세하게 다루지만 로컬 장비의 여건에 따라서 혹은 그 과정조차도 무시하고 싶다면...

colab으로 간단하게!

Getting Started with PySpark in Google Colab

이전에 ml 공부하면서 colab으로 길들여져 최대한 로컬 말고 리모트 환경, 브라우져 환경에서 실습을 편하게 하고 싶었습니다. colab은 주피터 노트북 포맷이 기본이어서 cell실행 방식으로 각 코드 블럭이 어떤 결과가 나오는지 출력할 수 있어서 강의와 함께 각 라인을 확인하기 편했습니다^^ 물론 로컬에서 주피터 노트북을 사용하면 동일하고 pyspark을 위한 환경 세팅해보면 앞으로 필요한 상황이 왔을때 좀 더 익숙하게 처리할 수 있는 경험이 됩니다. 따라서 로컬에서 설정해본 후 더 가볍게 pyspark을 써보고 싶다면 이 방식을 활용해보는 것을 추천합니다:)

 

추천 대상

  • spark을 처음 배우는 분
  • 사전적인 개념보다 실습을 통해 function의 역할을 직접 코드로 느끼고 싶은 분

저는 기존에도 실무에서 Spark을 사용하고 있어서 강의로 소개되는 개념과 전반적인 메서드에 대해서 접한 상태였습니다. 그래도 어렴풋하고 스스로 설명할 수 없는 부분을 강의 들으면서 다시 정리할 수 있었고 비슷한 기능을 하는 다른 메서드에 대해서도 생각해볼 수 있었습니다. 요즘에는 튜닝까지 신경써야하는데 해당 강의에서 더 다루지는 않기 때문에 기본적으로 Spark을 사용해보고 성능 튜닝 역량을 기르고 싶으신 분들은 다른 강의를 추천합니다. 제목과 강의 커리큘럼대로 Spark을 사용한 데이터 활용을 보여주는 강의였습니다!