본문 바로가기
유용한 정보

pandas를 dplyr 처럼 쓰는 방법 (pandas에서 pipe 연산자를 사용)

by systrader79 2022. 11. 5.
728x90
반응형

데이터 분석의 양대 산맥은 R과 파이썬이라고 할 수 있고, R과 python에서 데이터 분석의 가장 대표적인 라이브러리로 널리 이용되는 것은 역시 dplyr과 pandas라고 할 수 있습니다.

 

데이터 분석이라는 과정이 결국은 열과 행으로 이루어진 테이블이나 데이터베이스를 가공하여 원하는 정보를 뽑아내는 과정이다보니, 이런 작업에 필요한 dplyr 이나 pandas 같은 라이브러리가 많은 사람들에게 사랑을 받고 있습니다. 그러나, dplyr과 pandas 모두 훌륭한 패키지이지만, 문법의 일관성, 직관성, 용이성 면에서 본다면 pandas는 dplyr의 상대가 되지 못한다고 개인적으로 생각합니다.

 

그 이유는 dplyr의 파이프 연산자 때문인데, 파이프 연산자를 쓰면 우리가 원하는 데이터를 정렬하고, 가공하고, 추출하고 집계할 때 매우 쉽고 직관적인 흐름에 따라 분석할 수 있기 때문입니다. 파이프 연산자(%>%)는 체인 연산자(chain operator) 또는 줄여서 파이프라고도 하는데, 물길을 연결하는 파이프처럼 데이터와 데이터를 연결하는 기능을 담당합니다.

pandas의 경우에는 직관성이 많이 떨어질 뿐만 아니라, 연속적인 집계 플로우에 따라 데이터를 처리하는 방식이 아니기 때문에, 굉장히 불편하고 익숙해지기가 쉽지 않지요. 이런 관점에서 순수하게 데이터 분석만을 하는 목적이라면 pandas보다 dplyr(tidyverse) 를 이용하는 것이 훨씬 효율적이고 효과적입니다.

 

하지만, 데이터 분석이라는 것이 단순한 탐색적 데이터 분석이나 기초 통계량만 분석하는 것에 국한되지 않고 머신러닝이나 딥러닝 같은 알고리즘까지 응용하는 분들이 많아지면서 R과 파이썬을 같이 쓰는 분들도 많아지고 있고, 이에 따라 각 패키지의 장점을 융합한 라이브러리도 최근 많아지는 추세입니다.

파이썬에서도 pipe가 가능하다!

이런 분위기 속에서 dplyr의 함수를 완벽하게 구현하고, 파이프 연산자까지 도입하여 파이썬에서도 마치 dplyr처럼 데이터를 분석할 수 있는 파이썬 라이브러리가 최근 공개되었습니다. 바로 datar 이라는 패키지입니다.

그냥 몇개 함수만 흉내낸 수준이 아니라 지원하는 함수도 매우 많아 , 진지하게 pandas를 대체하려는 시도인 것 같습니다.

사실 이전에도 파이썬에서 dplyr같은 방식을 도입하려는 시도는 있었지만, 대부분 프로젝트가 아주 미미한 수준으로 끝났는데 이 패키지는 완성도도 상당히 높고 지속적으로 발전되고 있어, 파이썬으로 데이터를 분석하는 많은 분들에게 큰 도움이 될 것 같습니다.

 

너무나도 중요한 소식 ebook (클릭)

 

너무나도 중요한 소식

 

gospel79.netlify.app

 


1. 네이버 카페 '실전주식투자연구소' 로 오시면, 본 블로그의 모든 내용을 카테고리별로 정렬하여 순서대로 확인하실 수 있고, 다양한 실전 투자 정보도 얻을 수 있습니다~

 

2. 자타가 공인하는 주식 단기 시스템 트레이딩의 최고 전략가, '닥터 퀀트의 단기 트레이딩 강좌'가 뉴지스탁에서 진행중입니다. 닥터 퀀트의 강좌에서는 그동안 공개하지 않았던 무려 50개 이상의 실전 트레이딩 전략과 주기적인 업데이트 강의가 제공됩니다~

 

3. 'systrader79의 단기 시스템 트레이딩 강의' 와  '팩터 백과 사전 강의' 가 뉴지스탁에서 진행중입니다~   주식 단기 트레이딩과 자산 배분 전략에 관심이 있으신 분들의 많은 성원 부탁드립니다

4. 여러분의 인생이 걸린 너무나도 중요한 소식 ----> 여기를 클릭하세요!

 

 

728x90
반응형

댓글