일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 캐치마인드
- 카카오톡공유하기
- 펀널
- 룩백
- nodejs
- Redis
- 코딩공부
- git pull
- Kotlin
- funnel
- nestjs
- 플러터
- 광고플랫폼
- 부업
- 메모장앱
- 토이프로젝트
- 스케치퀴즈
- 페이스북광고
- 개인앱
- 스케치데브
- 이터널리턴
- 영원회귀
- 구글검색광고
- 개발자를_위한 #PPT팁
- 사이드프로젝트
- submodules
- git
- 라인광고플랫폼
- 블랙서바이벌
- 카카오톡
- Today
- Total
목록개발/Data Engineering (4)
가을기 Workspace
문제 수억개 이상의 row와 수천개의 dimension이 있다고 가정. 주어진 조건을 만족하는 (rule-match) 가장 빠른 자료구조는 어떤게 있을까? Bitset BitSet은 Bit들로 이루어진 vector로, boolean 배열처럼 이용할 수 있다. boolean 배열에 비해 갖는 이점은 boolean 값은 1byte를 잡아먹지만 bit는 말그대로 1bit다. 한 값당 7bit씩 아낄 수 있다. 10개의 row가 있다고 가정 G:Male 1010000010 Age:15-19 0110000000 위와 같은 Bitset으로 0번, 2번, 8번 row가 남성인 데이터를 표현할 수 있다. (Bitmap Index) Set & Get import java.util.BitSet; public class T..
스파크는 대용량 데이터 분산 처리 소프트웨어 별도의 app 없이 대용량 쿼리 수행 애플리케이션 구현을 위한 API 제공 인기있는 빅데이터 솔루션, 가장 활동적인 아파치 프로젝트 공식 정의: Apache Spark is a unified analytics engine for large-scale data processing. For large-scale: 데이터 크기와 상관 없이 Unified Analytics engine: 어떤 요구 사항도 처리할 수 있는 데이터 분석 엔진. 데이터를 처리할 일이 있을때 사용하면 빠르고, 안정적이고, 편리하다. 원본 데이터, 데이터 수집 → 데이터 처리 → 분석 결과 → 응용 프로그램 위의 과정에서 데이터 처리를 담당. 그렇다고 빅데이터라 해서 크게 다를 것은 없다. 데..
JDBC를 통해 접근하기 때문에 driver가 필요하다. SBT를 사용하므로, build.sbt에 maven의 mysql-connector-java 를 추가한다. import org.apache.spark.sql.SaveMode val jdbcUrl = "jdbc:mysql://{host}:{port}/{db_name}" val df = spark.table("...") println(df.rdd.partitions.length) // given the number of partitions above, users can reduce the partition value by calling coalesce() or increase it by calling repartition() to manage the n..
Scala 코드 기준. val simpleData = Seq(("James","Sales",3000), ("Michael","Sales",4600), ("Robert","Sales",4100), ("Maria","Finance",3000), ("Raman","Finance",3000), ("Scott","Finance",3300), ("Jen","Finance",3900), ("Jeff","Marketing",3000), ("Kumar","Marketing",2000) ) import spark.implicits._ val df = simpleData.toDF("Name","Department","Salary") df.show() +-------------+----------+------+ |employ..