[개발] spark에서 특정 조건의 최신 row들 가져오기

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

가을기 Workspace

[개발] spark에서 특정 조건의 최신 row들 가져오기 본문

개발/Data Engineering

[개발] spark에서 특정 조건의 최신 row들 가져오기

가을기_ 2021. 6. 2. 13:01

Scala 코드 기준.

val simpleData = Seq(("James","Sales",3000),
      ("Michael","Sales",4600),
      ("Robert","Sales",4100),
      ("Maria","Finance",3000),
      ("Raman","Finance",3000),
      ("Scott","Finance",3300),
      ("Jen","Finance",3900),
      ("Jeff","Marketing",3000),
      ("Kumar","Marketing",2000)
    )
import spark.implicits._
val df = simpleData.toDF("Name","Department","Salary")
df.show()


+-------------+----------+------+
|employee_name|department|salary|
+-------------+----------+------+
|        James|     Sales|  3000|
|      Michael|     Sales|  4600|
|       Robert|     Sales|  4100|
|        Maria|   Finance|  3000|
|        Raman|   Finance|  3000|
|        Scott|   Finance|  3300|
|          Jen|   Finance|  3900|
|         Jeff| Marketing|  3000|
|        Kumar| Marketing|  2000|
+-------------+----------+------+



val w2 = Window.partitionBy("department").orderBy(col("salary"))
    df.withColumn("row",row_number.over(w2))
      .where($"row" === 1).drop("row")
      .show()

'개발 > Data Engineering' 카테고리의 다른 글

Bitset, RoaringBitmap 설명 (0)	2021.07.21
Apache Spark 소개 및 기본 설명 (0)	2021.07.17
[개발] spark DataFrame 을 MySQL에 저장하기 (0)	2021.06.02

'개발/Data Engineering' Related Articles

Comments

가을기 Workspace

[개발] spark에서 특정 조건의 최신 row들 가져오기 본문

[개발] spark에서 특정 조건의 최신 row들 가져오기

'개발 > Data Engineering' 카테고리의 다른 글

티스토리툴바