Scala Serialization

Problem

序列化一個Scala對象為文本或者二進制數(shù)據(jù),以便支持持久化或者網(wǎng)絡傳輸?shù)刃枨?,并通過讀取這些數(shù)據(jù),可以反序列化出這個對象

Feature requests

  • easy to use
  • 支持自定義序列化(如部分member)
  • 盡可能的編譯期檢查
  • Schema Evolution?

Key metrics

  • 序列化/反序列化 速度
  • 序列化數(shù)據(jù) 空間占用
  • 通用性

Solution

extend or mixin Serializable trait

scala Serializable 實際上就是一個java.io.Serializableuniversal trait

package scala

/**
 * Classes extending this trait are serializable across platforms (Java, .NET).
 */
trait Serializable extends Any with java.io.Serializable

@SerialVersionUID

@SerialVersionUID(1000L)
class Foo extends Serializable {
  // class code here
}

Static annotation SerialVersionUID可以與Serialization一起使用

If no serialVersionUID is declared, JVM will use its own algorithm to generate a default SerialVersionUID.

When to specify SerialVersionUID?

SerialVersionUID的目的是為了檢查序列化和反序列化的類是否兼容。

  • 第一種情況,序列化的目的只是為了在網(wǎng)絡上即時傳輸,如rpc, mq等,或者在實現(xiàn)上考慮,為了節(jié)省內(nèi)存,只保存序列化之后的對象,如spark cache等,一般來說可以不顯式指定SerialVersionUID
  • 第二種情況,需要直接使用序列化來持久化對象,如將訓練好的模型存儲到文件系統(tǒng)上,就最好指定SerialVersionUID,且當類不向前兼容的時候,應該重新生成SerialVersionUID
  • 第三種情況,如果對各編譯器,不同的JVM 兼容性要求很高,如Java(TM) Object Serialization Specification建議,應當給每個序列化類都指定SerialVersionUID

按需序列化一部分對象?

當一個類mixin Serializable 之后,整個類的實例(all members)都會被序列化,但有時候這并不是我們需要的

  • 對象持有非常大的member,序列化和反序列化的開銷很大,而我們并不需要序列化它
  • 業(yè)務邏輯中,大量序列化和反序列化的開銷成為瓶頸,需要優(yōu)化
  • 對象member不可/難以序列化,如網(wǎng)絡連接,數(shù)據(jù)流等,或者是引用第三方庫中不可序列化的對象

Solution 1: hygienic closure

  • 通過closure來避免序列化整個實例, 而是根據(jù)需要傳參
def closureFunction[E,D,R](enclosed: E)(gen: E => (D => R)) = gen(enclosed)

class Foo {
  val v1 = 42
  val v2 = 73
  val n = new NotSerializable

  // use shim function to enclose *only* the values of 'v1' and 'v2'
  def f() = closureFunction((v1, v2)) { enclosed =>
    val (v1, v2) = enclosed
    (x: Int) => (v1 + v2) * x   // Desired function, with 'v1' and 'v2' enclosed
  }
}
new Foo.f
  • auto nulling via closure cleaning 閉包清理
    由于 spark 大量使用closure serialization, 當一個closure 包含了一些在閉包函數(shù)中不必要的引用時(Scala issue: SI-1419, fixed in 2.12),就會浪費網(wǎng)絡傳輸帶寬,CPU 開銷,還有可能引入一些不可被序列化的對象,導致整個閉包無法序列化。
    spark 中使用 ClousureCleaner 在運行時遍歷對象,可以更精確的排除不必要的引用。

Solution 2: @transient lazy

Static annotation @transient 表示修飾的 member 不需要被序列化
比如一個 SparkJob base class


class SparkJob(args: Args) extends Serializable {
  @transient
  protected lazy val sparkConf = new SparkConf()

  @transient
  protected lazy val sc = new SparkContext(sparkConf)
  
  ...
}

由于引用的sparkConf, sparkContext都是不可序列化的,
且都不需要被傳送到executor上運行,因此可以用@transient表示該成員不需要被序列化

再如,一個算法模型類,需要讀取模型文件,并且需要頻繁通過ByteBuffer來操作二進制數(shù)據(jù)
但是ByteBuffer本身又是不可序列化的, 此時可以使用 @transient (private) lazy pattern
其中 @trainsient 可以避免 overhead,lazy 可以第一次被調(diào)用時正確地初始化以避免NPE

class Model(
  val model: Array[Byte],
  val offset: Array[Byte]
) extends Serializable {

  @transient private lazy val offsetBuffer = ByteBuffer.wrap(offset).order(ByteOrder.LITTLE_ENDIAN)
  @transient private lazy val modelBuffer  = ByteBuffer.wrap(model).order(ByteOrder.LITTLE_ENDIAN)
  ... 
}

這種模式也適用于其他難以被序列化的 member,比如數(shù)據(jù)庫連接,IO stream 等,每個實例只需序列化可以用來重建這些 member 的元信息即可。

Spark 序列化與性能

在如 Spark 這樣的分布式計算框架中, broadcast, shuffle, action等操作都會使得對象被序列化。使每個被閉包捕獲的變量都可序列化,可以避免異常,但是變量非常大時,容易影響性能,以及有可能造成內(nèi)存泄露。

Solution 1: Kryo(chill)

在 Spark 中使用 kryo serializer 來獲得更小的序列化開銷

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

Solution 2: Broadcast

在 Spark 中如果通過閉包引用了一個huge object, 那么這個object會被至少序列化 numPartitions 次,而如果使用broadcast variables, 那么只會被序列化 numNodes 次,通常 numPartitions > numNodes

其他序列化實現(xiàn)

  • Protobuf
    pros
    • IDL and languages support
    • stable and trusted
      cons
  • Thrift
    pros
    • more languages support
    • rpc service framework

cons

  • Avro
  • Boopickle
  • Pickling
  • Scodec

tbc.

Paradigm shift

use more

  • function
  • typeclass
  • case class
  • implicit context

References

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容