Ekosistem TensorFlow Extended (TFX)

DandiLesmana
3 min readJun 13, 2024

--

TFX adalah ekosistem TensorFlow yang digunakan untuk membangun end-to-end machine learning pipeline.

Machine learning pipeline biasanya diawali dengan proses pengolahan data dan diakhiri dengan proses monitoring serta pengumpulan feedback terhadap performa model. Pipeline ini juga mencakup beberapa proses lain, seperti data preprocessing, model training, model analysis, dan model deployment.

Secara lengkap, berikut adalah gambaran machine learning pipeline.

Jika dilihat sekilas, tahapan machine learning pipeline berputar dari data ingestion hingga monitoring & feedback, lalu kembali lagi ke tahapan data ingestion. Sebab machine learning pipeline seolah “berputar”, hal ini menunjukkan sebuah siklus yang tiada henti.

Terkadang, seorang machine learning engineer (sebutan untuk orang yang bekerja dalam merancang, mengembangkan, dan mengimplementasikan machine learning) melakukan beberapa tahapan secara berulang ketika mengembangkan model machine learning. Contohnya, setelah mendapatkan feedback, ML engineer akan menambahkan data baru (data ingestion) untuk meningkatkan performa model machine learning.

Google telah mengembangkan tools untuk membantu para machine learning engineer melakukan otomatisasi keseluruhan pipeline tersebut. Hal itu karena adanya siklus yang mirip dan terus berulang. Tools tersebut bernama TensorFlow Extended (TFX).

Apa saja manfaat otomatisasi? Berikut detailnya.

  • Penerapan otomatisasi dalam machine learning pipeline memungkinkan kita untuk fokus pada pengembangan model baru.
  • Mengurangi terjadinya human error karena kurangnya intervensi manusia.
  • Dapat membantu dalam membuat dokumentasi pipeline, seperti versi model, performa, dataset, dan sebagainya.
  • Membantu menstandardisasi keseluruhan proses pada machine learning life-cycle.

TensorFlow Extended (TFX) adalah platform machine learning (ML) dengan skala produksi dari Google yang didasarkan pada framework atau library TensorFlow. TFX juga memberikan konfigurasi serta kerangka kerja dan library yang diperlukan untuk mengintegrasikan pengembangan, pelaksanaan, dan pemantauan (monitoring) sistem machine learning.

TFX menyediakan beberapa tools yang dapat membantu Anda melakukan otomatisasi machine learning pipeline sebagai platform yang ditujukan untuk membangun dan manajemen machine learning pipeline di lingkungan produksi. Inilah tools tersebut.

  • TFX Pipelines, sebuah alat atau toolkit untuk membangun ML pipeline. TFX pipeline membantu Anda dalam mengatur machine learning pipeline pada berbagai platform, seperti Apache Airflow, Apache Beam, dan Kubeflow Pipelines.
  • TFX standard components, sekumpulan komponen yang dapat digunakan untuk membangun machine learning pipeline. Setiap komponen TFX memiliki fungsi khusus, seperti ExampleGen untuk melakukan proses data ingestion dan Transform untuk melakukan data preprocessing.
  • Berikut gambar yang menjelaskan komponen-komponen TFX dan hubungannya dengan ML pipeline secara umum.
  • Pada gambar di atas, bagian atasnya merupakan machine learning pipeline dengan bagian tengahnya merupakan komponen TFX yang dapat digunakan untuk melakukan tahapan machine learning tertentu. Bagian bawah adalah library bawaan TFX yang digunakan untuk melakukan tahapan tertentu.
  • Perbedaan sederhana TFX komponen dengan library bawaan tersebut adalah penggunaan libraries TFX mengharuskan kita untuk melakukan import library, sedangkan komponen TFX tidak perlu. Ketika menginstal TFX, Anda dapat langsung menggunakan komponen tersebut.
  • TFX libraries, seperti yang sudah disebutkan sebelumnya, mengharuskan kita untuk melakukan import terlebih dahulu. TFX Libraries menyediakan fungsi dasar atau inti yang digunakan oleh banyak komponen standar TFX.
  • Anda bisa menggunakan TFX libraries untuk menambah fungsionalitas TFX komponen atau juga secara terpisah.

Salah satu library TFX yang berguna untuk deployment model ke lingkungan cloud adalah TensorFlow serving.

TensorFlow serving adalah serving system yang fleksibel dan high-performance bagi model machine learning serta didesain khusus untuk lingkungan produksi. TensorFlow mengonsumsi SavedModel dan menerima request operasi inferensi melalui REST API atau gRPC interfaces.

Serving merujuk kepada penggunaan model machine learning yang telah dilatih untuk membuat prediksi atau keputusan berdasarkan data masukan baru(input data).

Menarik, ya? Namun, Anda perlu ingat bahwa ketiga ekosistem yang sebelumnya disebutkan menggunakan bahasa pemrograman Python atau Python API dalam membangun, memelihara, dan melatih model machine learning.

--

--