Skip to main content

Getting Started with Data Platform

ดาวโหลด Source Codes & Slides

ดาวโหลดเอกสารประกอบการอบรมที่ Google Drive

เชื่อมต่อ VPN

เชื่อมต่อ VPN ของการไฟฟ้านครหลวงผ่าน VPN Group MEA2Home หากติดปัญหาในการเชื่อมต่อกรุณาติดต่อ ฝมธ.

ตรวจสอบการเข้าถึงระบบ Network

หลังจากที่ต่อ VPN เรียบร้อยแล้ว ทำการทดสอบว่าสามารถเข้าถึงบริการของ Data Platform ได้หรือไม่โดยเปิดโปรแกรม PowerShell และพิมพ์คำสั่งดังนี้

ทดสอบเชื่อมต่อ Data Catalog และ Data Service

Test-NetConnection -ComputerName data.mea.or.th -Port 9502
Test-NetConnection -ComputerName data.mea.or.th -Port 9500
Test-NetConnection -ComputerName data.mea.or.th -Port 9400

ทดสอบการเชื่อมต่อ MinIO

Test-NetConnection -ComputerName 172.17.113.251 -Port 9000

ทดสอบการเชื่อมต่อ Data Platform

Test-NetConnection -ComputerName dpc-cdr-u1.mea.or.th -Port 22
Test-NetConnection -ComputerName dpc-cdr-u1.mea.or.th -Port 8889

ถ้าสามารถเชื่อมต่อได้จะเห็นคำว่า TcpTestSucceeded: True ถ้าเชื่อมไม่ได้จะเห็นเป็น TcpTestSucceeded: False หากเชื่อมต่อไม่ได้กรุณาแจ้งปัญหามาที่ Google Form พร้อมรูปแนบผลลัพธ์การทดสอลด้านบน ฝวท. จะดำเนินการประสานงาน ฝมธ. ในการแก้ปัญหา

PS OK

PS NG

ติดตั้ง Drivers และ ตั้งค่า

สถาปัตยกรรมพื้นฐานของ Data Platform

Data Platform Simplified

ส่วนประกอบสำคัญ

  • Data Processing & Engineering Component เป็นส่วนที่วิศวกรข้อมูลทำการดึงข้อมูลจากฐานข้อมูลต่างๆ มาทำความสะอาด และ จัดเก็บภายในระบบ Data Platform โดยอัตโนมัติ
  • Data Security & Data Service Component เป็นส่วนที่ใช้ในการตั้งค่าระบบความปลอดภัยและให้บริการข้อมูลผ่านช่องทางมาตรฐานต่างๆ เช่น ODBC, ODatav4, SOAP และ REST APIs Data Scientists และ Data Analysts สามารถใช้ Tools ที่ตัวเองถนัดเชื่อมต่อเข้ามาใช้งานข้อมูลตามช่องทางที่สะดวก
  • Data Catalog Component เป็น Web UI สำหรับแสดงชุดข้อมูลและ Web Service ที่ให้บริการภายใน Data Platform ปัจจุบันให้บริการข้อมูลเฉพาะภายในการไฟฟ้านครหลวงเท่านั้น

การเขียนโปรแกรม Python เพื่อเชื่อมต่อ ODBC

เปิด Jupyter Notebook หรือ Jupyter Lab และเปิดตัวอย่างไฟล์ odbc.ipynb รายละเอียดเพิ่มเติมสามารถอ่านได้ที่ การเขียนโปรแกรม Python เพื่อเชื่อมต่อผ่าน ODBC

พื้นฐาน SQL

SQL Basics

การเขียนโปรแกรม Python เพื่อเชื่อมต่อ REST APIs

เปิด Jupyter Notebook หรือ Jupyter Lab และเปิดตัวอย่างไฟล์ api.ipynb รายละเอียดเพิ่มเติมสามารถอ่านได้ที่ การเขียนโปรแกรม Python เพื่อเชื่อมต่อผ่าน REST APIs

พื้นฐาน REST APIs

REST Basics

พื้นฐาน Requests Module

REST Basics

การใช้งาน MinIO

เข้าใช้งานที่เว็บไซต์ MinIO หรือ อ่านวิธีการใช้งานเพิ่มเติม

การใช้งาน Hue

Hue เป็น Web UI ที่ Data Engineers หรือ Data Scientists สามารถเข้าไป Explore ข้อมูลในระหว่างการจัดทำ หรือ Explore ข้อมูลดิบทั้งที่เป็นแบบมีโครงสร้างและไม่มีโครงสร้าง เข้าใช้งานได้ที่ Hue UI ถ้าต้องการข้อมูลที่มีความถูกต้องมากที่สุด กรุณาใช้บริการข้อมูลที่ Data Catalog

การใช้งาน Spark

Spark เป็น Tool ที่ใช้ในการประมวลผลข้อมูลขนาดใหญ่สามารถใช้ภาษา Python หรือ Scala ในการเขียนโปรแกรม ในหลักสูตรของ Data Scientist Bootcamp จะได้เรียนวิธีการเขียนโปรแกรมกับ Spark ในหลักสูตร Big Data Essentials สามารถเข้าใช้งานได้หลายวิธี ตามคู่มือการใช้งาน Apache Spark วิธีการที่ Data Scientist สามารถใช้ทำงานได้คือ

  • ใช้ผ่าน Spark Shell
  • ใช้ผ่าน Spark Submit
  • ใช้ผ่าน Hue