Getting Started with Data Platform
ดาวโหลด Source Codes & Slides
ดาวโหลดเอกสารประกอบการอบรมที่ Google Drive
เชื่อมต่อ VPN
เชื่อมต่อ VPN ของการไฟฟ้านครหลวงผ่าน VPN Group MEA2Home
หากติดปัญหาในการเชื่อมต่อกรุณาติดต่อ ฝมธ.
ตรวจสอบการเข้าถึงระบบ Network
หลังจากที่ต่อ VPN เรียบร้อยแล้ว ทำการทดสอบว่าสามารถเข้าถึงบริการของ Data Platform ได้หรือไม่โดยเปิดโปรแกรม PowerShell
และพิมพ์คำสั่งดังนี้
ทดสอบเชื่อมต่อ Data Catalog และ Data Service
Test-NetConnection -ComputerName data.mea.or.th -Port 9502
Test-NetConnection -ComputerName data.mea.or.th -Port 9500
Test-NetConnection -ComputerName data.mea.or.th -Port 9400
ทดสอบการเชื่อมต่อ MinIO
Test-NetConnection -ComputerName 172.17.113.251 -Port 9000
ทดสอบการเชื่อมต่อ Data Platform
Test-NetConnection -ComputerName dpc-cdr-u1.mea.or.th -Port 22
Test-NetConnection -ComputerName dpc-cdr-u1.mea.or.th -Port 8889
ถ้าสามารถเชื่อมต่อได้จะเห็นคำว่า TcpTestSucceeded: True
ถ้าเชื่อมไม่ได้จะเห็นเป็น TcpTestSucceeded: False
หากเชื่อมต่อไม่ได้กรุณาแจ้งปัญหามาที่ Google Form พร้อมรูปแนบผลลัพธ์การทดสอลด้านบน ฝวท. จะดำเนินการประสานงาน ฝมธ. ในการแก้ปัญหา
ติดตั้ง Drivers และ ตั้งค่า
- ติดตั้งและตั้งค่า ODBC Driver หลังจากตั้งค่าแล้วให้ทดสอบกดปุ่ม Test Connectionเพื่อยืนยันว่าเชื่อมต่อ Data Platform ได้
- ติดตั้งและตั้งค่า Kerberos หลังจากตั้งค่าแล้วทดสอบ Get Ticket
- ติดตั้งและตั้งค่า Firefox หลังจากตั้งค่าแล้วทดสอบเข้าเว็บไซต์ Hue
- ติดตั้ง Python Module
minio
ด้วยคำสั่งpip install --user minio
(ใช้ Anaconda PowerShell หากติดตั้ง Anaconda Python Distribution)
สถาปัตยกรรมพื้นฐานของ Data Platform
ส่วนประกอบสำคัญ
- Data Processing & Engineering Component เป็นส่วนที่วิศวกรข้อมูลทำการดึงข้อมูลจากฐานข้อมูลต่างๆ มาทำความสะอาด และ จัดเก็บภายในระบบ Data Platform โดยอัตโนมัติ
- Data Security & Data Service Component เป็นส่วนที่ใช้ในการตั้งค่าระบบความปลอดภัยและให้บริการข้อมูลผ่านช่องทางมาตรฐานต่างๆ เช่น ODBC, ODatav4, SOAP และ REST APIs Data Scientists และ Data Analysts สามารถใช้ Tools ที่ตัวเองถนัดเชื่อมต่อเข้ามาใช้งานข้อมูลตามช่องทางที่สะดวก
- Data Catalog Component เป็น Web UI สำหรับแสดงชุดข้อมูลและ Web Service ที่ให้บริการภายใน Data Platform ปัจจุบันให้บริการข้อมูลเฉพาะภายในการไฟฟ้านครหลวงเท่านั้น
การเขียนโปรแกรม Python เพื่อเชื่อมต่อ ODBC
เปิด Jupyter Notebook หรือ Jupyter Lab และเปิดตัวอย่างไฟล์ odbc.ipynb
รายละเอียดเพิ่มเติมสามารถอ่านได้ที่ การเขียนโปรแกรม Python เพื่อเชื่อมต่อผ่าน ODBC
พื้นฐาน SQL
การเขียนโปรแกรม Python เพื่อเชื่อมต่อ REST APIs
เปิด Jupyter Notebook หรือ Jupyter Lab และเปิดตัวอย่างไฟล์ api.ipynb
รายละเอียดเพิ่มเติมสามารถอ่านได้ที่ การเขียนโปรแกรม Python เพื่อเชื่อมต่อผ่าน REST APIs
พื้นฐาน REST APIs
พื้นฐาน Requests Module
การใช้งาน MinIO
เข้าใช้งานที่เว็บไซต์ MinIO หรือ อ่านวิธีการใช้งานเพิ่มเติม
การใช้งาน Hue
Hue เป็น Web UI ที่ Data Engineers หรือ Data Scientists สามารถเข้าไป Explore ข้อมูลในระหว่างการจัดทำ หรือ Explore ข้อมูลดิบทั้งที่เป็นแบบมีโครงสร้างและไม่มีโครงสร้าง เข้าใช้งานได้ที่ Hue UI ถ้าต้องการข้อมูลที่มีความถูกต้องมากที่สุด กรุณาใช้บริการข้อมูลที่ Data Catalog
การใช้งาน Spark
Spark เป็น Tool ที่ใช้ในการประมวลผลข้อมูลขนาดใหญ่สามารถใช้ภาษา Python หรือ Scala ในการเขียนโปรแกรม ในหลักสูตรของ Data Scientist Bootcamp จะได้เรียนวิธีการเขียนโปรแกรมกับ Spark ในหลักสูตร Big Data Essentials สามารถเข้าใช้งานได้หลายวิธี ตามคู่มือการใช้งาน Apache Spark วิธีการที่ Data Scientist สามารถใช้ทำงานได้คือ
- ใช้ผ่าน Spark Shell
- ใช้ผ่าน Spark Submit
- ใช้ผ่าน Hue