เมื่อวาน (1 เม.ย. 59) ผมได้มีโอกาสไปฟังสัมมนา "Big Data in Action : Application and Work in Progress" จัดโดยภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ร่วมกับ ILP ซึ่งหลายหัวข้อฟังสนุกมาก โดยทางภาควิชาได้ร่วมมือกับหน่วยงานต่างๆ ในการทำวิจัยหรือสร้าง Tool ต่างๆเพื่อนำไปใช้จริงจากคนที่ต้องการจริง
เดี๋ยวขอไล่ไปทีละหัวข้อนะครับ บางส่วนจดไม่ทันเพราะฟังเพลิน ถ้าผิดพลาดประการใดขออภัยมา ณ ที่นี้ครับ (แต่ละหัวข้อชื่อแรกจะเป็นอาจารย์จากภาควิชาวิศวกรรมคอมพิวเตอร์)
==========================
หัวข้อที่ 1 “Facebook Status Life”
โดย ผศ. ดร.สุกรี สินธุภิญโญ ร่วมกับ คุณณรงค์ อินทร์ธิรักษ์ นิสิตปริญญาเอก คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
เริ่มจากหัวข้อเบาๆใกล้ๆตัวเรา โดยคำถามเริ่มมาจากว่า “เรารู้พฤติกรรมผู้ใช้ Facebook ในประเทศไทยมากน้อยขนาดไหน” เลยเริ่มทำการวิเคราะห์ในแง่มุมต่างๆ โดยแง่มุมนี้คือคำถามต่อมาว่า “ช่วงชีวิตของ Status หรือ Post นั้น หลังจากโพสต์ไปแล้วอยู่ได้ยาวนานขนาดไหน?” ซึ่งเป็นที่มาของคำว่า Status Life นั่นเอง (ในโน๊ตนี้ผมอาจใช้คำว่า status หรือ post สลับไปมาแต่ความหมายเดียวกัน) ซึ่งคำว่าอยู่ได้ยาวนานขนาดไหน ตอนนี้ใช้วิธีวัดคือมีคนกด Like จนถึงไม่มีคนกดแล้วเมื่อไหร่
เริ่มจากการเก็บข้อมูล Data ก่อน
ปัญหา - Facebook Graph API ไม่ได้ให้ข้อมูลว่าแต่ละช่วงเวลาคนเข้ามากด Like เท่าไหร่ จึงต้องคอย monitor ว่าเพจมีโพสต์ใหม่เกิดขึ้นเมื่อไหร่ แล้วจึงค่อยไปจับว่ามีคนมาคน Like ตอนไหนบ้าง โดยเขียน script เข้าไปจับ ซึ่ง script ทำงานแบบ parallel โดยแต่ละ script จะดูแล 1 post และแยกฐานข้อมูลสำหรับแต่ละ post แล้วค่อยมา merge ข้อมูลภายหลัง
หลังจากนั้นดูทุกๆ 5 นาทีว่า post นั้นมีจำนวน like เพิ่มขึ้นเท่าไหร่
โดยทำการ monitor ประมาณ 76 page ทำการ monitor เป็นเวลา 681 ชม. รวม 6,551 status, จำนวน 4 ล้าน user, จำนวน 18 ล้าน like และใช้ Tool คือ SocialBaker ในการจำแนกกลุ่ม Category ที่มีจำนวน 9 Category (เช่น กลุ่ม sport, entertainment, celebrities เป็นต้น)
การกระจายของของ Status Life ไม่ได้กระจายแบบ Normal Distribution แต่เป็น Power Law Distribution (Status ที่อายุสั้นๆมีจำนวนมาก Status ที่อายุยาวขึ้นจะมีจำนวนลดลงอย่างรวดเร็ว) แต่ก็เป็น Power Law ที่ช่วงปลายกระดกขึ้น (คือ status ที่มีอายุนานมากๆๆๆ กลับมีอยู่เยอะเหมือนกันเยอะกว่าที่อายุกลางๆ)
คำถามต่อมา: Status Life มี pattern รึเปล่า?
ลองทำ clustering ดูพบว่ามีลักษณะออกมาได้ 6 แบบ
คน like เริ่มไม่เยอะแต่แป๊ปเดียวพุ่งขึ้นเลยแล้วก็ลงเร็วจบเร็ว
เริ่มมาคน like เยอะมากแล้วค่อยๆลง
มีคน like เรื่อยๆ ยาวทั้งวัน
คล้ายๆแบบแรกแต่ไม่พุ่งขึ้นนักแล้วก็ค่อยๆลงช้าๆ
ยาวนานแล้วลงมาหน่อยแต่ก็ยังยาวต่อ
มีขึ้นลงเป็นช่วงๆ
แบบที่ 3 มีช่วงชีวิตยาวนาน ซึ่งทำให้เห็นว่า Status กลุ่มอื่นๆเป็นตาม Power Law หมดยกเว้นกลุ่มที่ 3 ที่ส่งผลให้ช่วงชีวิตยาวถึงตอนปลาย
คำถามต่อมา: คนไทยใช้เฟซบุ๊กตอนกี่โมง
นักการตลาดจะเลือก prime time ในการโพสต์ โดยจากภาพจะเห็นว่าวันเสาร์เป็นวันที่ใช้กันน้อยที่สุด ยกเว้นสายการเมือง (Sociallity) จำนวน Like ที่ขึ้นเยอะคือช่วงบ่าย 4-5 และช่วง 3 ทุ่ม ที่น่าประหลาดใจคือกลุ่ม Celebrities จะขึ้นๆลงๆทั้งวันและช่วงตี 1 ก็ยังมีขึ้นอยู่ (กลุ่มอื่นจะไม่ค่อยมีกด like หลังเที่ยงคืน) ดูโดยรวมแล้วตอน 10 โมงเช้าคนไทยกด Like Facebook กันเยอะที่สุดไม่ว่าจะเป็นกลุ่มไหนก็ตาม ซึ่งจากจำนวน like ในแต่ละช่วงเวลาทำให้พอเดาพฤติกรรมคนในกลุ่มต่างๆได้
คำถาม: อยากรู้ว่า status กลุ่มที่อายุยาวนานเป็นประเภท post แบบไหน
มีการแบ่งกลุ่มแต่ละประเภทว่า status ไหนของกลุ่มไหนที่ status life ยาวนาน เช่น กลุ่ม Entertainment พบว่า status ของ วู้ดดี้เกิดมาคุยจะอยู่ยาวนานมาก กลุ่ม Sports พบว่า status ของ Liverpool FC จะอยู่ยาวนานมาก (อาจารย์บอกว่าขออภัยที่ Man U. ไม่ติดชาร์ท 555)
แต่ทั้งนี้ทั้งนั้นอาจารย์ได้บอกไว้ว่ายังไม่ได้มีการกรองพวกปั๊ม like ซึ่งอาจจะส่งผลก็ได้ ต้องทำการศึกษาต่อไป
==========================
หัวข้อที่ 2 Big Data on Wheels
โดย รศ. ดร.กุลธิดา โรจน์วิบูลย์ชัย ร่วมกับ ดร.ภาสกร ประถมบุตร จากสมาคม ITS Thailand (ITS = Intelligent Transport System)
เริ่มด้วยวิดีโอแสดงคำถามว่าจะดีมั้ยถ้าเรากะเวลาของรถเมลที่จะมาได้ จึงได้ทำการติดตั้งอุปกรณ์ที่รองรับมาตรฐาน 802.11p (มาตรฐานเครือข่ายไร้สายสำหรับยานยนต์) กับรถโดยสารภายในจุฬา เพื่อให้ยานยนต์สามารถแลกเปลี่ยนข้อมูลเมื่อวิ่งผ่านกันได้ และสร้าง Mobile Application เพื่อใช้ตรวจสอบเส้นทางรถโดยสารภายในจุฬา โดยภาควิชาร่วมกับ Denso Japan และ ITS Thailand
ในการทำ Vehicular Network (VANET) นั้นส่วนใหญ่แล้วจะเพื่อเป้าหมาย 3 ประการ
Save Life
Save Environment
Save Time
โดยทางแล็บวิจัยได้ค่อยๆเริ่มพัฒนามาตั้งแต่ปี 2009
ปี 2009 เริ่มทำวิจัยโดยใช้ Simulation (ns-3) ทำการจำลองการส่งข้อมูล
ปี 2011 เริ่มทดลองจริงโดยใช้ computer 4 เครื่องในคณะ
ปี 2012 ใช้ computer 3 เครื่องทำงานบน Ubuntu/osx/windows และ android 2 เครื่อง เพื่อดูความเข้ากันได้
ปี 2014 ได้รับอุปรกรณ์ wireless unit จาก Denso Thailand จำนวน 7 ตัว มาติดบน shuttle bus ที่วิ่งภายในจุฬา
ปี 2015 ได้รับทุนจาก Asian Transport Research Society ได้อุปกรณ์เพิ่มเป็น 17 ตัว
ปลายปี 2015 ได้รับการสนับสนุนการ Toyota ให้ยืมรถยนต์เพื่อมาทำวิจัย โดยทดลองวิ่งในส่วนที่การจราจรหนาแน่น และส่วนที่ทางโล่ง และล่าสุดได้ทุนเพิ่มเติมจาก กสทช.
ปริมาณข้อมูลที่ทดลองเก็บมา
รถบัส 1 คัน 0.6 GB /วัน ซึ่งจากข้อมูลนี้ถ้าลองเอามาประมาณเป็น รถเมลของกรุงเทพ ประมาณ 7,923 คัน = 4.75 TB/วัน ถ้ารวม Taxi ด้วยจะประมาณ 607 PB/วัน ซึ่งจะเป็นปริมาณข้อมูลที่มหาศาลมาก
อุปกรณ์ที่ทดสอบได้ใช้ Sensor หลายประเภท ต่อกับ Rasberry Pi เช่น
GPS ใช้ Visualization ด้วยภาษา R แสดงให้เห็นว่าช่วงไหนที่รถบัสเคลื่อนที่เร็วขนาดไหนในช่วงเวลาไหน
Accelerometer ใช้ในการตรวจอบพฤติกรรมคนขับ โดยเอาค่าความเร่งในแนวแกน X (แนวนอน) เพื่อดูว่ารถคันไหนมีการเหยียบเบรกแรง คันเร่งแรงมากน้อยขนาดไหน โดยเปรียบเทียบคนขับแต่ละคนในช่วงเวลาเดียวกันบนถนนช่วงเดียวกัน
Gyroscope: ดู Rotation เพื่อดูความสั่นของรถจะเห็นได้ว่าช่วงที่มีลูกระนาดก็จะเกิดการสั่นมาก โดยสามารถเอามาเช็คหลุมบ่อตามถนนได้
และที่กำลังสำคัญคือเรื่อง Privacy และ Security ของข้อมูลส่วนบุคคล
ดร.ภาสกร นำเสนอข้อมูลจาก Toyota Tsucho ซึ่งเป็นสมาชิกของ ITS Thailand เช่น ภาพแสดง heap map ของเส้นทาง ทำให้เห็นว่าบริเวณไหนรถเยอะน้อย ข้อมูลช่วงเวลารถติดในแต่ละช่วงเวลา หาความสัมพันธ์สภาพจราจรกับสภาพอากาศ เป็นต้น
โดยการเก็บข้อมูลจะใช้ Engine 2 แบบ คือ 1. Cold Data Engine นำไปทำ Traffic Simulation, Traffic-Weather Analysis โดยใช้ PIG, HIVE, MapReduce, HBase, HDFS และ 2. Hot Data Engine นำไปทำ Monitoring และ ETA (ประเมินเวลาการเดินทาง) & Real-time Traffice Prediction โดยใช้ Bolt, Spark, Storm, Kafka, Zookeeper
==========================
หัวข้อที่ 3 “Big Health”
โดย ผศ. ดร.เกริก ภิรมย์โสภา ร่วมกับ นพ. กฤษณ์ เจริญลาภ คณะแพทยศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
ข้อมูลทางการแพทย์มีทั้งข้อมูลการบันทึกคนไข้และข้อมูลจาก wearable device ต่างๆ
โดยงานนี้จะสนใจ Medical Record หรือ Clinical Data คือข้อมูลของคนไข้ทุกอย่าง เช่น ส่วนสูง น้ำหนัก ค่าผลเลือด ผลน้ำตาล ฯลฯ ที่มาจากการตรวจของแพทย์ ซึ่งจะนำไปใช้งานวิจัยต่างๆทั้งวัดประสิทธิภาพในการตรวจหรือการใช้ยาเป็นต้น
ปัญหาของระบบซอฟต์ในโรงพยาบาลคือ
ซอฟต์แวร์ต่างชาติราคาสูงมาก (บางเจ้าสูงถึงระดับหลายร้อยล้านบาท)
ปัญหาด้านวัฒนธรรม เช่น ปัจจุบันโรงพยาบาลส่วนใหญ่ยังเก็บข้อมูลเป็นกระดาษ และจะถูกทำลายทิ้งเมื่อเวลาผ่านไปเกิน 5 ปี ถ้าไม่แจ้งให้แสกนข้อมูลเก็บไว้ โดยที่ต่างประเทศ เช่น อิตาลี เวลาแพทย์เขียนแล้วจะมีเลขาฯนำมาพิมพ์เป็นไฟล์เก็บไว้
ปัญหาเรื่อง implementation ของบริษัทไทยว่าซอฟต์แวร์ที่ทำมาแล้วไปใช้ต่อไม่ได้และไม่ได้รับการดูแลต่อ
ปัญหาเรื่องการเก็บข้อมูล เพราะหมอก็จะค่อนข้างยุ่งไม่มีเวลาบันทึกข้อมูล
ปัญหาเรื่องสถานที่ในการเก็บข้อมูล ส่วนใหญ่ยังคิดว่าต้องเอาข้อมูลเดินไปกรอกที่ OPD (แผนกผู้ป่วยนอก) ควรจะใช้ประโยชน์จาก mobile device ที่ติดตัวได้มากกว่านี้
ปัญหาความละเอียดในการเก็บข้อมูล เก็บละเอียดภาระงานเยอะ เก็บน้อยไม่เกิดประโยชน์
ปัญหาด้านอุปกรณ์ มีอุปกรณ์ที่ไม่เหมาะสมเยอะ
ทางภาควิชากับคณะแพทย์เลยร่วมกันพัฒนา Mobile Application ชื่อ Simplified Medical Record เพื่อเก็บประวัติคนไข้ง่ายๆ ใช้เสียงในการบันทึกข้อมูล (พูดภาษาไทย) ถ่ายรูปบันทึกและวงได้ หรือเลือกรูป preset ได้ ซึ่งช่วยอำนวยความสะดวกกับแพทย์ในการบันทึกประวัติคนไข้มาก
และปกติแล้วคำวินิจฉัยจะต้องมา map เข้ากับรหัสกลุ่มโรคมาตรฐาน ซึ่งจะใช้คนมาทำการ map แล้วให้หมอตรวจสอบว่า map ถูกมั้ย ในอนาคตก็จะใช้ machine learning มาช่วย map อัตโนมัติ
นอกจากนั้นได้ลองเอาคำที่คุณหมอวินิจฉัยมาตัดคำแล้วนับความถี่คำแล้วดึง 400 คำแรกที่มีความถี่มากที่สุดมาทำ word cloud แล้วลองมาแบ่งกลุ่มตามช่วยอายุ จะเริ่มเห็นว่าได้แต่ละช่วงอายุจะมีโรคต่างๆเพิ่มขึ้นมา
ถ้าเกิดมีข้อมูล location หรือข้อมูลอื่นๆเพิ่ม เราอาจวิเคราะห์ได้ถึงว่าโรคไหนกระจายอยู่ที่ไหน หรือเกิดการระบาดเริ่มมาจากที่ไหน และด้วยความสามารถการคำนวณแบบขนานทำให้ลดเวลาในการวิเคราะห์ข้อมูลจากเดิมหลายเดือนเหลือเวลาเพียงไม่กี่ชั่วโมง
ดังนั้นในยุค Data-Driven Economy ก็จะนำมาซึ่งยุค Data-Driven Healthcare
==========================
หัวข้อที่ 4 “What’s for lunch?”
โดย ผศ. ดร.ณัฐวุฒิ หนูไพโรจน์ ร่วมกับ คุณภัทราวุธ ซื่อสัตยาศิลป์ CTO จาก Wongnai.