Big Data in Action : Application and Work in Progress

Big Data in Action : Application and Work in Progress

เมื่อวาน (1 เม.ย. 59) ผมได้มีโอกาสไปฟังสัมมนา "Big Data in Action : Application and Work in Progress" จัดโดยภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ร่วมกับ ILP ซึ่งหลายหัวข้อฟังสนุกมาก โดยทางภาควิชาได้ร่วมมือกับหน่วยงานต่างๆ ในการทำวิจัยหรือสร้าง Tool ต่างๆเพื่อนำไปใช้จริงจากคนที่ต้องการจริง

เดี๋ยวขอไล่ไปทีละหัวข้อนะครับ บางส่วนจดไม่ทันเพราะฟังเพลิน ถ้าผิดพลาดประการใดขออภัยมา ณ ที่นี้ครับ (แต่ละหัวข้อชื่อแรกจะเป็นอาจารย์จากภาควิชาวิศวกรรมคอมพิวเตอร์)

==========================

หัวข้อที่ 1 “Facebook Status Life”

โดย ผศ. ดร.สุกรี สินธุภิญโญ ร่วมกับ คุณณรงค์ อินทร์ธิรักษ์ นิสิตปริญญาเอก คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

เริ่มจากหัวข้อเบาๆใกล้ๆตัวเรา โดยคำถามเริ่มมาจากว่า “เรารู้พฤติกรรมผู้ใช้ Facebook ในประเทศไทยมากน้อยขนาดไหน” เลยเริ่มทำการวิเคราะห์ในแง่มุมต่างๆ โดยแง่มุมนี้คือคำถามต่อมาว่า “ช่วงชีวิตของ Status หรือ Post นั้น หลังจากโพสต์ไปแล้วอยู่ได้ยาวนานขนาดไหน?” ซึ่งเป็นที่มาของคำว่า Status Life นั่นเอง (ในโน๊ตนี้ผมอาจใช้คำว่า status หรือ post สลับไปมาแต่ความหมายเดียวกัน) ซึ่งคำว่าอยู่ได้ยาวนานขนาดไหน ตอนนี้ใช้วิธีวัดคือมีคนกด Like จนถึงไม่มีคนกดแล้วเมื่อไหร่

เริ่มจากการเก็บข้อมูล Data ก่อน

ปัญหา - Facebook Graph API ไม่ได้ให้ข้อมูลว่าแต่ละช่วงเวลาคนเข้ามากด Like เท่าไหร่ จึงต้องคอย monitor ว่าเพจมีโพสต์ใหม่เกิดขึ้นเมื่อไหร่ แล้วจึงค่อยไปจับว่ามีคนมาคน Like ตอนไหนบ้าง โดยเขียน script เข้าไปจับ ซึ่ง script ทำงานแบบ parallel โดยแต่ละ script จะดูแล 1 post และแยกฐานข้อมูลสำหรับแต่ละ post แล้วค่อยมา merge ข้อมูลภายหลัง

หลังจากนั้นดูทุกๆ 5 นาทีว่า post นั้นมีจำนวน like เพิ่มขึ้นเท่าไหร่

โดยทำการ monitor ประมาณ 76 page ทำการ monitor เป็นเวลา 681 ชม. รวม 6,551 status, จำนวน 4 ล้าน user, จำนวน 18 ล้าน like และใช้ Tool คือ SocialBaker ในการจำแนกกลุ่ม Category ที่มีจำนวน 9 Category (เช่น กลุ่ม sport, entertainment, celebrities เป็นต้น)

การกระจายของของ Status Life ไม่ได้กระจายแบบ Normal Distribution แต่เป็น Power Law Distribution (Status ที่อายุสั้นๆมีจำนวนมาก Status ที่อายุยาวขึ้นจะมีจำนวนลดลงอย่างรวดเร็ว) แต่ก็เป็น Power Law ที่ช่วงปลายกระดกขึ้น (คือ status ที่มีอายุนานมากๆๆๆ กลับมีอยู่เยอะเหมือนกันเยอะกว่าที่อายุกลางๆ)

คำถามต่อมา: Status Life มี pattern รึเปล่า?

ลองทำ clustering ดูพบว่ามีลักษณะออกมาได้ 6 แบบ

  1. คน like เริ่มไม่เยอะแต่แป๊ปเดียวพุ่งขึ้นเลยแล้วก็ลงเร็วจบเร็ว
  2. เริ่มมาคน like เยอะมากแล้วค่อยๆลง
  3. มีคน like เรื่อยๆ ยาวทั้งวัน
  4. คล้ายๆแบบแรกแต่ไม่พุ่งขึ้นนักแล้วก็ค่อยๆลงช้าๆ
  5. ยาวนานแล้วลงมาหน่อยแต่ก็ยังยาวต่อ
  6. มีขึ้นลงเป็นช่วงๆ

แบบที่ 3 มีช่วงชีวิตยาวนาน ซึ่งทำให้เห็นว่า Status กลุ่มอื่นๆเป็นตาม Power Law หมดยกเว้นกลุ่มที่ 3 ที่ส่งผลให้ช่วงชีวิตยาวถึงตอนปลาย

คำถามต่อมา: คนไทยใช้เฟซบุ๊กตอนกี่โมง

นักการตลาดจะเลือก prime time ในการโพสต์ โดยจากภาพจะเห็นว่าวันเสาร์เป็นวันที่ใช้กันน้อยที่สุด ยกเว้นสายการเมือง (Sociallity) จำนวน Like ที่ขึ้นเยอะคือช่วงบ่าย 4-5 และช่วง 3 ทุ่ม ที่น่าประหลาดใจคือกลุ่ม Celebrities จะขึ้นๆลงๆทั้งวันและช่วงตี 1 ก็ยังมีขึ้นอยู่ (กลุ่มอื่นจะไม่ค่อยมีกด like หลังเที่ยงคืน) ดูโดยรวมแล้วตอน 10 โมงเช้าคนไทยกด Like Facebook กันเยอะที่สุดไม่ว่าจะเป็นกลุ่มไหนก็ตาม ซึ่งจากจำนวน like ในแต่ละช่วงเวลาทำให้พอเดาพฤติกรรมคนในกลุ่มต่างๆได้

คำถาม: อยากรู้ว่า status กลุ่มที่อายุยาวนานเป็นประเภท post แบบไหน

มีการแบ่งกลุ่มแต่ละประเภทว่า status ไหนของกลุ่มไหนที่ status life ยาวนาน เช่น กลุ่ม Entertainment พบว่า status ของ วู้ดดี้เกิดมาคุยจะอยู่ยาวนานมาก กลุ่ม Sports พบว่า status ของ Liverpool FC จะอยู่ยาวนานมาก (อาจารย์บอกว่าขออภัยที่ Man U. ไม่ติดชาร์ท 555)

แต่ทั้งนี้ทั้งนั้นอาจารย์ได้บอกไว้ว่ายังไม่ได้มีการกรองพวกปั๊ม like ซึ่งอาจจะส่งผลก็ได้ ต้องทำการศึกษาต่อไป
==========================

หัวข้อที่ 2 Big Data on Wheels

โดย รศ. ดร.กุลธิดา โรจน์วิบูลย์ชัย ร่วมกับ ดร.ภาสกร ประถมบุตร จากสมาคม ITS Thailand (ITS = Intelligent Transport System)

เริ่มด้วยวิดีโอแสดงคำถามว่าจะดีมั้ยถ้าเรากะเวลาของรถเมลที่จะมาได้ จึงได้ทำการติดตั้งอุปกรณ์ที่รองรับมาตรฐาน 802.11p (มาตรฐานเครือข่ายไร้สายสำหรับยานยนต์) กับรถโดยสารภายในจุฬา เพื่อให้ยานยนต์สามารถแลกเปลี่ยนข้อมูลเมื่อวิ่งผ่านกันได้ และสร้าง Mobile Application เพื่อใช้ตรวจสอบเส้นทางรถโดยสารภายในจุฬา โดยภาควิชาร่วมกับ Denso Japan และ ITS Thailand

ในการทำ Vehicular Network (VANET) นั้นส่วนใหญ่แล้วจะเพื่อเป้าหมาย 3 ประการ

  1. Save Life
  2. Save Environment
  3. Save Time

โดยทางแล็บวิจัยได้ค่อยๆเริ่มพัฒนามาตั้งแต่ปี 2009

ปี 2009 เริ่มทำวิจัยโดยใช้ Simulation (ns-3) ทำการจำลองการส่งข้อมูล

ปี 2011 เริ่มทดลองจริงโดยใช้ computer 4 เครื่องในคณะ

ปี 2012 ใช้ computer 3 เครื่องทำงานบน Ubuntu/osx/windows และ android 2 เครื่อง เพื่อดูความเข้ากันได้

ปี 2014 ได้รับอุปรกรณ์ wireless unit จาก Denso Thailand จำนวน 7 ตัว มาติดบน shuttle bus ที่วิ่งภายในจุฬา

ปี 2015 ได้รับทุนจาก Asian Transport Research Society ได้อุปกรณ์เพิ่มเป็น 17 ตัว

ปลายปี 2015 ได้รับการสนับสนุนการ Toyota ให้ยืมรถยนต์เพื่อมาทำวิจัย โดยทดลองวิ่งในส่วนที่การจราจรหนาแน่น และส่วนที่ทางโล่ง และล่าสุดได้ทุนเพิ่มเติมจาก กสทช.

ปริมาณข้อมูลที่ทดลองเก็บมา

รถบัส 1 คัน 0.6 GB /วัน ซึ่งจากข้อมูลนี้ถ้าลองเอามาประมาณเป็น รถเมลของกรุงเทพ ประมาณ 7,923 คัน = 4.75 TB/วัน ถ้ารวม Taxi ด้วยจะประมาณ 607 PB/วัน ซึ่งจะเป็นปริมาณข้อมูลที่มหาศาลมาก

อุปกรณ์ที่ทดสอบได้ใช้​​ Sensor หลายประเภท ต่อกับ Rasberry Pi เช่น

  1. GPS ใช้ Visualization ด้วยภาษา R แสดงให้เห็นว่าช่วงไหนที่รถบัสเคลื่อนที่เร็วขนาดไหนในช่วงเวลาไหน
  2. Accelerometer ใช้ในการตรวจอบพฤติกรรมคนขับ โดยเอาค่าความเร่งในแนวแกน X (แนวนอน) เพื่อดูว่ารถคันไหนมีการเหยียบเบรกแรง คันเร่งแรงมากน้อยขนาดไหน โดยเปรียบเทียบคนขับแต่ละคนในช่วงเวลาเดียวกันบนถนนช่วงเดียวกัน
  3. Gyroscope: ดู Rotation เพื่อดูความสั่นของรถจะเห็นได้ว่าช่วงที่มีลูกระนาดก็จะเกิดการสั่นมาก โดยสามารถเอามาเช็คหลุมบ่อตามถนนได้

และที่กำลังสำคัญคือเรื่อง Privacy และ Security ของข้อมูลส่วนบุคคล

ดร.ภาสกร นำเสนอข้อมูลจาก Toyota Tsucho ซึ่งเป็นสมาชิกของ ITS Thailand เช่น ภาพแสดง heap map ของเส้นทาง ทำให้เห็นว่าบริเวณไหนรถเยอะน้อย ข้อมูลช่วงเวลารถติดในแต่ละช่วงเวลา หาความสัมพันธ์สภาพจราจรกับสภาพอากาศ เป็นต้น

โดยการเก็บข้อมูลจะใช้ Engine 2 แบบ คือ 1. Cold Data Engine นำไปทำ Traffic Simulation, Traffic-Weather Analysis โดยใช้ PIG, HIVE, MapReduce, HBase, HDFS และ 2. Hot Data Engine นำไปทำ Monitoring และ ETA (ประเมินเวลาการเดินทาง) & Real-time Traffice Prediction โดยใช้ Bolt, Spark, Storm, Kafka, Zookeeper

==========================

หัวข้อที่ 3 “Big Health”

โดย ผศ. ดร.เกริก ภิรมย์โสภา ร่วมกับ นพ. กฤษณ์ เจริญลาภ คณะแพทยศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

ข้อมูลทางการแพทย์มีทั้งข้อมูลการบันทึกคนไข้และข้อมูลจาก wearable device ต่างๆ

โดยงานนี้จะสนใจ Medical Record หรือ Clinical Data คือข้อมูลของคนไข้ทุกอย่าง เช่น ส่วนสูง น้ำหนัก ค่าผลเลือด ผลน้ำตาล ฯลฯ ที่มาจากการตรวจของแพทย์ ซึ่งจะนำไปใช้งานวิจัยต่างๆทั้งวัดประสิทธิภาพในการตรวจหรือการใช้ยาเป็นต้น

ปัญหาของระบบซอฟต์ในโรงพยาบาลคือ

  1. ซอฟต์แวร์ต่างชาติราคาสูงมาก (บางเจ้าสูงถึงระดับหลายร้อยล้านบาท)
  2. ปัญหาด้านวัฒนธรรม เช่น ปัจจุบันโรงพยาบาลส่วนใหญ่ยังเก็บข้อมูลเป็นกระดาษ และจะถูกทำลายทิ้งเมื่อเวลาผ่านไปเกิน 5 ปี ถ้าไม่แจ้งให้แสกนข้อมูลเก็บไว้ โดยที่ต่างประเทศ เช่น อิตาลี เวลาแพทย์เขียนแล้วจะมีเลขาฯนำมาพิมพ์เป็นไฟล์เก็บไว้
  3. ปัญหาเรื่อง implementation ของบริษัทไทยว่าซอฟต์แวร์ที่ทำมาแล้วไปใช้ต่อไม่ได้และไม่ได้รับการดูแลต่อ
  4. ปัญหาเรื่องการเก็บข้อมูล เพราะหมอก็จะค่อนข้างยุ่งไม่มีเวลาบันทึกข้อมูล
  5. ปัญหาเรื่องสถานที่ในการเก็บข้อมูล ส่วนใหญ่ยังคิดว่าต้องเอาข้อมูลเดินไปกรอกที่ OPD (แผนกผู้ป่วยนอก) ควรจะใช้ประโยชน์จาก mobile device ที่ติดตัวได้มากกว่านี้
  6. ปัญหาความละเอียดในการเก็บข้อมูล เก็บละเอียดภาระงานเยอะ เก็บน้อยไม่เกิดประโยชน์
  7. ปัญหาด้านอุปกรณ์ มีอุปกรณ์ที่ไม่เหมาะสมเยอะ

ทางภาควิชากับคณะแพทย์เลยร่วมกันพัฒนา Mobile Application ชื่อ Simplified Medical Record เพื่อเก็บประวัติคนไข้ง่ายๆ ใช้เสียงในการบันทึกข้อมูล (พูดภาษาไทย) ถ่ายรูปบันทึกและวงได้ หรือเลือกรูป preset ได้ ซึ่งช่วยอำนวยความสะดวกกับแพทย์ในการบันทึกประวัติคนไข้มาก

และปกติแล้วคำวินิจฉัยจะต้องมา map เข้ากับรหัสกลุ่มโรคมาตรฐาน ซึ่งจะใช้คนมาทำการ map แล้วให้หมอตรวจสอบว่า map ถูกมั้ย ในอนาคตก็จะใช้ machine learning มาช่วย map อัตโนมัติ

นอกจากนั้นได้ลองเอาคำที่คุณหมอวินิจฉัยมาตัดคำแล้วนับความถี่คำแล้วดึง 400 คำแรกที่มีความถี่มากที่สุดมาทำ word cloud แล้วลองมาแบ่งกลุ่มตามช่วยอายุ จะเริ่มเห็นว่าได้แต่ละช่วงอายุจะมีโรคต่างๆเพิ่มขึ้นมา

ถ้าเกิดมีข้อมูล location หรือข้อมูลอื่นๆเพิ่ม เราอาจวิเคราะห์ได้ถึงว่าโรคไหนกระจายอยู่ที่ไหน หรือเกิดการระบาดเริ่มมาจากที่ไหน และด้วยความสามารถการคำนวณแบบขนานทำให้ลดเวลาในการวิเคราะห์ข้อมูลจากเดิมหลายเดือนเหลือเวลาเพียงไม่กี่ชั่วโมง

ดังนั้นในยุค Data-Driven Economy ก็จะนำมาซึ่งยุค Data-Driven Healthcare

==========================
หัวข้อที่ 4 “What’s for lunch?”

โดย ผศ. ดร.ณัฐวุฒิ หนูไพโรจน์ ร่วมกับ คุณภัทราวุธ ซื่อสัตยาศิลป์ CTO จาก Wongnai.com

แพลตฟอร์มของวงใน

  1. Content ที่ผู้ใช้เป็นผู้สร้าง
  2. Location-Based Service อิงสถานที่
  3. Social Network ผู้ใช้สามารถ follow คนอื่นที่อาจมีความชอบอาหารแนวเดียวกัน
  4. Commerce สามารถซื้อดีลของร้านอาหาร

ปริมาณข้อมูลของ Wongnai มีปริมาณมาก

ปัจจุบันผู้ใช้ 2+M users, 200,000+ locations, 53M page views/month, 300,000 sessions/day, 500k+ reviews, 3M+ photos, 400k+ checkins, 1.5M+ bookmarks

ซึ่งการมีข้อมูลมากจะนำไปช่วยปรับปรุงระบบให้ตรงใจผู้ใช้มากขึ้น เช่น นำมาพัฒนาผลลัพธ์การค้นหาข้อมูลร้านอาหารในบริเวณที่เราอยู่ ค้นหาจาก keyword และค้นโดย category สถานที่ ช่วงราคา จึงต้องมาคิด factor ต่างๆ ในการจัดอันดับผลลัพธ์การค้นหา เช่น ระยะทาง rating ความน่าเชื่อถือของรีวิว ระดับความถูกต้องและสมบูรณ์ของข้อมูล จำนวนการถูก bookmark เป็นต้น

เวลาเราค้นหาข้อมูล “ร้านดีๆ” “ร้านใกล้ๆและดีๆ” “ร้านอร่อยๆ” จริงๆแล้วผลลัพธ์นั้นควรเป็น “ร้านดีๆ ที่เราน่าจะชอบ” “ร้านใกล้ๆและดีๆ ที่เราน่าจะชอบ” “ร้านอร่อยๆ ที่เราน่าจะชอบ” แม้เราจะไม่ได้บอกตรงๆ ดังนั้นถ้าเป็นคน 2 คน อยู่ที่เดียวกัน ไม่ควรได้ลำดับของผลลัพธ์เหมือนกันเพราะชอบไม่เหมือนกัน

จึงเริ่มนำ Machine Learning มาเรียนรู้พฤติกรรมและทำนายผลลัพธ์เฉพาะของแต่ละบุคคล

วิธีการที่ใช้คือ Collaborative Filtering (CF) ซึ่งเป็นกราฟว่าใครชอบอะไรหรือไม่ชอบอะไร และนำมาสร้าง matrix ว่าใครชอบไม่ชอบอะไร ซึ่งจะนำความชอบของคนอื่นที่ชอบหรือไม่ชอบอะไรคล้ายกับเรา มาทำนายกับสิ่งของที่ยังไม่มีข้อมูลความชอบของเรา

ความท้าทาย 3 ประการ

1. จะนำความรู้นี้ไปใช้กับ Wongnai ยังไง

เมื่อผู้ใช้ search จะมาที่ wongnai search engine โดยจะส่งข้อมูลไปสองทาง ทางแรกคือส่งไปเก็บเป็น user activities เพื่อไปเข้า CF Training แล้วไปสร้าง CF rating อีกที ส่วนอีกทางคือจะส่งไปที่ CF-Based Sorting ซึ่งจะไปดูค่าคะแนนจาก CF rating ที่เราได้ train ของเก่าไว้ มาทำ ranking แล้วส่งผลลัพธ์กลับไปให้ search engine เพื่อตอบกลับผู้ใช้

2. จะตีความความชอบยังไง

อันนี้เป็นโจทย์ยาก ซึ่งก็ถือว่าอยู่ในช่วงทดลองกันอยู่ โดยปัจจุบันจะมีข้อมูลแบบที่ผู้ใช้ให้ข้อมูลเอง คือ Explicit Information เช่น Rating , Review แต่ปัญหาคือคนไทยหลายคนไม่ค่อยชอบให้ความคิดเห็นเท่าไหร่ แต่ว่าก็ยังมีข้อมูลโดยนัยคือ Implicit Information เช่น Page View ที่ผู้ใช้ชอบเข้าไปดูก็ช่วยบ่งบอกได้อีกระดับนึง

3. วัดผลยังไง

ใช้ข้อมูล historical data มาทดสอบ โดยเทียบกับ ranking ผลการค้นหาของระบบเก่าและระบบใหม่ แล้วดูว่าคนคลิกจากของใหม่ที่แนะนำให้เพิ่มมากขึ้นมากน้อยขนาดไหน

แต่ CF ก็มีปัญหาว่า ถ้าเป็นร้านใหม่หรือร้านที่มีรีวิวน้อยๆ หรือ ผู้ใช้ใหม่ที่ยังไม่ค่อยมีข้อมูลการใช้งาน เลยต้องมีการใช้ CF ร่วมกับ Content-Based Filtering โดยสร้าง User Model และดู attribute ของ user ต่างๆร่วมกับ attribute ของร้านใหม่ต่างๆ

และสิ่งที่ต้องใช้เวลามากคือเรื่องการจูนนิ่งระบบให้เหมาะสม เช่น trade-off ระหว่างความแม่นยำและเวลาที่ใช้ในการประมวลผล เป็นต้น

==========================

หัวข้อที่ 5 “Platinum and Gold in Mobile Data”

โดย ผศ. ดร.วีระ เหมืองสิน ร่วมกับ ดร.ศุภเชษฐ์ เพิ่มพูนวัฒนาสุข จาก AIS

ทาง Telco (หมายถึงบริษัทด้าน Telecommunication) พยายามปรับด้านต่างๆ เช่น พยายาม optimized cell-sized โดยอาศัยจากข้อมูลผู้ใช้งาน โดยในงานที่สนใจคือการทำ dynamic profiling และ customer segmentation

ข้อมูลที่มี 40M customers, Call Detail Records (CDR) 300M records/day (ข้อมูลการโทรจากไหนไปไหน ฯลฯ), Internet Protocol Detail Records 20,000M records/day (ข้อมูลระดับลึกระดับโปรโตคอลเครือข่าย)

ซึ่งข้อมูลถูกบังคับเก็บตาม พรบ. อยู่แล้ว เลยนำข้อมูลมาใช้ประโยชน์แทนที่จะเก็บไว้เฉยๆ

ได้สร้างระบบ CDR Search เพื่อให้ operation ดึงข้อมูล CDR ขึ้นมาเพื่อตรวจสอบได้ในกรณีที่ต้องตอบคำถามลูกค้า

การ search ส่วนใหญ่ใช้ Impala ซึ่งช่วยลดเวลาการคิวรีจากเมื่อก่อนเป็นหลักวันเหลือเพียงหลักชั่วโมงทำให้ตอบคำถามลูกค้าได้เร็วขึ้นมาก

มีระบบทำ Geo-Analytics โดยเอามาใช้เรื่อง place of interest, device ที่ใช้, calling pattern เป็นต้น

โดยการนำไปใช้ประโยชน์ด้านต่างๆ เช่น

  1. นำ Location ไปทำ Location Analytics ดูแพทเทิร์นใครทำอะไรที่ไหน กับ Segment Analysis เอาแพทเทิร์นจาก location มาดู segment ของกลุ่มลูกค้า
  2. เรื่อง shape ของพื้นที่ที่เลือกก็จะต่างกันไป ฝ่าย operation อยากรู้ shape ของพื้นที่ของเสาสัญญาณ ในขณะที่ฝ่ายการตลาดอยากรู้ shape ของพื้นที่ของกลุ่มลูกค้า
  3. หากลุ่มผู้ใช้ที่จะแนะนำให้ migrate จาก 2G จาก 3G ตามกลุ่มพื้นที่เพื่อประสานกับหน่วยงานในแต่ละพื้นที่
  4. ดูปริมาณกลุ่มผู้ใช้ตามพื้นที่เพื่อนำมาพิจารณาการตั้ง shop ในแต่ละพื้นที่
  5. นำมาพิจารณาปริมาณ traffic ในพื้นที่คู่กับ customer segment เพื่อนำไปทำ dynamic advertising เพื่อโฆษณาให้ตรงกลุ่มเป้าหมายในช่วงเวลาที่เหมาะสม

การทำงานร่วมกันทางมหาวิทยาลัยห้ามเข้าถึงข้อมูลโดยตรง ข้อมูลที่ได้รับมาจะต้องถูกปกปิดตัวตนผู้ใช้ ไม่สามารถ trace กลับได้

โดยประโยชน์จาก Mobile Data นี้สามารถนำไปใช้ประโยชน์ด้านต่างๆอีกได้ เช่น

งานพยายามจำแนกกลุ่มอาชีพของลูกค้าโดยอาศัยข้อมูลการใช้งานมือถือ เช่น การโทรต่างประเทศ มีการเคลื่อนไหวมากน้อย

การค้นหา Interest ใช้ Text Analysis โดยดูว่าเนื้อหาของเว็บไซต์ที่ผู้ใช้งานเข้าเป็นกลุ่มใด และทำการจัดกลุ่มเว็บไซต์ที่เนื้อหาคล้ายกัน

การค้นหา Social Interaction ใช้ Graph Analysis โดยดูปฏิสัมพันธ์ระหว่างผู้ใช้ สามารถหา influencer ได้

การค้นหา Mobility ใช้ Spatial Analysis โดยดูเชิงสถานที่ เป็นต้น

==========================

หัวข้อที่ 6 “Big Data in Biomedicine”

โดย อ. ดร.ดวงดาว วิชาดากุล ร่วมกับ นพ. ไตรรักษ์ พิศิษฐ์กุล คณะแพทยศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

มีหลาย application ที่ได้ทำวิจัยร่วมกัน เช่น

1. หาวิธีการเลือกตำแหน่งโปรตีนให้ anti-body ไปจับ เพื่อช่วยในการรักษาโรค

นำข้อมูลโปรตีน 2.35GB มารวมกับข้อมูลโครงสร้างโปรตีน ~20GB และรวมกับข้อมูล surface database ~30GB เพื่อดูว่าควรสร้าง anti-body มาจับกับโปรตีนตำแหน่งใด

2. ข้อมูลทาง Genome (Snake Genome Project)

อยากรู้ว่าในพิษงูมีโปรตีนชนิดไหนบ้าง เพื่อมาสร้าง anti-body ที่เฉพาะเจาะจง แต่ต้องมีการศึกษา Genome ของงูก่อน

3. เชื้อราชนิดหนึ่งที่เมื่อติดมดแล้วมดจะไปตายบนยอดใบไม้ อยากรู้ว่าเชื้อราชนิดนี้สามารถนำไปประโยชน์อะไรได้มั้ย โดยนำไปเข้า Genome sequencing ด้วย De novo assembly

และมีการกล่าวถึง Human Genome Project ซึ่งดู Genome ของมนุษย์ (การเรียงกันของ DNA ACGT) มีประมาณ 3 พันล้านตัวอักษร ~ 3GB ต่อคน โดยในการวิเคราะห์ Genome มนุษย์เมื่อก่อนใช้เงิน 3,000 ล้านบาท ปัจจุบันลดเหลือประมาณ 60,000 บาทก็ทำได้แล้วด้วยความก้าวหน้าของเทคโนโลยีการประมวลผล

ตอนนี้สนใจความแตกต่างของ Genome ของคน และหาว่าโรคต่างๆมีความสัมพันธ์กับ Genome อย่างไร ถ้ามีหรือขาด Genome ลักษณะใดจะส่งผลต่อการเกิดโรคใด และจะรักษาได้อย่างไร

Precision / Personlaized medicine กำลังเป็นงานที่ทั่วโลกให้ความสนใจ​ โดยหมายถึงการนำกลไกในการค้นการรักษาที่เฉพาะเจาะจงกับแต่ละบุคคล

==========================

หัวข้อที่ 7 “Big Social Analysis, Bigger Insight the Political Rumours”

โดย อ. ดร.พีรพล เวทีกูล ร่วมกับ ผศ. ดร.พิจิตรา ซึกาโมโตะ คณะนิเทศศาสตร์

คณะนิเทศฯ ต้องการทำวิจัยดูการกระจายของข่าวลือต่างๆ ดูว่ามีกลุ่มบุคคลประเภทไหนส่งต่อข่าวลือกันบ้าง โดยดูการไหลเวียนของข้อมูลข่าวลือบน Twitter ซึ่งเมื่อก่อนแทบไม่สามารถทำวิจัยได้เลยแม้ว่าผู้เชี่ยวชาญจะมีความรู้ขนาดไหน เพราะไม่สามารถเก็บข้อมูลจำนวนมหาศาลนี้มาทำวิจัยได้

จึงร่วมกับทางภาควิชาคอมพิวเตอร์พัฒนาระบบวิเคราะห์ข้อมูลการแพร่กระจายข่าวสารบน Twitter ชื่อ "CU, Tweet" โดยนำข้อมูลมาเฉพาะ tweet ที่เปิดเป็น public เท่านั้น

ระบบจะเก็บข้อมูล realtime เข้า MongoDB แล้วใช้ kettle ของ Pentaho นำมาทำ ETL (Extract-Transform-Load) มา process ข้อมูล ทำให้ลดขนาดจาก 18GB เหลือ 2GB ได้

แอพพลิเคชั่นสามารถค้นหาได้ว่าข่าวลือในหัวข้อที่ต้องการนั้นเริ่มต้นมาจากบุคคลใด หรือกลุ่มบุคคลใด และเห็นเส้นทางการแพร่กระจายของข่าวลือ

สามารถตรวจสอบได้ว่าการแพร่กระจายนั้นเป็นแบบการ tweet ใหม่หรือเป็นการ retweet เป็นสัดส่วนเท่าใด และดูได้ว่าข่าวลือนั้นจะผ่านตาคนมาแล้วประมาณกี่คน

==========================

ก็นับว่าเป็นงานสัมมนาที่น่าสนใจมากที่ได้เห็นการร่วมวิจัยระหว่างภาคการศึกษาและภาคอุตสาหกรรม ถ้าใครสนใจเพิ่มเติม ทางภาควิชาได้ทำการบันทึกวิดีโอไว้ ลองติดตามทางเว็บไซต์ของภาควิชาวิศวกรรมคอมพิวเตอร์ จุฬาลงกรณ์มหาวิทยาลัยได้ครับ