How to Lie With Statistics - วิธีปั่นหัวคนด้วยสถิติ

How to Lie With Statistics - วิธีปั่นหัวคนด้วยสถิติ

How to Lie With Statistics - วิธีปั่นหัวคนด้วยสถิติ

สถิติ ตัวเลข กราฟ แผนภูมิ ผมที่เป็นโปรแกรมเมอร์มักจะเจอบ่อยๆ เพราะเราต้องเอามาดูประสิทธิภาพของ แบบเร็วขึ้นกี่ % เร็วกว่าเดิมเท่าไหร่กี่วิ หรือมีกราฟเปรียบเทียบระหว่าง Tools ตัวนึง กับ Tools อีกตัวนึงให้เห็นว่าเขาดีกว่าเร็วกว่า พอได้เห็นหนังสือเล่มนี้ก็เกิดความสนใจว่า คนเราจะถูกปั่นหัวด้วยสถิติได้ยังไง ในเมื่อสถิตินั้นผ่านการคิดคำนวณจากแหล่งข้อมูลมาแล้ว เหตุใดมันจึงเอามาปั่นหัวคนได้ ก็เลยยืมจากห้องสมุดที่ TK Park มาอ่าน

แค่ค่าเฉลี่ยก็หลอกกันได้

ตอนอ่านแรกๆก็ เฮ้ย ค่าเฉลี่ยมันจะหลอกอะไรเราได้วะ แต่พอเขายกตัวอย่างเรื่อง ค่าเฉลี่ยนรายได้ของพนักงานในบริษัทที่ รายได้อยู่ที่ 20000 ดอลล่าห์ต่อปี คำตอบตรงนี้มันดีครับ แต่ปัญหาคือ ค่าเฉลี่ยที่เขาว่าเนี่ยมันคือค่าเฉลี่ยใด เพราะค่าเฉลี่ยนี่มี 3 ตัวคือ ค่าเฉลี่ยเลขคณิต(ค่าเฉลี่ยที่เราเข้าใจเนี่ยแหละ), ค่ามัธยฐาน(ค่ากลางคือค่าที่อยู่ตรงกลางของค่าทั้งหมดเมื่อเอามาเรียง), ค่าฐานนิยม(ค่าที่ซ้ำกันเยอะที่สุดในกลุ่ม) แต่ล่ะค่าเหล่านี้บอกข้อมูลคนล่ะอย่าง ตัวอย่างกลุ่มข้อมูลประมาณนี้

1
2
3
4
5
10
10
12
15
1000

จะได้ค่าเฉลี่ย 3 อย่างดังนี้

  • ค่าฐานนิยม : 10
  • ค่ามัธยฐาน : 12
  • ค่าเฉลี่ยเลขคณิต : 209.4

ถ้าสมมุติเปลี่ยนค่าพวกนี้เป็นค่าขนมต่อวันของเด็กนักเรียน ป.1 ถ้าคุณเอาค่าเฉลี่ยเลขคณิตไปบอกใครสักที่บอกว่า ค่าเฉลี่ยของเด็กนักเรียน ป.1 อยู่ที่ 209.4 บาท และทำให้ผมคิดว่า โอ้โห คุณพระเด็กสมัยนี้ได้เงินค่าขนมเยอะเหลือเกิน ซึ่งนั่นคือสิ่งที่ทำให้ผมเข้าใจผิดไปละ เพราะถ้าไปข้อมูลทั้งหมดจะเห็นว่ามันมีเด็กคนนึงได้เงิน 1000 ซึ่งทำให้ค่าเฉลี่ยมันดูสูงขึ้นแบบเกินไป ซึ่งถ้าเรามาดูค่าพวกฐานนิยมประกอบจะเห็นว่าค่าที่โผล่บ่อยที่สุดคือ 10 ต่างหาก เด็กส่วนใหญ่ได้เงินไปโรงเรียน 10 บาท แต่ฐานนิยมก็มีจุดอ่อนตรงที่มันบอกตัวที่ซ้ำมากสุด ส่วนมัธยฐานก็บอกแค่ค่าที่อยู่ตรงกลาง ดังนั้นจะเห็นว่าการดูแค่พวกค่าเฉลี่ยนั้นมันไม่พอครับ มันต้องดูค่าอื่นๆด้วย ไม่ว่าจะเป็นค่าสูงสุด ต่ำสุด ค่าความเบี่ยงเบน และอื่นๆ เรื่องนี้ทำให้ผมตระหนักได้ว่า การได้ยินเรื่องพวกค่าเฉลี่ยๆต่างเนี่ย ผมควรจะต้องไปหาดูค่าอื่นๆว่ามันมีค่าเฉลี่ยอะไร มีค่าอื่นให้ดูไหม และชุดข้อมูลที่ได้มานั้นได้มาอย่างไรเป็นกลางไหม

การเลือกกลุ่มตัวอย่างที่ไม่เป็นกลาง

สถิติหลายๆสถิติที่เราได้ยินมาส่วนใหญ่จะเก็บจากกลุ่มตัวอย่าง น้อยมากที่จะเก็บจากข้อมูลทั้งหมด (สมัยนี้อาจทำได้แล้วเพราะเทคโนโลยีมันถึง) พอมันมาจากกลุ่มตัวอย่างเราจะรู้ได้ยังไงว่ามันกลุ่มตัวอย่างที่ได้มามันแทนคนทั้งหมดได้ใช่ไหม หนังสือยกตัวอย่างถ้าใส่ถั่วสองสีผสมกันลงไปในอัตราส่วน 1 ต่อ 1 ไปในถัง คำถามคือถ้าเราไม่รู้ว่าอัตราส่วนมันคือเท่าไหร่เราจะทำยังไง วิธีที่ดีทีสุดคือนับทีละเม็ดแล้วเอามาหารกันหาอัตราส่วน แต่มันทรัพยากรในการทำสูงมาก ในที่นี้คือเวลานั่งการนั่งนับ ถ้าขี้เกียจนับเองก็ต้องจ้างคนมานับ สุดท้ายเราจะได้จำนวนอัตราส่วนที่แม่นยำ ดังนั้นสุ่มเอามาเลยดีกว่า เอามือกำลงไปในกองถั่วที่ผสมกัน ก็จะไออัตราส่วนคร่าวๆ ซึ่งถ้าคนไปกำถั่วเนี่ยเป็นกลาง เขาจะพยายามกำแบบสุ่ม ไม่เลือก ซึ่งก็จะได้อัตราส่วนคร่าวๆ แต่ถ้าผลลัพธ์เนี่ยมันมีบางอย่างมาเกี่ยวข้องเช่น ถ้าอัตราส่วนของถั่วแดงมากกว่าแล้วคนที่ทำหน้าที่ไปกำถั่วมาหาอัตราส่วนจะได้เงินเพิ่ม คนที่ทำหน้าที่กำถั่วก็ย่อมจะเลือกจุดที่มีถั่วสีแดงเยอะๆ เพื่อให้ได้ผลไปในทางที่ต้องการ นี่แหละครับตัวอย่างการพยายามเลือกกลุ่มตัวอย่างที่ไม่เป็นกลาง ซึ่งจากตัวอย่างที่พูดไปอันนี้คือการจงใจทำเพื่อหวังประโยชน์ เราเจอมาเยอะแล้วในประเทศเรา ตัวอย่างเช่น การทำ Poll ถามว่านายกทำงานดีไหม แล้วผลออกว่าคนจำนวน 90% บอกว่านายกเป็น คำถามคือมันถูกต้องไหม ก็คงต้องบอกว่าถูกต้องครับ แต่คำถามถัดไปที่เราต้องถามคือ กลุ่มตัวอย่างคือใคร กลุ่มตัวอย่างอยู่ที่ไหน จำนวนคนคือเท่าไหร่ ซึ่งถ้าเราได้คำตอบ เราจะรู้เลยว่า Poll นั้นมันไร้สาระมากแค่ไหน

แต่หนังสือก็บอกว่าการเลือกกลุ่มตัวอย่างที่ไม่เป็นกลางเนี่ยไม่ได้มีแต่แบบจงใจอย่างเดียว มันมีทั้งแบบไม่ได้ตั้งใจเพราะคิดไม่ถึงเช่น ไปเลือกกลุ่มตัวอย่างในเมืองเวลาทำงานปกติ ซึ่งมันเอนเอียงเพราะขาดคนที่ทำงานในเวลาที่ไม่ปกติ เช่น กะกลางคืนเป็นต้น

อ่านแล้วได้อะไร

สำหรับหนังสือเล่มอ่านแล้วได้เห็นมุมมองการเอาสถิติมาใช้ในทางที่ผิดได้แบบที่ผมไม่คิดว่าเขาจะทำกัน ตัวอย่างเช่น หลอกกันด้วยค่าเฉลี่ยที่เอาคนที่มีรายได้สูงๆมาดึงค่าเฉลี่ยให้เห็นว่าโดยรวมคนแถบนั้นเป็นคนมีฐานะ ซึ่งจริงๆคนส่วนใหญ่แถวนั้นมีรายได้ไม่ดีกันส่วนใหญ่ (นักการเมืองนั้นชอบทำ) การเลือกกลุ่มตัวอย่างที่ไม่เป็นกลาง การใช้ผลการทดลองจากกลุ่มตัวอย่างที่เล็กเกินไป เพื่อให้ได้ผลการทดลองที่มหัศจรรย์ (ถ้ากลุ่มการทดลองเล็กมาก ไม่กระจาย ก็จะได้ผลการที่สุดขอบออกมา เช่น ยาฆ่าเชื้อได้ 99% จากกลุ่มการทดลองเชื้อ 5 ถาด ซึ่ง 5 ถาดนั้นอาจจะเป็นเชื้อชนิดเดียวกันหมด มันเลยตายเพราะยาตัวนี้เกือบทั้งหมด) และเอาไปใช้เป็นโฆษณา ซึ่งตัวคนโฆษณาก็ไม่ได้บอกการทดลองอื่นๆซึ่งมันอาจจะมีที่ออกมาเป็นกลางๆหรือแย่ก็ได้ ซึ่งพอเราได้อ่านหนังสือเล่มนี้ทำให้เราตระหนักรู้ว่าข้อมูลสถิติต่างๆที่เขาทำให้เราเห็นเนี่ยเขาจงใจทำขึ้นมาเพื่อชี้นำเราบางอย่าง เราต้องคิดตามในหลายๆเรื่อง ไม่ว่าเป็น ข้อมูลมาจากที่ไหน กลุ่มตัวอย่างเลือกยังไง เป็นกลางรึเปล่า เขาต้องการอะไรจากสถิติ เมื่อเราตั้งคำถามพวกนี้ ตามหาข้อมูลที่หายไป เราอาจจะได้รู้ว่าจริงๆแล้วสถิตินี้น่าเชื่อถือหรือไม่ หรือมันเป็นสถิติที่ออกมาเพื่อผลประโยชน์อะไร

ก็ตามธรรมเนียมที่ผมจะไม่ได้บอกข้อดีอย่างเดียว ข้อเสียของหนังสือเล่มนี้คือมันเก่ามากและตัวอย่างที่ยกตัวอย่างให้ดูเป็นข้อมูลเกี่ยวกับอเมริกาซะส่วนใหญ่ (ไม่แปลกเพราะเขาตีพิมพ์ขายในสมัยก่อน ขายเฉพาะคนในประเทศก็ลำบากแย่แล้ว) ทำให้เราไม่ค่อยเข้าใจว่าตัวอย่างพวกนี้มันคืออะไร มีอิทธิพลกับสังคมเยอะขนาดนั้นเลยเหรอ ก็เลยทำให้เราไม่ค่อยเข้าใจถึงผลกระทบนั้นสักเท่าไหร่

สำหรับเล่มนี้ผมแนะนำให้อ่านเลยครับ ในปัจจุบันเราอาจหลุดพ้นจากเรื่องงมงายพวกภูติผีปิศาจ แต่เราอาจจะยังหนีไม่พ้นการหลงงมงายไปกับสถิติที่ถูกสร้างมาหลอกเราให้หลงงมงายไปตามสิ่งที่เขาต้องการ