บทเรียนที่ 7: การวิเคราะห์ข้อมูลด้วย Python
บทนำ
ในบทเรียนนี้ คุณจะได้เรียนรู้วิธีการวิเคราะห์ข้อมูลด้วยภาษา Python โดยใช้ไลบรารีต่างๆ เช่น Pandas, NumPy และ Matplotlib เพื่อช่วยในการ จัดการข้อมูลและสร้างกราฟแสดงผลข้อมูลอย่างมีประสิทธิภาพ
หัวข้อที่ครอบคลุม
- การติดตั้งและใช้งานไลบรารี Pandas, NumPy และ Matplotlib
- การนำเข้าข้อมูลและการจัดการข้อมูลเบื้องต้น
- การวิเคราะห์ข้อมูลเชิงสถิติ
- การสร้างกราฟและการแสดงผลข้อมูล
- การประยุกต์ใช้การวิเคราะห์ข้อมูลในโปรเจกต์จริง
ตัวอย่างโค้ด
import pandas as pd
import matplotlib.pyplot as plt
# นำเข้าข้อมูลจากไฟล์ CSV
data = pd.read_csv('data.csv')
# แสดงข้อมูลสถิติพื้นฐาน
print(data.describe())
# สร้างกราฟแท่งแสดงข้อมูล
data['column_name'].value_counts().plot(kind='bar')
plt.show()
การติดตั้งไลบรารี
ก่อนเริ่มต้นใช้งานไลบรารีต่างๆ คุณต้องติดตั้งผ่านคำสั่ง pip ดังนี้:
pip install pandas numpy matplotlib
การจัดการข้อมูลเบื้องต้น
คุณสามารถใช้ Pandas ในการอ่านไฟล์ข้อมูล เช่น CSV และจัดการข้อมูลได้ง่าย เช่น การกรองข้อมูล การจัดเรียง และการรวมข้อมูล
import pandas as pd
data = pd.read_csv('data.csv')
filtered_data = data[data['column_name'] > 100]
sorted_data = data.sort_values('column_name')
การวิเคราะห์ข้อมูลเชิงสถิติ
Pandas และ NumPy ช่วยให้คุณสามารถคำนวณสถิติต่างๆ เช่น ค่าเฉลี่ย ค่ามัธยฐาน ส่วนเบี่ยงเบนมาตรฐาน และการแจกแจงความถี่
mean_value = data['column_name'].mean()
median_value = data['column_name'].median()
std_dev = data['column_name'].std()
การสร้างกราฟและการแสดงผลข้อมูล
Matplotlib ช่วยให้คุณสร้างกราฟประเภทต่างๆ เช่น กราฟแท่ง กราฟเส้น และกราฟวงกลม เพื่อแสดงผลข้อมูลอย่างชัดเจน
import matplotlib.pyplot as plt
data['column_name'].value_counts().plot(kind='bar')
plt.title('จำนวนข้อมูลในแต่ละประเภท')
plt.xlabel('ประเภท')
plt.ylabel('จำนวน')
plt.show()
แหล่งข้อมูลเพิ่มเติม
สรุป
การวิเคราะห์ข้อมูลด้วย Python เป็นทักษะที่สำคัญสำหรับนักพัฒนาและนักวิเคราะห์ข้อมูล ซึ่งช่วยให้สามารถเข้าใจและนำข้อมูลไปใช้ประโยชน์ได้อย่างมีประสิทธิภาพ ขอให้สนุกกับการเรียนรู้และทดลองใช้งานไลบรารีต่างๆ เหล่านี้