Основи інженерії штучного інтелекту 10-11 класи

9. Збір даних

9.2. Розвідувальний аналіз

Розвідувальний аналіз даних (англ. Exploratory data analysis) - це перший важливий крок у роботі з даними. На цьому етапі ми вивчаємо основні характеристики наших даних, щоб краще зрозуміти їх природу. Це як перше знайомство з новим набором інформації - ми розглядаємо його з різних сторін, шукаємо цікаві закономірності та незвичні випадки. Для цього використовуємо різні інструменти візуалізації - графіки, діаграми, гістограми, а також статистичні методи.

Почнемо з найпростішого - подивимось на самі дані в табличному вигляді. У програмі Orange для цього є зручний інструмент під назвою Data Table.


Наступний крок - дізнатися більше про кожну колонку даних за допомогою статистичних показників. Для цього в Orange використовуємо інструмент Feature Statistics.


Дуже важливо також зрозуміти, як різні показники пов'язані між собою. Це можна побачити за допомогою інструменту Correlation в Orange.


Кореляція показує, наскільки сильно пов'язані між собою дві змінні. Якщо кореляція близька до 1 - змінні мають сильний прямий зв'язок, якщо до 0 - зв'язку практично немає.

Розглянемо простий приклад: уявіть, що ми аналізуємо дані про продажі морозива протягом року. Якщо порівняти продажі з температурою повітря, ми побачимо сильну кореляцію - чим тепліше надворі, тим більше купують морозива. А от якщо порівняти продажі морозива з, наприклад, цінами на бензин - кореляція буде близька до нуля, бо ці показники ніяк не пов'язані між собою.

Orange також пропонує зручні інструменти для візуалізації даних. Наприклад, Scatter plot (точкова діаграма) допомагає наочно побачити зв'язок між двома показниками, а Box plot (діаграма розмаху) показує, як розподілені значення в наших даних. Ці візуалізації роблять аналіз більш зрозумілим та інтуїтивним.