Модуль III·Статья II·~6 мин чтения
SPSS: типы данных и работа с переменными
Введение в количественное исследование
Превратить статью в подкаст
Выберите голоса, формат и длину — AI запишет аудио
SPSS: типы данных и работа с переменными
Интерфейс SPSS
IBM SPSS Statistics — одна из наиболее распространённых программ для статистического анализа данных в социальных и бизнес-науках. После запуска программы вы работаете в окне Редактора данных (Data Editor), которое имеет два режима просмотра:
Data View (Представление данных)
Это основная таблица для ввода и просмотра данных. Она напоминает электронную таблицу Excel:
- Столбцы представляют переменные (например, «Возраст», «Пол», «Доход»)
- Строки представляют наблюдения (респонденты, компании, случаи)
- Каждая ячейка содержит одно значение для конкретной переменной конкретного наблюдения
Variable View (Представление переменных)
Это режим настройки переменных. Здесь каждая строка соответствует одной переменной, а столбцы определяют её свойства. Переключение между режимами осуществляется вкладками внизу окна.
Типы данных: категориальные и числовые
Все данные в исследованиях делятся на две большие группы:
Категориальные данные
Номинальные (Nominal) — категории без естественного порядка.
- Примеры: пол (1 = мужской, 2 = женский), город проживания, отрасль компании
- В SPSS: Measure = Nominal
Порядковые (Ordinal) — категории с определённым порядком, но без равных интервалов между ними.
- Примеры: уровень образования (1 = среднее, 2 = бакалавр, 3 = магистр, 4 = PhD), шкала Лайкерта
- В SPSS: Measure = Ordinal
Числовые (количественные) данные
Интервальные (Interval) — числовые данные с равными интервалами, но без абсолютного нуля.
- Примеры: температура в Цельсиях, год рождения, оценка IQ
- В SPSS: Measure = Scale
Данные отношений (Ratio) — числовые данные с абсолютным нулём.
- Примеры: возраст, доход, количество сотрудников, стаж работы в годах
- В SPSS: Measure = Scale (SPSS не различает интервальные и данные отношений)
Настройка переменных в Variable View
Каждая переменная в SPSS имеет десять свойств, которые настраиваются в Variable View:
| Свойство | Описание | Пример |
|---|---|---|
| Name | Краткое имя переменной (без пробелов, до 64 символов) | vozrast, pol, dohod |
| Type | Тип данных: Numeric, String, Date и др. | Numeric для числовых данных |
| Width | Максимальное количество символов | 8 |
| Decimals | Количество знаков после запятой | 0 для целых чисел, 2 для дробных |
| Label | Полное описание переменной (отображается в таблицах) | «Возраст респондента» |
| Values | Метки значений для кодированных переменных | 1 = «Мужской», 2 = «Женский» |
| Missing | Определение пропущенных значений | 99 = пропущенное значение |
| Columns | Ширина столбца в Data View | 8 |
| Align | Выравнивание данных в ячейке | Right для числовых |
| Measure | Уровень измерения | Nominal, Ordinal или Scale |
Пошаговый пример настройки переменной «Пол»:
- Перейдите в Variable View
- В строке новой переменной введите Name: pol
- Type: Numeric
- Width: 1, Decimals: 0
- Label: Пол респондента
- Values: нажмите «...» → добавьте 1 = «Мужской», 2 = «Женский» → OK
- Missing: по необходимости (например, 9 = не указано)
- Measure: Nominal
Ввод и импорт данных
Ручной ввод данных
- Настройте все переменные в Variable View
- Перейдите в Data View
- Вводите значения в соответствующие ячейки построчно (каждая строка = один респондент)
Импорт данных из Excel
- File → Open → Data (или File → Import Data)
- Выберите тип файла: Excel (*.xlsx)
- Найдите и откройте файл
- В диалоговом окне установите флажок «Read variable names from the first row of data», если первая строка содержит названия переменных
- Нажмите OK — данные будут загружены в SPSS
Импорт данных из CSV
- File → Read Text Data
- Выберите файл .csv
- Следуйте пошаговому мастеру (Text Import Wizard), указав разделитель (запятая, точка с запятой), формат данных и наличие заголовков
Кодирование категориальных переменных
Категориальные переменные в SPSS хранятся в числовом виде с присвоенными метками значений (Value Labels).
Пример кодирования переменной «Уровень образования»:
- 1 = Среднее
- 2 = Бакалавриат
- 3 = Магистратура
- 4 = Докторантура (PhD)
Для настройки: в Variable View нажмите ячейку Values → откроется диалог → введите числовой код и текстовую метку для каждого значения → нажмите Add → OK.
После кодирования в Data View можно переключаться между отображением кодов (1, 2, 3, 4) и меток (Среднее, Бакалавриат...) через View → Value Labels или кнопку на панели инструментов.
Перекодировка переменных (Recode)
Перекодировка позволяет изменить значения переменной — например, объединить категории или преобразовать непрерывную переменную в категориальную.
Recode into Same Variables (Перекодировка в ту же переменную)
Исходные данные заменяются новыми значениями.
- Transform → Recode into Same Variables
- Выберите переменную → нажмите Old and New Values
- Укажите старые и новые значения → Add → Continue → OK
Recode into Different Variables (Перекодировка в новую переменную)
Создаётся новая переменная с перекодированными значениями — исходные данные сохраняются. Этот метод рекомендуется, так как позволяет сохранить оригинальные данные.
- Transform → Recode into Different Variables
- Выберите исходную переменную → задайте имя и метку новой переменной → Change
- Нажмите Old and New Values → задайте соответствия → OK
Практический пример: Перекодировка возраста в возрастные группы:
- 18–25 → 1 (Молодые)
- 26–40 → 2 (Средний возраст)
- 41–60 → 3 (Старший возраст)
- 61+ → 4 (Пожилые)
В диалоге Old and New Values используйте Range для задания диапазонов.
Вычисление новых переменных (Compute Variable)
Функция Compute Variable позволяет создавать новые переменные на основе арифметических выражений или встроенных функций.
- Transform → Compute Variable
- В поле Target Variable введите имя новой переменной
- В поле Numeric Expression введите формулу
Примеры формул:
- Суммарный балл:
total_score = q1 + q2 + q3 + q4 + q5 - Средний балл:
mean_score = MEAN(q1, q2, q3, q4, q5) - Логарифм дохода:
log_income = LN(income) - Индекс удовлетворённости:
sat_index = (sat1 + sat2 + sat3) / 3
Функция MEAN() в SPSS игнорирует пропущенные значения, в отличие от простого сложения и деления, что делает её предпочтительной для работы с данными анкетных опросов.
Практические задания
Задание 1
Вопрос: Вы проводите исследование удовлетворённости сотрудников. Настройте в SPSS следующие переменные: ID сотрудника, возраст, пол, отдел (продажи, маркетинг, IT, HR), стаж работы (в годах), удовлетворённость работой (шкала 1–5).
Решение:
| Name | Type | Label | Values | Measure |
|---|---|---|---|---|
| id | Numeric | ID сотрудника | — | Scale |
| vozrast | Numeric | Возраст | — | Scale |
| pol | Numeric | Пол | 1=Мужской, 2=Женский | Nominal |
| otdel | Numeric | Отдел | 1=Продажи, 2=Маркетинг, 3=IT, 4=HR | Nominal |
| stazh | Numeric | Стаж работы (лет) | — | Scale |
| udovl | Numeric | Удовлетворённость работой | 1=Очень низкая...5=Очень высокая | Ordinal |
Задание 2
Вопрос: Создайте новую переменную «Возрастная группа» путём перекодировки переменной «vozrast»: до 30 лет = «Молодой», 30–45 = «Средний», старше 45 = «Старший». Какой метод перекодировки следует использовать и почему?
Решение: Следует использовать Recode into Different Variables, чтобы сохранить исходную переменную «vozrast». Шаги:
- Transform → Recode into Different Variables
- Переместите «vozrast» в список → введите имя новой переменной: vozr_group, метка: «Возрастная группа» → Change
- Old and New Values:
- Range: Lowest through 29 → 1 → Add
- Range: 30 through 45 → 2 → Add
- Range: 46 through Highest → 3 → Add
- Continue → OK
- Затем в Variable View задайте Value Labels: 1 = Молодой, 2 = Средний, 3 = Старший, и Measure = Ordinal
Задание 3
Вопрос: У вас есть 5 вопросов удовлетворённости (q1–q5) по шкале 1–5. Вычислите средний балл удовлетворённости. Напишите формулу для Compute Variable.
Решение: В Transform → Compute Variable:
- Target Variable: mean_satisfaction
- Label: «Средний балл удовлетворённости»
- Numeric Expression: MEAN(q1, q2, q3, q4, q5)
Использование функции MEAN() вместо (q1+q2+q3+q4+q5)/5 предпочтительнее, так как MEAN() корректно обрабатывает пропущенные значения, вычисляя среднее по имеющимся ответам.
§ Акт · что дальше