California Housing Dataset обзор легендарного набора данных для машинного обучения

California Housing Dataset — это один из самых популярных учебных и исследовательских наборов данных в мире машинного обучения. Он содержит информацию о жилой недвижимости в Калифорнии, собранную на основе переписи населения США 1990 года. Несмотря на свой возраст, этот датасет до сих пор остаётся эталонным инструментом для демонстрации алгоритмов регрессии, проверки моделей и обучения начинающих специалистов по анализу данных. Набор данных был впервые представлен в статье Пейса и Барри в 1997 году и с тех пор прочно вошёл в стандартный инструментарий библиотек scikit-learn и TensorFlow. Загрузить его можно буквально одной строкой кода, что делает его особенно удобным для быстрых экспериментов и образовательных целей. В нём содержится около 20 640 наблюдений, каждое из которых соответствует определённому географическому блоку Калифорнии, а не отдельному дому. Это важная деталь, которую часто упускают новички при интерпретации результатов. Структура датасета включает восемь признаков и одну целевую переменную. Среди признаков — медианный доход жителей блока, средний возраст жилых зданий, среднее количество комнат и спален на дом, численность населения, количество домохозяйств, а также географические координаты в виде широты и долготы. Целевой переменной выступает медианная стоимость дома в данном блоке, выраженная в сотнях тысяч долларов. Такое сочетание численных и пространственных признаков делает датасет идеальной площадкой для отработки самых разных подходов — от линейной регрессии до градиентного бустинга и нейронных сетей. Особую популярность California Housing Dataset приобрёл благодаря книге Орельена Жерона «Hands-On Machine Learning with Scikit-Learn, Keras and TensorFlow». В ней автор использует этот набор данных в качестве сквозного примера, проходящего через все этапы работы — от исследовательского анализа и визуализации до подбора гиперпараметров и развёртывания модели. Многие специалисты признаются, что именно с этого датасета началось их знакомство с реальными задачами машинного обучения. Однако у набора данных есть и заметные ограничения. Информация была собрана более тридцати лет назад и совершенно не отражает современную ситуацию на рынке недвижимости Калифорнии, где цены выросли в разы. Кроме того, целевая переменная искусственно ограничена сверху значением около 500 тысяч долларов, что создаёт характерную «полосу» на графиках и может искажать предсказания. Распределение признаков также неравномерно, а географическая привязка требует осторожной работы с пространственными зависимостями.