#dmia_industry
Домашнее задание. Срок выполнения - рандомный момент с 00:00 субботы до 00:00 воскресенья
- Сделать свою реализацию SVM. Чекер появится на неделе.
https://github.com/vkantor/data_mining_in_action_2017/blob/master/industry/hw3/my_svm.ipynb
- Поиграться с параметрами CountVectorizer, TfIdfTransformer, LogisticRegression. Нужно будет прислать оптимальные параметры. Чекер появится на неделе.
https://github.com/vkantor/data_mining_in_action_2017/blob/master/industry/seminar3/TextClassification.ipynb
- Практический кейс.
Вы будете заниматься распределением бюджета телевизионной рекламной кампании. Рекламная кампания рассчитана на какую-то целевую аудиторию (ЦА). Бюджет рекламной кампании распределяется по 15 телеканалам, покупка рекламы на каждом телеканале происходит независимо. Вы не можете покупать рекламу в фиксированный час (только плавающие размещения, то есть чем больше вы заплатите, тем чаще ваш ролик будут показывать, время показа более менее равномерно в течение суток распределено). Успешность рекламного ролика опредляет величиной "Охват k+" - сколько человек посмотрели ролик k и более раз
Существует магическое агентство (TNS, если интересно погуглите). Они предоставляют отчёт о проведённых кампаниях. В итоге вы знаете:
1-ая вариация мира) для каждой кампании финальный охват по каждой ЦА и её размеры на момент запуска кампании
2-ая вариация мира) для каждой кампании и каждого телеканала финальный охват по каждой ЦА и её размеры на момент запуска кампании в рамках данного канала
Вам предоставили данные о рекламных кампаниях:
1-ая вариация мира) одной компании (примерно 25 кампаний)
2-ая вариация мира) кучи компаний (примерно 10000 кампаний)
От вас хотят оптимизации охвата в заданной ЦА, при этом охваты в нецелевых аудиториях не должны быть большими (тут надо подумать, как можно переформулировать)
Ваша модель будет применяться так: есть изначальный план бюджета кампании, вы можете изменить бюждет каждого телеканала на +-5%
Задачу нужно решить для всех 4 вариантов комбнаций вариантов мира