#dmia_industry Домашнее задание. Срок выполнения - рандомный момент с 00:00 субботы до 00:00 воскресенья - Сделать свою реализацию SVM. Чекер появится на неделе. https://github.com/vkantor/data_mining_in_action_2017/blob/master/industry/hw3/my_svm.ipynb - Поиграться с параметрами CountVectorizer, TfIdfTransformer, LogisticRegression. Нужно будет прислать оптимальные параметры. Чекер появится на неделе. https://github.com/vkantor/data_mining_in_action_2017/blob/master/industry/seminar3/TextClassification.ipynb - Практический кейс. Вы будете заниматься распределением бюджета телевизионной рекламной кампании. Рекламная кампания рассчитана на какую-то целевую аудиторию (ЦА). Бюджет рекламной кампании распределяется по 15 телеканалам, покупка рекламы на каждом телеканале происходит независимо. Вы не можете покупать рекламу в фиксированный час (только плавающие размещения, то есть чем больше вы заплатите, тем чаще ваш ролик будут показывать, время показа более менее равномерно в течение суток распределено). Успешность рекламного ролика опредляет величиной "Охват k+" - сколько человек посмотрели ролик k и более раз Существует магическое агентство (TNS, если интересно погуглите). Они предоставляют отчёт о проведённых кампаниях. В итоге вы знаете: 1-ая вариация мира) для каждой кампании финальный охват по каждой ЦА и её размеры на момент запуска кампании 2-ая вариация мира) для каждой кампании и каждого телеканала финальный охват по каждой ЦА и её размеры на момент запуска кампании в рамках данного канала Вам предоставили данные о рекламных кампаниях: 1-ая вариация мира) одной компании (примерно 25 кампаний) 2-ая вариация мира) кучи компаний (примерно 10000 кампаний) От вас хотят оптимизации охвата в заданной ЦА, при этом охваты в нецелевых аудиториях не должны быть большими (тут надо подумать, как можно переформулировать) Ваша модель будет применяться так: есть изначальный план бюджета кампании, вы можете изменить бюждет каждого телеканала на +-5% Задачу нужно решить для всех 4 вариантов комбнаций вариантов мира