网站建设 >

查看其它板块

点击率模型AUC

一背景

首先举个例子：

创新互联建站坚持“要么做到，要么别承诺”的工作理念，服务领域包括：成都做网站、网站制作、企业官网、英文网站、手机端网站、网站推广等服务，满足客户于互联网时代的商洛网站设计、移动媒体设计的需求，帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴！

正样本（90）负样本（10）

模型1预测正（90）正（10）

模型2预测正（70）负（20）正（5）负（5）

结论：

模型1准确率90%；

模型2 准确率75%

考虑对正负样本对预测能力，显然模型2要比模型1好，但对于这种正负样本分布不平衡对数据，准确率不能衡量分类器对好坏了，所以需要指标auc解决倾斜样本的评价问题。

二分类混淆矩阵

预测\实际 1 0

1 TP FP

0 FN TN

TPR＝TP／P＝TP／TP＋FN 直观1中猜对多少

FPR＝FP／N＝FP／FP＋TN 直观0中猜错多少

Auc对横纵坐标分别为FPR和TPR，相对于y=x这条直线靠近左上角对分类器性能更好，所以模型2更优。

TPR FPR

模型1 90/90＝1 10/10=1

模型2 70/90=0.78 5/10=0.5

模型1和2的auc点位分别如下图所示，显然模型1更优：

点击率模型AUC

二研究现状

AUC直观概念，任意取一对正负样本，正样本score大于负样本对概率。

计算方法：正样本和负样本pair对，auc＝预估正样本score大于负样本score的pair对数／总的pair对数。

E.g. 分别计算模型1和2对auc？

四个样本label为y1=+1, y2=+1, y3=-1, y4=-1

模型1的预测为 y1=0.9, y2=0.5, y3=0.2, y4=0.6

模型2的预测为 y1=0.1, y2=0.9, y3=0.8, y4=0.2

解：

模型1：正样本score大于负样本的pair包括(y1, y3), (y1, y4), (y2, y3)，auc为3/4=0.75

模型2：正样本score大于负样本的pair包括(y2, y3),(y2, y4)，auc为2/4=0.5

计算参考paper：《 An introduction to ROC analysis 》（Tom Fawcett）

方法：

1按照score对样本排序；

2依次对每个样本，label分对TP增1，否则FP增1。计算每个小梯形的面积。

3累加所有样本，计算auc

代码：

点击率模型AUC

= sorted(range(len(probs)),key=lambda i: probs[i], reverse== = = = = = = = probs[i_sorted[]] + 
                                        
     i  last_prob !=+= (TP+TP_pre) * (FP-FP_pre) / === labels[i_sorted[i]] == = TP + 
        = FP + += (TP+TP_pre) * (FP-FP_pre) / = auc_temp / (TP *=== line = line.strip().split(= (line[= (line[ len(sys.argv) != = read_file(sys.argv[= % __name__==

点击率模型AUC

三点击率模型auc计算方法

如上图，以两个分桶为例，每个分桶计算的AUC为图中的阴影部分。全局AUC部分需要补充P3部分的面积，等于前i-1个桶的sum(click)乘以每i个桶的noclick。

整体的AUC就是曲线下的面积除以曲线的起点、终点锚定矩型的面积。

步骤

1按照pctr聚合 sum_show和sum_clk;

2样本按照pctr排序；

3依次对每个样本，计算noclk和clk围成对小梯形对面积。

代码：

点击率模型AUC

import sys

#init auc dict
params_auc_dict = {"last_ctr":1.1, "slot_show_sum":0, "slot_click_sum":0, \                     "auc_temp":0.0, "click_sum":0.0, "old_click_sum":0.0, "no_click":0.0, \                     "no_click_sum":0.0} 
#init q distribute
q_bucket = 1000params_Q_dict = {"count_list":[0]*(q_bucket+1)}for line in sys.stdin:
    lineL = line.strip().split('\t')    if len(lineL) < 3:        continue

    pctr = float(lineL[0])
    #print lineL[0]
    #pctr = float(lineL[0])/1e6
    show = int(float(lineL[1]))
    click = int(float(lineL[2]))
    slot_info = '-'
    
    ### calculate auc
    params_auc_dict["slot_show_sum"] += show
    params_auc_dict["slot_click_sum"] += click    if params_auc_dict["last_ctr"] != pctr:
        params_auc_dict["auc_temp"] += (params_auc_dict["click_sum"] + \
                                         params_auc_dict["old_click_sum"]) * params_auc_dict["no_click"] / 2.0
        params_auc_dict["old_click_sum"] = params_auc_dict["click_sum"]
        params_auc_dict["no_click"] = 0.0
        params_auc_dict["last_ctr"] = pctr
    params_auc_dict["no_click"] += show - click
    params_auc_dict["no_click_sum"] += show - click
    params_auc_dict["click_sum"] += click
       
    ### calculate Q distribution
    index = int(pctr / (1.0/q_bucket)) #interval [0, 0.001) left close, right open
    count_list = params_Q_dict["count_list"]
    count_list[index] += show

# last instance for auc
params_auc_dict["auc_temp"] += (params_auc_dict["click_sum"] + \
         params_auc_dict["old_click_sum"]) * params_auc_dict["no_click"] / 2.0if params_auc_dict["auc_temp"] > 0:
    auc = params_auc_dict["auc_temp"] / (params_auc_dict["click_sum"] * params_auc_dict["no_click_sum"])else:
    auc = 0print "AUC:%s\tshow_sum:%s\tclk_sum:%s" %( auc, params_auc_dict["slot_show_sum"], params_auc_dict["slot_click_sum"])

#print Q distribution resultfor item in params_Q_dict:
    count_list = params_Q_dict["count_list"]
    print "Max bucket num: %s" %(sum(count_list))    for i in range(q_bucket+1):        if i < (q_bucket - 1):
            print str((i+1)*(1.0/q_bucket)) + '\t' + str(count_list[i])        else:
            print '1.0\t' + str(count_list[i]+count_list[i+1])            break

网页标题：点击率模型AUC
网页链接：http://www.cdkjz.cn/article/gjpjsh.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

景区导示设计制作堡垒主机橡塑保温板广安园林绿化公司玄科环保卖友情链接营销型网站建设网站运营 php空间电商网站建设

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

点击率模型AUC

一背景

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

点击率模型AUC

一 背景

相关资讯

redhatLinux逻辑卷管理器怎么用

jQuery实现飞入购物车功能

C++基于socketUDP网络编程怎么实现聊天室功能

python注释快捷键是哪个

java判断字符串是否是纯数字的方法

MYSQL外键的坏处有哪些

第二章：oracle_sql语句之限制(where子句)和排列数据(orderby子句)

你了解Spring从Spring3到Spring5的变迁吗？

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

一背景

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接