CTR demo by Superjomn · Pull Request #57 · PaddlePaddle/models

Superjomn · 2017-05-26T02:52:24Z

数据处理部分篇幅太长，单独写了一个markdown文件

generate脚本稍后补充

文档是org mode写的，之后转成.md文件，所以会有 .org的文件，可以用一个单独目录隐藏起来

@lcy-seso

… develop

lcy-seso

关于形式化的初步意见。

lcy-seso · 2017-05-26T02:54:41Z

ctr/README.org

@@ -0,0 +1,178 @@
+#+title: 使用 Wide & Deep neural model 进行 CTR 预估


未来会将markdown 转为 html，这里删除org 文件吧。

lcy-seso · 2017-05-26T02:58:10Z

ctr/README.md

+
+<a id="org8f6a6fa"></a>
+
+# 引用


使用二级标题，## 参考文献，目前每一篇里面只保留一个一级标题。

参考文献直接使用数字列表，去掉方括号。在引用文献的地方使用： [1] 这样的标记。

论文也请附上链接

lcy-seso · 2017-05-26T03:00:14Z

ctr/README.md

+
+下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：
+
+![img](./images/lr-vs-dnn.jpg)


图片引用的方式和Paddle其它示例不一致。请阅读：https://github.com/PaddlePaddle/book/wiki/%E4%B8%AD%E6%96%87%E6%95%99%E7%A8%8B%E6%92%B0%E5%86%99%E7%BB%9F%E4%B8%80%E6%A0%87%E5%87%86

lcy-seso · 2017-05-26T03:00:41Z

ctr/README.md

+
+<a id="orgab346e7"></a>
+
+# 数据和任务抽象


每一篇只有一个一级标题，这里修改为二级标题

lcy-seso · 2017-05-26T03:01:31Z

ctr/README.md

+
+
+<a id="orgc299c2a"></a>
+


一级标题：#点击率预估，以后各小节为二级，三级等标题。

lcy-seso · 2017-05-26T03:08:36Z

ctr/README.md

+            act=paddle.activation.Relu(),
+            name='dnn-fc-%d' % no)
+        _input_layer = fc
+    return _input_layer


172 ~ 173 多余的空行去掉。

lcy-seso · 2017-05-26T03:09:12Z

ctr/README.md

+
+```
+
+<a id="orgb4020a9"></a>


这些标记先从markdown中删除，后面html统一渲染。

lcy-seso · 2017-05-26T03:10:16Z

ctr/README.md

+
+params = paddle.parameters.create(classification_cost)
+
+optimizer = paddle.optimizer.Momentum(momentum=0)


没有 paddle.init()不会出问题吗？

lcy-seso · 2017-05-26T03:20:44Z

ctr/dataset.md

+-   `C14-C21` &#x2013; anonymized categorical variables
+
+
+<a id="orgeaf74d5"></a>


html 标记先去掉吧。

lcy-seso · 2017-05-26T03:25:12Z

ctr/dataset.org

+      return res
+#+END_SRC
+
+


参考文献作为单独的一节，二级标题。

lcy-seso · 2017-05-26T03:33:47Z

版本库中目前只保存markdown，和其它项目保持统一，请先删掉 org文件
后续会将markdwon 自动转换成html 和 jupyter notebook等形式，尽量使用markdown 原生语法。
用pre-commit做一下格式化，否则travis-CI 检查过不了。

… develop

lcy-seso

针对文档的一些修改建议。

lcy-seso · 2017-05-31T03:39:15Z

ctr/README.md

+
+下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：
+
+![img](./images/lr-vs-dnn.jpg)


图没有居中

缺少图题

图片的命名统一使用“_”代替“-”和repo中其他例子保持一致。"lr-vs-dnn.jpg" --> "lr_vs_dnn.jpg"

和其它例子保持一致，使用下面的标记：

Figure 1. ×

lcy-seso · 2017-05-31T03:43:49Z

ctr/README.md

+
+![img](./images/lr-vs-dnn.jpg)
+
+LR 的蓝色箭头部分可以直接类比到 NN 中对应的结构，可以看到 LR 和 NN 有一些共通之处（比如权重累加），


NN 是不是应该改成 DNN更好一些？

lcy-seso · 2017-05-31T03:44:20Z

ctr/README.md

+
+### LR vs DNN
+
+下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：


NN 是不是应该改为DNN更合适一些？因为上文并没有出现 NN 这个术语。

lcy-seso · 2017-05-31T03:54:26Z

ctr/README.md

+LR 的蓝色箭头部分可以直接类比到 NN 中对应的结构，可以看到 LR 和 NN 有一些共通之处（比如权重累加），
+但前者的模型复杂度在相同输入维度下比后者可能低很多（从某方面讲，模型越复杂，越有潜力学习到更复杂的信息）。
+
+如果 LR 要达到匹敌 NN 的学习能力，必须增加输入的维度，也就是增加���征的数量，


NN --> DNN。上文提出了DNN，但是没有提到NN。会为阅读者带来困惑。

lcy-seso · 2017-05-31T03:55:29Z

ctr/README.md

+我们可以将 `click` 作为学习目标，具体任务可以有以下几种方案：
+
+1.  直接学习 click，0,1 作二元分类
+2.  Learning to rank, 具体用 pairwise rank（标签 1>0）或者 list rank


list --> listwise

lcy-seso · 2017-05-31T04:47:23Z

ctr/dataset.md

+
+### 类别型特征
+
+类别型特征有有限多种值，在模型中，我们一般使用 embedding table 将每种值映射为连续值的向量。


Embedding table --> Embedding

lcy-seso · 2017-05-31T04:48:03Z

ctr/dataset.md

+    def __repr__(self):
+        return '<CategoryFeatureGenerator %d>' % len(self.dic)
+```
+


增加一两句描述用户应该如何使用这个类来处理数据呢？

lcy-seso · 2017-05-31T04:48:30Z

ctr/dataset.md

+
+    def size(self):
+        return self.max_dim
+```


增加一两句描述用户应该如何使用这个类来处理数据呢？

lcy-seso · 2017-05-31T04:48:47Z

ctr/dataset.md

+
+    def size(self):
+        return self.max_dim
+```


增加一两句描述用户应该如何使用这个类来处理数据呢。

lcy-seso · 2017-05-31T04:49:55Z

ctr/dataset.md

+
+## 输入到 PaddlePaddle 中
+
+Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入，输入前需要将相关特征拼合，模型最终只接受 3 个 input，


参考文献的标记请改为：[1]

lcy-seso

关于文档的一些小意见。

lcy-seso · 2017-06-01T01:50:29Z

ctr/README.md

+
+### 模型简介
+
+Wide & Deep Learning Model[3] 可以作为一种相对成熟的模型框架使用，


参考文献的引用格式还是不太对。比如这里的3：

\[[3](#参考文献)\]

lcy-seso · 2017-06-01T01:50:44Z

ctr/README.md

+
+我们直接使用第一种方法做分类任务。
+
+我们使用 Kaggle 上 `Click-through rate prediction` 任务的数据集[\[2\]](https://www.kaggle.com/c/avazu-ctr-prediction/data) 来演示模型。


参考文献的引用格式还是不太对。比如这里的[2]：

\[[2](#参考文献)\]

lcy-seso · 2017-06-01T01:51:04Z

ctr/README.md

+
+## 背景介绍
+
+CTR(Click-Through Rate)[\[1\]](https://en.wikipedia.org/wiki/Click-through_rate) 是用来表示用户点击一个特定链接的概率，


参考文献的引用格式还是不太对。比如这里的[1]：

\[[1](#参考文献)\]

lcy-seso · 2017-06-01T01:51:54Z

ctr/README.md

+
+<p align="center">
+<img src="images/lr_vs_dnn.jpg" width="620" hspace='10'/> <br/>
+Figure 1. LR 和DNN模型结构对比


风格保持一致，DNN 前后都增加一个空格。

lcy-seso · 2017-06-01T01:52:48Z

ctr/README.md

+
+## 数据和任��抽象
+
+我们可以将 `click` 作为学习目标，具体任务可以有以下几种方案：


具体任务可以有以下几种方案： --> 具体的，任务可以有以下几种方案：

lcy-seso · 2017-06-01T03:38:15Z

ctr/README.md

+    feeding=field_index,
+    event_handler=event_handler,
+    num_passes=100)
+```


增加一个章节：##运行训练和测试

略微做一个简单的，step by step 的描述来解释 clone 了这个repo的用户该如何一步一步执行本例中的这套脚本，例如包括以下内容：

先运行哪个脚本下载数据/准备环境。

运行哪个脚本启动训练任务，是否需要修改某些参数。

告诉用户那个脚本负责读数据，如果需要feed 自己的数据，应该修改哪个脚本。

lcy-seso · 2017-06-01T03:43:28Z

ctr/dataset.md

+2.  newid = id % N
+3.  用 newid 作为类别类特征使用
+
+上面的方法尽管存在一定的碰撞概率，但能够处理任意数量的 ID 特征，并保留一定的效果[2]。


参考文献的标记还是有些问题：

\[[2](#参考文献)\]

lcy-seso · 2017-06-01T03:44:43Z

ctr/dataset.md

+
+`CategoryFeatureGenerator` 需要先扫描数据集，得到该类别对应的项集合，之后才能开始生成特征。
+
+我们的实验数据集[\[3\]](https://www.kaggle.com/c/avazu-ctr-prediction/data)已经经过shuffle，可以扫描前面一定数目的记录来近似总的类别项集合（等价于随机抽样），


参考文献3 的标记有些问题。

\[[3](#参考文献)\]

lcy-seso

增加一个自动下载数据的脚本。

lcy-seso · 2017-06-01T06:44:49Z

ctr/README.md

+## 运行训练和测试
+训练模型需要如下步骤：
+
+1. 下载训练数据，可以使用 Kaggle 上 CTR 比赛的数据\[[2](#参考文献)\]


仿照models下sequence_tagging_for_ner在这个例子，增加一个data文件夹，data 文件夹下天机一个获取数据的脚本，https://github.com/PaddlePaddle/models/blob/develop/sequence_tagging_for_ner/data/download.sh

train.py增加一个main函数，main函数中指定usage中提到的四个函数的默认参数。

最��效果：用户首先执行下载数据脚本，再执行train.py 可以直接运行训练任务。

lcy-seso · 2017-06-01T06:51:40Z

Kaggle 的数据集无法通过脚本直接下载。修改一下README，加上一个step by step的过程，如何将原始数据提供给train.py脚本，启动训练任务：

原始数据下载下是什么样的一个文件。
需要做哪些处理？（比如解压）
给 train.py 增加一个默认的main函数，可以直接执行。

reyoung · 2017-06-01T07:47:27Z

It seems an issue about virtualenv let this Unittest failed.

The related issue is here.

lcy-seso

LGTM

Superjomn added 15 commits May 24, 2017 19:02

init doc and model

9312f5b

Merge branch 'develop' of https://github.com/PaddlePaddle/models into…

1ba7d6a

… develop

finish first version

b3e717b

finish code

62d9503

fix img display

912a562

finish image display

cea8fd6

change Paddle -> PaddlePaddle

a1b2906

change img/ -> images/

b0e7d38

add cross feature into model input

c126c52

change ` -> ~

4f6dd9d

update markdown files

04fbeb5

fix markdown display

07ba10b

wrap slashed words with ~

4f70521

wrap ~

d265ff5

fix markdown style

d483d65

lcy-seso requested changes May 26, 2017

View reviewed changes

Superjomn added 10 commits May 26, 2017 11:39

Merge branch 'develop' of https://github.com/PaddlePaddle/models into…

9400539

… develop

delete org files

25c0570

style code

d718d1e

code style with yapf

bd9b609

((0,1)) -> (0,1)

8820e38

change no to i

99fc1b2

add paddle.init

5f09c4d

code style

537a5dd

delete process_markdown.py

30de2ef

draft edit:w

73bdd3b

lcy-seso requested changes May 31, 2017

View reviewed changes

Superjomn added 2 commits May 31, 2017 13:05

rename images

1297198

fix style errors

04725d7

Superjomn added 4 commits May 31, 2017 14:06

set trainer_count=1

079a3c8

corrected reference style

6ac4d31

add more usage in dataset

c16dd3d

embeddint table -> Embedding

f96b7d9

lcy-seso requested changes Jun 1, 2017

View reviewed changes

Superjomn added 3 commits June 1, 2017 14:17

add argument parser

6e63ef4

reformat references

05b93ec

reformat

ae3d361

lcy-seso requested changes Jun 1, 2017

View reviewed changes

add default training command

05bb5e4

pass pre-commit

2b36b54

lcy-seso approved these changes Jun 1, 2017

View reviewed changes

lcy-seso merged commit 1af0222 into PaddlePaddle:develop Jun 1, 2017

		@@ -0,0 +1,178 @@
		#+title: 使用 Wide & Deep neural model 进行 CTR 预估


		下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：

		![img](./images/lr-vs-dnn.jpg)


		params = paddle.parameters.create(classification_cost)

		optimizer = paddle.optimizer.Momentum(momentum=0)

		- `C14-C21` – anonymized categorical variables


		<a id="orgeaf74d5"></a>


		![img](./images/lr-vs-dnn.jpg)

		LR 的蓝色箭头部分可以直接类比到 NN 中对应的结构，可以看到 LR 和 NN 有一些共通之处（比如权重累加），


		### LR vs DNN

		下图展示了 LR 和一个 \(3x2\) 的 NN 模型的结构：


		### 类别型特征

		类别型特征有有限多种值，在模型中，我们一般使用 embedding table 将每种值映射为连续值的向量。


		## 输入到 PaddlePaddle 中

		Deep 和 Wide 两部分均以 `sparse_binary_vector` 的格式[1]输入，输入前需要将相关特征拼合，模型最终只接受 3 个 input，


		### 模型简介

		Wide & Deep Learning Model[3] 可以作为一种相对成熟的模型框架使用，


		我们直接使用第一种方法做分类任务。

		我们使用 Kaggle 上 `Click-through rate prediction` 任务的数据集[\[2\]](https://www.kaggle.com/c/avazu-ctr-prediction/data) 来演示模型。


		```

		<a id="orgb4020a9"></a>


		`CategoryFeatureGenerator` 需要先扫描数据集，得到该类别对应的项集合，之后才能开始生成特征。

		我们的实验数据集[\[3\]](https://www.kaggle.com/c/avazu-ctr-prediction/data)已经经过shuffle，可以扫描前面一定数目的记录来近似总的类别项集合（等价于随机抽样），


		## 背景介绍

		CTR(Click-Through Rate)[\[1\]](https://en.wikipedia.org/wiki/Click-through_rate) 是用来表示用户点击一个特定链接的概率，


		## 数据和任��抽象

		我们可以将 `click` 作为学习目标，具体任务可以有以下几种方案：

Conversation

Superjomn commented May 26, 2017

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso commented May 26, 2017 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lcy-seso commented Jun 1, 2017 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

reyoung commented Jun 1, 2017

lcy-seso left a comment

Choose a reason for hiding this comment

Labels

3 participants

lcy-seso commented May 26, 2017 •

edited

Loading

lcy-seso commented Jun 1, 2017 •

edited

Loading