随笔 - 79  文章 - 58  trackbacks - 0
<2016年8月>
31123456
78910111213
14151617181920
21222324252627
28293031123
45678910

常用链接

留言簿(9)

随笔分类

随笔档案

文章档案

相册

搜索

  •  

积分与排名

  • 积分 - 294184
  • 排名 - 87

最新评论

阅读排行榜

评论排行榜

转载:http://www.cnblogs.com/HappyAngel/p/3456762.html

http://www.cnblogs.com/bestheart/p/3676879.html

最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正。

机器学习是什么?

 

感觉和 Tom M. Mitchell的定义几乎一致,

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

简而言之,就是我们想要机器在某些方面有提高(如搜索排名的质量,即NDCG提高),就给机器一些数据(用户的点击数据等各种)然后让机器获得某些经验(Learning to rank的一种模型,也就是数学公式)。这里有点需要强调,那就是提高指标,必须要有某种指标可以量化这种提高,这点还是很关键的,工业界做机器学习,首先关注data,其次就是有无成型的measurement,可以使Precision/Recall,也可以是NDCG等。

 

什么时候可以用机器学习?

 

其实就三要素:

  1. 有规律可以学习;
  2. 编程很难做到;
  3. 有能够学习到规律的数据;

编程很难做到可以有多种,大部分原因是系统太复杂,很难用Rule-based的东西去解决,例如搜索排名,现在影响排名的因素有超多几百种,不可能去想出这些因素的规则,因此,这时候用机器学习就是恰到好处。特别是移动互联网的今天,用户更容易接触互联网,产生的数据越来越多,那么要找到某些不容易实现的规律,用机器学习就是很好的了,这也是为啥机器学习这么火,其实我学机器学习不仅仅是一种投资(肯定它未来的发展前途),我想做的事情还有一点,就是通过它更深刻的理解人脑的学习过程,提高自己的学习效率和思维能力。

 

具体如何用机器学习?

 

输入是两个:1 data假设集合。Data如何使用?通过提取出feature vector来使用,也就是那个training examples,假设集合是用来选取最终f的。也就是说,输出就是f(或近似f)。

 

第一个机器学习算法:PLAPerceptron Learning Algorithm

课程讲述这个算法的总体思路如下(典型的提出问题,分析问题以及解决问题):

 

  1. 通过信用卡问题引入PLA
  2. 对问题用数学抽象,并得到目标函数;
  3. 详细解释PLA迭代(学习)过程;
  4. 证明PLA学习的过程可以收敛并会得到最优解;
  5. 分析PLA优缺点,并提出克服缺点的一些方法;

 

这个算法本质上是线性分类器,针对给定的feature vector给出Yes 或者 No的回答

下面是用这个算法去解决信用卡问题的数学抽象:

这里的思想在于朴素的把从用户信息抽出来的一些feature(年龄等)量化并组成vector,然后乘以一个权重向量,并设定一个阈值,大于这个阈值就表示好,小于表示不好,很明显这个式子的未知变量有两个(实际只有一个):

  1. 权重向量 wi, 1<=i<=d;
  2. 阈值,下面设为0

做一点小小的变形使得式子更加紧凑,

还有就是从这个模型可以知道,regression model也可以解决classification问题,转化的思想。下面是这个算法的核心,定义了学习目标之后,如何学习?这里的学习是,如何得到最终的直线去区分data

 

这个算法的精髓之处在于如何做到"做错能改",其循环是不断遍历feature vector,找到错误的点(Yn和当前Wt*Xn不符合),然后校正Wt那么为什么要这样校正?因为这样可以保证Wt越来越靠近perfect直线Wfps.暂时没想到正向思维是如何得到这个式子的)课程像大多数课本一样,用逆向思维给予介绍,就是在给定这样能够做的情况下去证明,即证明为什么这样做可以不断接近目标,以及最终一定会停止?

下面道出了PLA终止的条件:

  

这个是比较容易想到的,如果不能用直线去区分data(线性不可分),肯定是解决不了的,所以必须要满足线性可分,其实问题的关键在于如何方便的知道某些数据是否线性可分?这个在课程中目前没有涉及,一种简单的解决方法是画出来,直观的去看,这个我觉得不是好方法。

 

 

这两页PPT比较复杂,其实就是在利用条件证明,下面重新组织下给出思路,因为Latex用中文不太爽,就用英文了:

 

 PLA的优缺点

为了应对Noisy,我们不可能得到完美的直线,那么怎么衡量当前得到的直线能够满足要求呢?凭直觉,我们知道如果当前直线犯错越少越好(对所有data),于是有了下面的改进算法,Pocket PLA,本质上就是在改错的时候多做一步 -- 判断当前改正犯的错是否比之前更小,也就是贪心选择

 

上了一周台大的这个课程感觉老师还是很负责任,特别是循循善诱的教学方式真正是站在学生的角度考虑问题,更重要的是,我很欣赏课程的脉络,其由几个关键问题引出整套课程,这和《如何阅读一本书》里面带着问题阅读很像,其实学习也是如此,这点必须赞一下,也做个小广告,目前大家都在推荐Ng教授的课程,我觉得这个课程也值得推荐。

 

参考资料:

Coursera台大机器学习基石

注:除了证明,其他授课ppt都来源于课程
代码:

#include <fstream>
#include <iostream>
#include <vector>
using namespace std;

struct Item{
    int x0 = 1; //需要C++11
    double x1, x2, x3, x4;
    int label;
};

struct Wight{
    double w0, w1, w2, w3, w4;
}Wit0 = { 0, 0, 0, 0, 0 };

//////////////////////////////////////////////////////////////////////////////////////
int sign(double x){
    if (x>0)
        return 1;
    else if (x<0)
        return -1;
    else
        return 0;
}

//////////////////////////////////////////////////////////////////////////////////////
double DotPro(Item item, Wight wit){
    return item.x0*wit.w0 + item.x1*wit.w1 + item.x2*wit.w2 + item.x3*wit.w3 + item.x4*wit.w4;
}

//////////////////////////////////////////////////////////////////////////////////////
Item NumPro(int k, Item item){
    Item NewItem;
    NewItem.x0 = item.x0*k;
    NewItem.x1 = item.x1*k;
    NewItem.x2 = item.x2*k;
    NewItem.x3 = item.x3*k;
    NewItem.x4 = item.x4*k;
    return NewItem;
}

//////////////////////////////////////////////////////////////////////////////////////
Wight WightAnd(Item item, Wight wit){
    Wight NewWigth;
    NewWigth.w0 = item.x0 + wit.w0;
    NewWigth.w1 = item.x1 + wit.w1;
    NewWigth.w2 = item.x2 + wit.w2;
    NewWigth.w3 = item.x3 + wit.w3;
    NewWigth.w4 = item.x4 + wit.w4;
    return NewWigth;
}

//////////////////////////////////////////////////////////////////////////////////////
void main()
{
    ofstream output("D:/data2.txt");
    ifstream input("D:/data0.txt");
    vector<Item> data;
    Item temp;
    while (input >> temp.x1 >> temp.x2 >> temp.x3 >> temp.x4 >> temp.label){
        data.push_back(temp);
    }

    vector<Item>::iterator it;
    Wight wit = Wit0;
    for (it = data.begin(); it != data.end(); it++)
    {
        if ((*it).label != sign(DotPro(*it, wit))){
            wit = WightAnd(NumPro((*it).label, *it), wit);
            it = data.begin();
        }
    }
    cout << wit.w0 << " " << wit.w1 << " " << wit.w2 << " " << wit.w3 << " " << wit.w4 << endl;

    /* 测试数据
    for (it = data.begin(); it != data.end(); it++)
    {
        output << sign(DotPro(*it, wit)) << endl;
    }
    
*/
}
posted on 2016-07-17 23:33 merlinfang 阅读(2233) 评论(0)  编辑 收藏 引用 所属分类: 机器学习

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理