opebet网页版-bet亚洲官网手机版-登录

教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

传智教育|传智播客

一样的教育,不一样的品质

全国校区

 

BERT的MLM任务中为什么采用了80%, 10%, 10%的策略?

更新时间:2020年09月21日14时52分 来源:黑马程序员 浏览次数:

1、首先, 如果所有参与训练的token被100%的[MASK], 那么在fine-tunning的时候所有单词都是已知的, 不存在[MASK], 那么模型就只能根据其他token的信息和语序结构来预测当前词, 而无法利用到这个词本身的信息, 因为它们从未出现在训练过程中, 等于模型从未接触到它们的信息, 等于整个语义空间损失了部分信息. 采用80%的概率下应用[MASK], 既可以让模型去学着预测这些单词, 又以20%的概率保留了语义信息展示给模型。

2、保留下来的信息如果全部使用原始token, 那么模型在预训练的时候可能会偷懒, 直接照抄当前token信息. 采用10%概率下random token来随机替换当前token, 会让模型不能去死记硬背当前的token, 而去尽力学习单词周边的语义表达和远距离的信息依赖, 尝试建模完整的语言信息.

3、最后再以10%的概率保留原始的token, 意义就是保留语言本来的面貌, 让信息不至于完全被遮掩, 使得模型可以"看清"真实的语言面貌。


下面是传智播客公开的几套人工智能视频教程,如果感兴趣可以下载学习。




  • 计算机视觉
    计算机视觉入门及案例实战 35412人学习课程评分:5.0

    人工智能

  • 人工智能深入学习
    3天带你玩转Python深度学习 34544人学习课程评分:5.0

    人工智能

  • 人工智能必学基础课
    人工智能必学基础课-7天入门机器学习 32321人学习课程评分:5.0

    人工智能

  • SpringCloud 微服务架构
    超系统掌握人工智能机器学习算法 23135人学习课程评分:5.0

    人工智能

  • 机器学习经典算法
    360°解读机器学习经典算法 28809人学习课程评分:5.0

    人工智能

  • 单快速入门Python机器
    最简单快速入门Python机器学习 44305人学习课程评分:5.0

    人工智能



opebet网页版|bet亚洲官网手机版

XML 地图 | Sitemap 地图