#
Git
Press
chengbo
Login
Author
chengbo
Very Lazy. Have no word to say.
Collection
chengbo
has 1
collections
Posts
2024/12/12
ReadWriteThink
博学而笃志,切问而近思文章合集:chongzicbo/ReadWriteThink: 博学而笃志,切问而近思 (github.com)个人博客:ChengBO
2023/09/12
CV002-CNN vs. Vision Transformer
这篇博客来自 Vision Transformers 论文 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE。本文提出使用纯Transformer直接应用于图像patches 进行图像分类任务。在对大量数据进行预训练后, Vision Transformers (ViT)在多个基准测试中优于最先进的卷积网络,同时需要更少的计算资源进行训练。Transformers由于其计算效率和可扩展性而成为NLP中的首选模型。在计算机视觉中,卷积神经网络(CNN)架构仍然占主导地位,但一些研究人员已经尝试将自注意相结合。作者尝试将标准Transformer直接应用于图像,并发现当在中等大小的数据集上训练时,与类似ResNet的架构相比,模型的准确性适中。然而,当在更大的数据集上训练时,ViT取得了更优异的结果,并在多个图像识别基准上接近或超过了现有技术。图1(取自原始论文)描述了一个模型,该模型通过将2D图像转换为
2022/04/29
1.随机变量
No exerpt.
2022/04/29
1.熵
熵用于描述信息的不确定性,定义为:$$H(X)=-\sum_xp(x)log_2p(x)
2022/04/29
1.TF-IDF算法步骤
考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。
2022/04/29
1.长短期记忆
LSTM 中引入了3个门,即输入门(input gate)、遗忘门(forget gate)和输出门(output gate),以及与隐藏状态形状相同的记忆细胞(某些文献把记忆细胞当成一种特殊的隐藏状态),从而记录额外的信息。与门控循环单元中的重置门和更新门一样,如图所示,长短期记忆的门的输入均为当前时间步输入 $X_t$ 与上一时间步隐藏状态 $H_{t−1}$ ,输出由激活函数为sigmoid函数的全连接层计算得到。如此一来,这3个门元素的值域均为 [0,1] 。
2022/04/29
NLP05:基于CNN-LSTM的情感分类
使用CNN-LSTM进行情感分类,这里是一个二分类模型。整体上分为以下几个步骤:
2022/04/29
1.TextCNN基本原理
<img src="https://pic1.zhimg.com/v2-38e6e46009ea88c06465ed0770051c4d_r.jpg" style="zoom: 67%;" /> <img src="https://pic4.zhimg.com/v2-2ea1f0b8b166f31273b26bca3ba8e8b2_r.jpg" style="zoom:67%;" /> 主要看第二张图:
2022/04/29
1.潜在隐语义索引(LSI)概述
潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。其实是一个东西,后面我们统称LSI,它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。这里我们简要回顾下SVD:对于一个$m \times n$的矩阵$A$,可以分解为下面三个矩阵:$$
2022/04/29
1.Albert简介
Alber相对于原始BERT模型主要有三点改进:
2022/04/29
1.孪生(Siamese)网络基本原理
孪生网络是包含两个或多个相同的的子网络组件的神经网络,如下所示:<img src="https://raw.githubusercontent.com/chongzicbo/images/master/imgimage-20200929214609062.png" alt="image-20200929214609062" style="zoom:67%;" /> 在孪生网络中,不仅子网络的架构是相同的,而且权重在子网络中也是共享的,这样的网络被称为孪生网络。孪生网络背后的思想是其能够学习有用的数据描述符,这些描述符可以进一步用于在各个子网的输入之间进行比较。因此,孪生网络的输入可以是数值数据、图像数据(CNN为子网络)或者序列数据(以RNN为子网络)。
2022/04/29
一、文本相似度简介
<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center> 在上一篇文章中,简要介绍了孪生网络(siamese network)的基本原理及应用实战,这里再使用孪生网络来进行文本相似度计算。文本的相似性计算是“文本匹配”的一种特殊情况。一般来说,文本相似度计算任务的输入,是两篇文档,比如下表的前两个句子;输出是两篇文档的相似程度,通常用[0,1]区间内的小数来表示。
2022/04/29
1.中文分词的发展历程
对380篇英文文献进行分析,大多是会议论文,来源包括ACL、EMNLP、COLING、IJCNLP等,收录最多的是ACL。SIGHAN是国际计算语言学协会中文处理特别兴趣组。SIGHAN采用多家机构的评测数据组织多次评测(即BakeOff),评测使用封闭测试和开放测试两种方法。封闭测试只允许使用固定训练语料学习相应的模型,而开放测试可以使用任意资源。测试使用的评价标准包括准确率、召回率和F值。其中对比的是人工标注的数据集。CIPS-SIGHAN为中文处理资源与评测国际会议。以SIGHAN和CIPS-SIGHAN的评测为主线,展示历届评测的重点内容和相关联的国际会议、时间,如下图所示。图中左侧使用不同颜色矩形框区分各个会议,圆形中的数字表示举办到第几届,评测与会议联合举办则增加了连线。
2022/04/29
1.简介
<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center> ELMO是一种深层的上下文单词表示模型,它可以同时建模:(1) 单词使用的复杂特征(例如语法和语义),也就是能够学习到词汇用法的复杂性
2022/04/29
1.数据准备
<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center> import os
2022/04/29
1.模型结构
<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center> 《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》是2016年由中国科学技术大学Peng Zhou等在ACL发表的论文,本文是对该论文的简单解读和代码复现。现在来看,模型的结构还是比较简单的,主要包括5部分,分别是输入层、词嵌入层、BiLSTM层、Attention层和softmax输出层。
2022/04/29
1.基于BiLSTM的命名实体识别
<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center> Embedding+BiLSTM+BiLSTM+Densefrom tensorflow.keras.layers import Embedding, LSTM, Bidirectional, Dense, Dropout, Masking
2022/04/29
NLP16:通过序列标注来进行实体和关系的联合抽取
<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center> 在之前的文章“论文阅读04:使用序列标注的方式解决实体和关系的联合抽取”介绍了一种使用序列标注的方式来进行实体和关系的联合抽取,模型的具体细节可以查看该文章。今天的文章主要是对这篇文章中论文提到的模型进行简单的实现。论文中提到的偏置目标函数通过给不同的标签赋予不同的权重进行实现。这里仅实现模型,能够跑通,因为是在个人笔记本上跑,机器性能不够,所以没有训练完,也没有调参。最终的训练效果也未知。感兴趣的同学可以自己调调参。
2022/04/29
1. 摘要
在预训练自然语言表示时,增加模型大小通常会导致下游任务的性能提高。但是,由于 GPU/TPU 内存限制和更长的训练时间,在某些时候,进一步增大模型变得更加困难。为了解决这个问题,我们提出了两种参数削减技术来降低内存消耗以及加快模型训练速度。实验结果表明我们提出的方法比原始BERT模型的扩展性更好。使用自监督损失来建模句子间的连贯性,有助于下游任务的处理。在GLUE、RACE和SQuAD等benchmarks上取得了SOTA,而且与BERT-large相比拥有更少的参数。代码见:https://github.com/google-research/ALBERT.深度学习神经网络预训练在语言表示学习方面取得了一系列突破。大量重要的NLP任务包括那些仅使用有限训练数据的任务都从预训练模型中受益匪浅。一个最大的突破就是在为中国初高中英语考试设计的阅读理解任务中机器性能的变化,the RACE test (Lai et al., 2017):最初的SOAT机器准确率为44.1%;目前最新的性能达到了 83.2% (Liu et al., 2019);而我们的工作达到了89.4,取得了45.3
2022/04/29
1.摘要
预训练模型让nlp任务的效果得到了极大提升,但不同方法之间的比较也很困难。预训练模型的训练通常在不同大小的私有数据集上完成,计算代价很昂贵,超参数的选择对最终的效果具有显著影响。我们提出了一个BERT的复制研究,精心评估衡量大量关键超参数和训练数据大小的影响。我们发现BERT明显训练不足,它的效果能够达到或者超过在它之后发布的每个模型的性能。我们训练出的最好的模型在GLUE、RACE和SQuAD上能达到SOTA。模型结果突出了之前被忽视的设计选择的重要性,并提出了模型为什么能够改进的问题。ELMO、GPT、XLM、XLNet等自训练方法取得了极大的性能提升,但在如何确定那种方法贡献最大上还存在困难。模型的训练在计算上很昂贵,限制了调参的数量。训练数据通常是私有的且大小不一致,导致无法评估模型的效果。在BERT的基础上提出了Roberta模型,对不同的超参数微调和训练集大小做了一个详细的评估。我们发现BERT寻找严重的训练不足,我们提出了新的训练方法,roberta模型可以达到或者超过BERT之后提出的方法的性能。Roberta模型做出的改变包括:
« Newer
1 / 3
Older »