★★★ 本文源自AlStudio社区精品项目,【点击此处】查看更多精品内容 >>>

【导读】百度AiStudio是一个基于飞桨框架的在线AI开发平台,旨在帮助机器学习和深度学习的初学者、从业者和专家,通过在线编程来探索机器学习和深度学习技术。用户可以通过AiStudio中提供的各种应用模板、数据集、算法模型等轻松上手机器学习和深度学习应用,并快速迭代和优化模型。

在AiStudio中,你可以一键复制代码使用GPU运行,并基于该代码进行自己的实验和优化。 对于想要通过这四个项目入手深度学习的初学者,为大家准备了四个不同项目的精华。

  • 项目1中运用协同过滤算法实现电影推荐。我们使用了MovieLens数据集中的历史评分和标签应用程序,计算用户和电影嵌入之间的匹配分数,并添加每部电影和用户的偏差,为用户推荐最可能喜欢的电影。

  • 在项目2中,我们使用注意力机制的LSTM网络实现了机器翻译功能。我们使用了中英文双语句对集,限制了句子长度和单词数量。

  • 项目3使用CNN模型对CIFAR10数据集进行图像分类。CIFAR10是由60000张彩色32*32图像组成的数据集,可为计算机视觉领域研究提供基础数据。

  • 最后,项目4中我们使用LeNet模型在MNIST手写数字数据集上实现数字图像识别。MNIST数据集是用于机器学习中手写数字识别的标准数据集之一。

四个项目各有特色,若您热爱数据科学和机器学习,请您继续深入了解吧!

入门项目一览:

项目1-使用协同过滤算法实现电影推荐

本次数据集(ml-latest-small)描述了MovieLens的五星评级和自由文本标记活动。它包含100836个收视率和3683个标签应用程序,涵盖9742部电影。这些数据由610名用户在1996年3月29日至2018年9月24日期间创建。

协同过滤算法常用的两种:基于用户的协同过滤推荐,基于物品的协同过滤推荐,该模型计算用户和电影嵌入之间的匹配分数,并添加每部电影和每个用户的偏差。我们使用这个算法来精准预测用户的兴趣爱好,并最终为用户推荐10部最可能喜欢的电影。非常有趣的一个项目!

项目2-使用Attention机制的LSTM实现机器翻译

这个项目主要是训练一个简单的Encoder-AttentionDecoder网络,实现机器翻译功能。本次数据集使用 http://www.manythings.org/anki/ 提供的中英文的英汉句对作为数据集,来完成本任务。

该数据集含有23610个中英文双语的句对。为了后续的程序运行的更快,通过限制句子长度,和只保留部分英文单词开头的句子的方式,得到了一个较小的数据集。这样得到了一个有6867个句对的数据集。

编码器的部分,通过查找完Embedding之后接一个LSTM的方式构建一个对源语言编码的网络。飞桨的RNN系列的API,除了LSTM之外,还提供了SimleRNN, GRU供使用。在解码器部分,通过一个带有注意力机制的LSTM来完成解码。最终实现了我们想要的功能。

项目3-使用CNN在CIFAR10数据集实现图像分类

本案例将会使用飞桨提供的API完成数据集的下载并为后续的训练任务准备好数据迭代器。cifar10数据集由60000张大小为32 * 32的彩色图片组成,其中有50000张图片组成了训练集,另外10000张图片组成了测试集。这些图片分为10个类别,将训练一个模型能够把图片进行正确的分类。

CIFAR-10数据集由10个类中的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。

官网地址:https://www.cs.toronto.edu/~kriz/cifar.html

项目4-使用LeNet在MNIST数据集实现手写体识别

手写数字的MNIST数据集,包含60,000个用于训练的示例和10,000个用于测试的示例。这些数字已经过尺寸标准化并位于图像中心,图像是固定大小(28x28像素),其值为0到1。

我们使用飞桨框架自带的 paddle.vision.datasets.MNIST 完成mnist数据集的加载。

MNIST手写数字数据库(可从本页获取)包含60000个示例的训练集和10000个示例的测试集。它是NIST提供的更大集合的子集。数字大小已标准化,并在固定大小的图像中居中。

官网地址:http://yann.lecun.com/exdb/mnist/

配套项目代码(一键运行)

难点讲解+代码实践

1.〖一键运行〗使用协同过滤算法实现电影推荐

2.〖一键运行〗使用Attention机制的LSTM实现机器翻译

3.〖一键运行〗使用CNN在CIFAR10数据集实现图像分类

4.〖一键运行〗使用LeNet在MNIST数据集实现手写体识别

配套数据集(含详细介绍)

1.项目1-电影推荐 Movielens 数据集

考点:协同过滤算法、推荐算法。

2.项目2-多国翻译数据集Anki中英翻译

考点:自然语言处理、注意力机制。

3. 项目3-CIFAR10数据集

考点:卷积神经网络、图像分类。

4. 项目4-MNIST数据集实现图像分类数据集

考点:网络构建、模型训练。

作者简介

作者:张不懂D ,欢迎互粉!
经历:上海科技大学研究生在读,零基础接触机器学习
开源不易,欢迎点赞 ❤ 和 Fork ,欢迎大家相互学习讨论

此文章为搬运
原项目链接

Logo

学大模型,用大模型上飞桨星河社区!每天8点V100G算力免费领!免费领取ERNIE 4.0 100w Token >>>

更多推荐