English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
1:27:21
RLHF, PPO and DPO for Large language models
已浏览 3562 次
2024年2月18日
YouTube
Arvind N
11:21
如何实现PPO算法?1小时跟着博士搞懂深度强化学习PPO算法原理及实
…
已浏览 1995 次
2023年11月20日
bilibili
人工智能-研究所
28:00
Creating Simulink reinforcement learning environment and training
…
已浏览 1.6万 次
2022年10月8日
YouTube
IGA PR
9:10
Direct Preference Optimization: Forget RLHF (PPO)
已浏览 1.6万 次
2023年6月6日
YouTube
Discover AI
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列#3
已浏览 8459 次
2023年12月20日
bilibili
Up-Fei
17:55
Path Planning with A* and RRT | Autonomous Navigation, Part 4
已浏览 23.7万 次
2020年7月15日
YouTube
MATLAB
7:12
Policy Optimization in Reinforcement Learning
已浏览 3 次
2 个月之前
YouTube
om
6:29
AI Tower Defense: Proximal Policy Optimisation (PPO) RL Agent vs N
…
2 个月之前
YouTube
magma4
2:08
Canonicar driving presentation in CARLA
已浏览 19 次
5 个月之前
YouTube
Canonicar
1:46
PPO Algorithm in Gaming 🚀 Reinforcement Learning AI Plays
…
已浏览 51 次
1 个月前
YouTube
SystemDR - Scalable System Design
4:42:34
4 Months of RL in 4 Hours | Deep Reinforcement Learning Course (
…
已浏览 159 次
1 个月前
YouTube
Madhav Malhotra
Luminica | AI & Tech Demos on Instagram: "8-slide deep-dive → M
…
1 周前
Instagram
luminica.ai
Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da
…
2020年9月21日
towardsdatascience.com
Proximal Policy Optimization Implementation: 8 Details for Cont
…
已浏览 1.2万 次
2021年11月22日
YouTube
Weights & Biases
Reinforcement Learning: PyBullet Kuka Diverse Object Environment
已浏览 1974 次
2021年6月22日
YouTube
Swagat Kumar
Exploring the PPOTrainer in the HuggingFace TRL Library
已浏览 3679 次
2023年7月22日
YouTube
The LLM Show
33:53
【PPO】【已完结】PPO第二部分 完整实现和代码解读
已浏览 8019 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
53:45
强化学习策略梯度之proximal policy optimization PPO理论与代码(上)
已浏览 1万 次
2022年3月26日
bilibili
Stevensong铁维
19:50
深度强化学习之策略梯度方法与近似策略优化(PPO)
已浏览 5775 次
2018年10月2日
bilibili
爱可可-爱生活
25:52
近端策略优化(PPO)深入实践
已浏览 6677 次
2021年9月12日
bilibili
爱可可-爱生活
7:50
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms)
已浏览 267 次
3 个月之前
bilibili
小迪学AI
1:44:33
LLM Alignment|综述及RLHF、DPO、UNA的深入分析
已浏览 1726 次
2024年11月19日
bilibili
你到这干嘛来了
48:42
[LLM+RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现(advant
…
已浏览 5.3万 次
1 年前
bilibili
五道口纳什
0:40
复旦NLP团队开元MOSS- RLHF,实现ChatGPT的PPO算法
已浏览 321 次
2023年9月1日
bilibili
二范数智能
11:18
如何直观理解PPO算法?博士详解近端策略优化算法原理 公式推导 训练
…
已浏览 1.4万 次
2024年9月25日
bilibili
迪哥AI研习社
1:02:54
【PPO强化学习】TRL PPO源码分析
已浏览 4820 次
5 个月之前
bilibili
小鱼儿at青岛
19:25
【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数
已浏览 1万 次
3 个月之前
bilibili
东川路第一可爱猫猫虫
17:50
Proximal Policy Optimization Explained
已浏览 7.1万 次
2021年5月20日
YouTube
Edan Meyer
55:03
强化学习算法之PPO
已浏览 1.2万 次
2022年5月9日
bilibili
大爱仙尊vip
10:15
基于TRL训练大预言模型,DPO,PPO方法.
已浏览 6796 次
2023年11月21日
bilibili
蓝斯诺特
观看更多视频
更多类似内容
反馈