minirl

基于Numpy的深度强化学习

这个 repo 包含一组从头开始使用 numpy 实现的用于强化学习的应用程序和算法。包括的算法q-learning、基于深度神经网络的REINFORCE、Actor-Critic和ppo等。

项目结构

.
├── core
    ├── bandit.py               # EpsilonGreedy/UCB/LinUCB/ThompsonSampling algorithm
    ├── smab.py                 # stochastic Multi-Armed Bandit (sMAB)
    ├── cmab.py                 # contextual Multi-Armed Bandit (cMAB) based on Thompson Sampling
    ├── onlineCluster.py        # online k-means using Lloyd's algorithm
    ├── pg.py                   # REINFORCE algorithm
    ├── deep_q_learning.py      # Deep Neural Network based Q-learning
    ├── ac.py                   # Actor-Critic algorithm
    ├── ppo.py                  # Proximal Policy Optimization
    ├── DynaQ.py                # Dyna-Q algorithm
    ├── DynaQ_plus.py           # Time-based model for planning in Dyna-Q+
├── preprocessing
    ├── feature_transformer.py  # OneHotEncoder/TargetEncoder
    ├── scaler.py               # StandardScaler/MinMaxScaler/MaxAbsScaler
    ├── stats.py                # runningReward
├── common                      
    ├── net.py                  # Common-deep-network
    ├── optim.py                # Optimizer        
└── README.md

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
build/lib/minirl		build/lib/minirl
minirl.egg-info		minirl.egg-info
minirl		minirl
resources		resources
tests		tests
.gitignore		.gitignore
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

minirl

项目结构

技术架构

About

Uh oh!

Releases

Packages

Uh oh!

Languages

AlgoLink/minirl

Folders and files

Latest commit

History

Repository files navigation

minirl

项目结构

技术架构

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages