🧠 of Dipta

Search CTRL + K

🧠 of Dipta

Search CTRL + K

Literature Notes

Advanced NLP with Scipy

Deep Learning by Ian Goodfellow

DS & Algo Interview

How To 100M Learning Text Video

How to Read a Paper

How To Write a Paper

Papers

$τ$-bench - A Benchmark for Tool-Agent-User Interaction in Real-World Domains

Compressed Chain of Thought - Efficient Reasoning Through Dense Representations

Deliberative Alignment - Reasoning Enables Safer Language Models

G-Eval - NLG Evaluation using GPT-4 with Better Human Alignment

Investigating Continual Pretraining in Large Language Models - Insights and Implications

Is a Question Decomposition Unit All We Need

Large Language Models are Zero-Shot Rankers for Recommender Systems

Molmo and PixMo

Piecing It All Together - Verifying Multi-Hop Multimodal Claims

PubMedQA - A Dataset for Biomedical Research Question Answering

Scientific Fact-Checking - A Survey of Resources and Approaches

Semantic Product Search for Matching Structured Product Catalogs in E-Commerce

Token Assorted - Mixing Latent and Text Tokens for Improved Language Model Reasoning

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

What is More Likely to Happen Next

Templates

Permanent Notes

Zotero Template

Topics

activation-function

machine-learning

Zettelkasten

3 key question in data visualization

Activation Function

Active Learning

AdaBoost vs. Gradient Boosting vs. XGBoost

Adjusted R-squared Value

Alternative Hypothesis

Amazon Leadership Principles

Ancestral Sampling

Area Under Precision Recall Curve (AUPRC)

Autoencoder for Denoising Images

Averaging in Ensemble Learning

Back Propagation

Backward Feature Elimination

Basics of Kubernetes

Batch Normalization

Bayesian Optimization Hyperparameter Finding

Behavioral Interview

BERT Embeddings

Best Match 25 (BM25)

Bias & Variance

Bidirectional RNN or LSTM

Binary Cross Entropy

Binning or Bucketing

Binomial Distribution

bisect_left vs. bisect_right

Byte Pair Encoding (BPE)

Causal Language Modeling

Causality vs. Correlation

Central Limit Theorem

Challenges of NLP

Character Tokenizer

Co-occurrence based Word Embeddings

Conditional Probability

conditionally-independent-joint-distribution

Confusion Matrix

Connections - Log Likelihood, Cross Entropy, KL Divergence, Logistic Regression, and Neural Networks

Contextualized Word Embeddings

Continuous Bag of Words

Continuous Random Variable

Contrastive Learning

Contrastive Loss

Convex vs Nonconvex Function

Cosine Similarity

Count based Word Embeddings

Cross Validation

Crossed Feature

Curse of Dimensionality

Data Augmentation

Data Imputation

Data Monitoring (DVC)

data visualization

DBScan Clustering

Debugging Deep Learning

Decision Boundary

Decision Tree (Classification)

Decision Tree (Regression)

Decoder Only Transformer

Decoding Strategies

Density Sparse Data

Dependent Variable

diagonal-matrix

Differentiation of Product

Differentiation

Dimensionality Reduction

Discrete Random Variable

Discriminative vs. Generative Models

doing-literature-review

Domain vs. Codomain vs. Range

Dynamic Programming (DP) in python

Eigendecomposition

eigenvalue-eigenvector

Elastic Net Regression

ELMo Embeddings

Encoder Only Transformer

Ensemble Learning

Entropy and Information Gain

Essential Visualizations

Estimated Standard Deviation

Estimated Variance

Euclidian Distance

Exhaustive Search

Expected Value for Continuous Events

Expected Value for Discrete Events

Exploding Gradient

Exponential Distribution

Extrinsic Evaluation

False Negative Error

False Positive Rate

FastText Embedding

Feature Engineering

Feature Extraction

Feature Hashing

Feature Preprocessing

Feature Selection

Finding Co-relation between two data or distribution

Fine Tuning Large Language Models

Forward Feature Selection

Foundation Model

fully-independent-join-distribution

fully-joint-joint-distribution

Gaussian Distribution

Generalized Discriminant Analysis (GDA)

Genetic Algorithm Hyperparameter Finding

Global Attention

GloVe Embedding

Gradient Boost (Classification)

Gradient Boost (Regression)

Gradient Boosting

Gradient Clipping

Gradient Descent

Graph Convolutional Network (GCN)

Greedy Decoding

Grid Search Hyperparameter Finding

Group Normalization

Handling Imbalanced Dataset

Handling Missing Data

Handling Outliers

Heapq (nlargest or nsmalles)

Hierarchical Clustering

Hierarchical Softmax

Homonym or Polysemy

How to Choose Kernel in SVM

How to combine in Ensemble Learning

How to prepare for Behavioral Interview

How to Write Academic Paper (from CS Perspective)

Hyperparameters

Hypothesis Testing

identity-matrix

Independent Component Analysis (ICA)

Independent Variable

Instructional Websites

Integration by Parts or Integration of Product

Internal Covariate Shift

Interquartile Range (IQR)

Interview Scheduling

Intrinsic Evaluation

Jaccard Distance

Jaccard Similarity

joint-distribuition

jupyter-notebook-on-server

K Fold Cross Validation

K-means Clustering

K-means vs. Hierarchical

K-nearest Neighbor (KNN)

Kernel Regression

L1 or Lasso Regression

L1 vs. L2 Regression

L2 or Ridge Regression

Layer Normalization

Learning Rate Scheduler

Linear Discriminant Analysis (LDA)

Linear Regression

LLM GPU Calculate

Local Attention

Log (Odds Ratio)

Logistic Regression vs. Neural Network

Logistic Regression

Machine Learning Algorithm Selection

Machine Learning vs. Deep Learning

Majority vote in Ensemble Learning

Manhattan Distance

Marginal Probability

Masked Language Modeling

matplotlib functions

matplotlib legend

Matrix Factorization

Maximal Margin Classifier

Maximum Likelihood

Mean Absolute Error (MAE)

Mean Absolute Percentage Error (MAPE)

Mean Reciprocal Rank (MRR)

Mean Squared Error (MSE)

Mean Squared Logarithmic Error (MSLE)

Merge K-sorted List

Merge Overlapping Intervals

Min Max Normalization

ML Case Study or ML Design

ML System Design

Model Based vs. Instance Based Learning

Multi Class Cross Entropy

Multi Label Cross Entropy

Multi Layer Perceptron

Multicollinearity

Multivariable Linear Regression

Multivariate Linear Regression

Multivariate Normal Distribution

Mutual Information

Negative Log Likelihood

Negative Sampling

Nesterov Accelerated Gradient (NAG)

Neural Network Normalization

Next Sentence Prediction

Normal Distribution

Null Hypothesis

One Class Classification

One Class Gaussian

One vs One Multi Class Classification

One vs Rest or One vs All Multi Class Classification

orthogonal-matrix

orthonormal-vector

Overcomplete Autoencoder

Parameter vs. Hyperparameter

PCA vs. Autoencoder

Pearson Correlation

Polynomial Kernel

Polynomial Regression

Posterior Probability

Precision Recall Curve (PRC)

Prepare for Talk

Presentation Making Tips

Principal Component Analysis (PCA)

Prior Probability

Probability Density Function

Probability Distribution

Probability Mass Function

Probability vs. Likelihood

Problem Solving Algorithm Selection

Proximal Policy Optimization (PPO)

Pruning in Decision Tree

PyTorch Loss Functions

PyTorch Refresher

Questions to ask in a Interview?

Quintile or Percentile

Quotient Rule or Differentiation of Division

R-squared Value

Radial Basis Kernel

Random Variable

Recommender System (RecSys)

Reinforcement Learning from Human Feedback (RLHF)

Reinforcement Learning

Reno Talk @UMBC on Scale-2024

Research Skills Unsorted List

Retrieval Metrics

Root Mean Squared Error (RMSE)

Root Mean Squared Logarithmic Error (RMSLE)

ROUGE-LSUM Score

RTE (Recognizing Textual Entailment)

Second Order Derivative or Hessian Matrix

Self Attention vs. Cross Attention

Self-Supervised Learning

Semi-supervised Learning

SentencePiece Tokenization

Sequence-to-Sequence Model

Sigmoid Function

Simple Linear Regression

Singular Value Decomposition (SVD)

Skip Gram Model

Soft Margin in SVM

Some Common Behavioral Questions

Sources of Uncertainty

spacy-doc-object

spacy-doc-span-token

spacy-explanation-of-labels

spacy-named-entities

spacy-operator-quantifier

spacy-semantic-similarity

spacy-syntactic-dependency

Splitting tree in Decision Tree

Stacking or Meta Model in Ensemble Learning

Standard deviation

Standardization or Normalization

Standardization

Statistical Power

Statistical Significance

Stochastic Gradient Descent (SGD)

Stochastic Gradient Descent with Momentum

Stratified K Fold Cross Validation

Sub-sampling in Word2Vec

Sub-word Tokenizer

Supervised Learning

Support Vector Machine (SVM)

Swallow vs. Deep Learning

Text Preprocessing

Three Way Partioning

Time Complexity of ML Algos

Time Complexity of ML Models

Top-K in Retrieval System

Toward RL Learning

Training a Deep Neural Network

True Negative Rate

True Positive Rate

Type 1 Error vs. Type 2 Error

Undercomplete Autoencoder

Uniform Distribution

Unigram Tokenization

Unsupervised Learning

Vanishing Gradient

Variational Autoencoder

Weakly Supervised Learning

Weight Initialization

Why transformer uses positional embeddings?

Word Embeddings

Word2Vec Embedding

WordPiece Tokenization

Enter to select

to navigate

ESC to close

Toward RL Learning

GRPO

https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo?open=false#%C2%A7kimi-k-scaling-reinforcement-learning-with-llms
https://www.youtube.com/watch?v=grpc-Wyy-Zg
https://aiengineering.academy/LLM/TheoryBehindFinetuning/GRPO/
https://www.youtube.com/watch?v=Yi1UCrAsf4o&t=1334s
https://www.coursera.org/specializations/reinforcement-learning

PPO

https://aiengineering.academy/LLM/TheoryBehindFinetuning/PPO/
https://yugeten.github.io/posts/2025/01/ppogrpo/

References

Footnotes

Connected Pages

Depth

1

On this page

GRPO
PPO
References
Footnotes

Pages mentioning this page