밴딧 알고리즘 개념 밴딧 알고리즘(Bandit Algorithm)은 기계 학습의 분야 중 하나로, 이산적인 선택들 중 어떤 선택이 가장 좋은 보상을 가져올지를 찾는 문제를 해결하는 알고리즘입니다. 밴딧 알고리즘은 매 시도마다 일정한 보상을 제공하는 슬롯 머신(Slot Machine)이라는 가상의 기계에서부터 시작합니다. 이 슬롯 머신은 여러 개의 손잡이 중에서 하나를 선택하면 그에 따라 일정한 확률로 보상을 줍니다. 밴딧 알고리즘은 이 슬롯 머신에서 가장 좋은 보상을 가져올 손잡이를 찾는 문제를 푸는 것입니다. 이를 위해서는 일단 여러 가지 손잡이 중 하나를 무작위로 선택하여 보상을 받고, 이를 이용해 손잡이마다의 보상 기대값을 추정합니다. 추정한 보상 기대값을 바탕으로 보상 기대값이 가장 높은 손잡이를..