Hıerarchıcal reınforcement learnıng on non-statıonary envıronments


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2015

Tezin Dili: İngilizce

Öğrenci: Yiğit Efe Yücesoy

Danışman: MUSTAFA BORAHAN TÜMER

Özet:

Devingen Ortamlarda Sıradüzensel Pekiştirmeli Öğrenme Pekiştirmeli Öğrenme (PÖ), bir etmenin belirli bir ortam ile bulunduğu etkileşimler sonucunda aldığı ödül veya cezaya göre öğrenmenin gerçekleştiği davranışsal öğrenme tekniğidir. Etmenin yaptığı etkileşim sonucunda ortamdan, ödül (veya ceza) ve etmenin bulunduğu yeni durumu olmak üzere iki gözlem yapılır. Etmenin amacı, gerçekleştirdiği eylemler ile alınan ödüllerin toplamını olabildiğince düzeye çıkaran davranış modelini yani politikayı bulmaktır. Klasik PÖ yaklaşımı ortamın durağan olduğunu varsayımından yola çıkar. Oysa genel olarak devingen ortamları içeren gerçek uygulamalarda bu varsayım geçerli değildir. Bu yaklaşımla geliştirilmiş PÖ algoritmaları arasında, ortamın devingenliğine uyum sağlayanlar, bunu ancak önceden kazanılan deneyimi yitirerek (unutarak) yapabilirler. Fakat bu yaklaşım ortamın önceki durumunun yinelenmesi durumunda öğrenilmiş ama unutulmuş deneyimin yeniden öğrenilmesini zorunlu kılar. Pekiştirmeli Öğrenme-İçerik Algılama (PÖ-İA) tekniği; etmenin, ortamda oluşan değişimin algılayabilmesi ve buna uygun olarak ortamın her bir durumu için farklı parçalı modeller oluşturmasını sağlar. Böylece kazanılan deneyimler saklanıp uygun koşullar sağlandığında yine kullanılabilir. Her bir parçalı model için, ortamın o andaki durumunu ne kadar iyi yansıttığını belirleyen bir nitelik ölçütü hesaplanır ve bu değere göre bu modellerden hangisinin etkin olacağı kararlaştırılır veya bütün değerlerin bir eşik değerinin altında kalması durumunda,diğer bir deyişle hiç bir modelin ortamı yeterince doğru ifade edememesi durumunda yeni bir parçalı model oluşturulur. Bunun yanında, devingen bir ortamda PÖ-İA tarafından oluşturulan her bir parçalı model, birbirinden ayrı problemler olarak ele alınır; bu nedenle ortam büyüdükçe problemin çözülmesi daha da zorlaşır. Bu zorluğu aşabilmek için PÖ-İA yaklaşımının başarımı sıradüzensel PÖ (SPÖ) öğrenme kullanılarak iyileştirilebilir. Sıradüzensel yapı sayesinde problem daha basit alt problemlere bölünebilir. Bulunan alt problemler kendi çözümlerine sahip, zamanda uzatılmış eylemlere veya becerilere dönüştürülür. Böylece ana problem bu yeteneklerin kullanılması ile çok daha hızlı çözülebilmektedir.Bu çalışmada, devingen ortamda SPÖden yararlanan, tümüyle kendi kendine bir öğrenme tekniği sunulmuş ve en iyi çözümün bulunmasını hızlandırmak için PÖ-İA tekniğine sıradüzensel yapının nasıl tümleneceği gösterilmiştir. Sıradüzensel PÖ-İA tekniğinin klasik PÖ-İA yaklaşımına üstünlüğünü göstermek amacıyla eğitim amaçlı bir uygulama örneği üzerinde, farklı ortam boyutlarıyla deneyler yapılmış ve sonuçları sunulmuştur. ABSTRACT Hierarchical Reinforcement Learning on Non-Stationary Environments Reinforcement Learning(RL) is a learning paradigm from the interaction of an agent with an environment where the agent makes two observations: an immediate reward that characterizes a crisp or smooth degree of how favorably the agent finds the action and sometimes a full, but most probably a partial representation of the environment’s state. The agent, by repetitively executing this action-response loop, seeks to attain a goal state in an attempt to accrue the maximum total reward; a remark that specifies both the concept of a “better” policy (i.e., a policy that results in a higher amount of total reward) and the way the goal state should be defined (i.e., a state that once attained by the agent should produce a uniquely and notably higher amount of immediate reward). In the above setting, the environment is assumed stationary. While for rare real world environments this assumption holds, it is usually considered to be an optimistic assumption in the context of real world problems. Classical RL approaches are able to adapt to a new state of the environment with a penalty of forgetting previous condition of the environment which must be learned all over again in case of the same condition emerges. Reinforcement Learning-Context Detection (RL-CD) is a technique helps determining changes of the environment’s nature which provides constructing different partial models for every condition of the environment. For each partial model a prediction quality evaluated continuously to decide which partial model to be activated or to create a new partial model when there is no better choice. On the other hand, on a dynamic environment partial models created by RL-CD are handled as distinct problems. On a large dynamic environment finding the optimum policy becomes challenging. In order to overcome this problem, RL-CD can be enhanced by implementing Hierarchical Reinforcement Learning (HRL) which accelerates the convergence to the optimum policy. Hierarchical structure allows temporally-extended actions called option which follows their individual policy. Once the problem divided into smaller tasks, they can be transformed into options and the optimum policy can be discovered by using these solutions. In this study we propose an autonomous agent that learns a dynamic environment by taking advantage of HRL and show how the hierarchical structure can be integrated into RL-CD to speed up the convergence of the optimum policy. Effectiveness of hierarchical RL-CD is compared with classical RL-CD on a grid world problem with various environment sizes.