Off-policy vyhodnocovanie a učenie v adaptívnych systémoch

Abstract
Offline učenie a vyhodnocovanie pre kontextové, mnohoruké bandit algoritmy je vysoko požadované riešenie na zlepšenie adaptívnych webových systémov, pretože proces môže byť spustený \emph{offline}, teda bez priamej interakcie s používateľmi, čím sa zabráni nasadení suboptimálnych algoritmov. Napriek mnohým výhodám offline učenia a vyhodnocovania, viacero problémov bráni širšej adopcii v praxi. Neexistuje žiadna metóda, ktorá by na základe dát vybrala najlepší estimátor a vedela automaticky vyladiť hyper-parametere estimátora. Existujúce algoritmy často nie sú škálovateľné na veľké počty akcií, čo je bežný prípad v dnešných e-commerce odporúčačoch. V tejto práci sa snažíme vyriešiť dva praktické problémy pre každú oblasť, off-policy vyhodnocovanie a off-policy učenie. Pre off-policy vyhodnocovanie: (1) Navrhujeme nový algoritmus založený na krížovej validácii, ktorý umožní výber najlepšieho estimátora a vyladenie jeho hyper-parametrov napriek tomu, že v offline vyhodnocovaní nemáme prístup k žiadnej validačnej vzorke. (2) Offline vyhodnocovanie s veľkým množstvom akcií pomocou návrhu nového prístupu, ktorý sa učí nízko-dimenzionálne reprezentácie akcií a tým pádom sa lepšie škáluje z narastajucím počtom akcií. Pri off-policy učení sa adresujeme dva problémy, ktoré vznikajú kvôli nepresnému modelu: (1) Riešime nadmernú sebadôveru použitím pesimistických odhadov v offline učení pre kombinatorické priestory akcií a zároveň dosahujeme priaznivú výpočtovú zložitosť. (2) Reformulujeme populárnu definíciu odmeny, ktorá sa často používa pre doladenie jazykových modelov, aby odppovedali podľa ľudských preferencií, vďaka ktorej vieme predísť hackovaniu odmeny v procese učenia.
Off-policy learning and evaluation for contextual multi-armed bandits are a highly desirable solution for improving the performance of adaptive web-based systems as the process can be run \emph{offline}, that is, without directly interacting with the users, preventing the deployment of sub-optimal policies. However, multiple practical considerations, such as the lack of a data-driven model selection procedure and limited scaling of the algorithms to large action spaces, prevent a wider adoption of off-policy techniques. In this thesis, we study both off-policy evaluation and off-policy learning and address two problems in each to make off-policy methods more practical. In off-policy evaluation, we address: (1) Estimator selection and hyper-parameter tuning by designing a cross-validation method that bypasses the lack of ground truth validation data. (2) Off-policy evaluation with large action spaces by proposing a novel estimator that scales well with a growing number of actions by learning the similarities between the actions. In off-policy learning, we address the problems arising due to the noise in the reward model by: (1) Applying pessimistic value estimation to address the overconfidence in off-policy learning for large combinatorial action spaces while keeping the optimization computationally tractable. (2) Reformulating a popular learning objective when aligning large language models to prevent reward hacking.
Description
Citation
ČIEF, M. Off-policy vyhodnocovanie a učenie v adaptívnych systémoch [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
doc. Ing. Jiří Jaroš, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Pavel Kordík, Ph.D. (člen) prof. Ing. Ján Paralič, PhD. (člen) doc. Mgr. Radek Pelánek, Ph.D. (člen)
Date of acceptance
2025-05-26
Defence
Student přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 4. Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. The student presented the goals and results that he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 4. The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. Komise jednomyslně doporučuje a oponenti podpořili, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci, a to z důvodu, že jde o velmi kvalitní disertační práci, která je publikovaná na jedné A* a dvou A konferencích a byla odevzdána ve standardní době studia. Také byla práce citována jedním z největších expertů v dané oblasti. The committee unanimously recommends, and the opponents support, to awarding the thesis the Dean's Award for an exceptionally high-quality dissertation.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO