Off-policy vyhodnocovanie a učenie v adaptívnych systémoch

but.committeedoc. Ing. Jiří Jaroš, Ph.D. (předseda) prof. Dr. Ing. Jan Černocký (člen) doc. Ing. Pavel Kordík, Ph.D. (člen) prof. Ing. Ján Paralič, PhD. (člen) doc. Mgr. Radek Pelánek, Ph.D. (člen)cs
but.defenceStudent přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 4. Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. The student presented the goals and results that he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 4. The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. Komise jednomyslně doporučuje a oponenti podpořili, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci, a to z důvodu, že jde o velmi kvalitní disertační práci, která je publikovaná na jedné A* a dvou A konferencích a byla odevzdána ve standardní době studia. Také byla práce citována jedním z největších expertů v dané oblasti. The committee unanimously recommends, and the opponents support, to awarding the thesis the Dean's Award for an exceptionally high-quality dissertation.cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorKompan, Michalen
dc.contributor.authorČief, Matejen
dc.contributor.refereeLarson, Marthaen
dc.contributor.refereeKordík, Pavelen
dc.date.created2025cs
dc.description.abstractOffline učenie a vyhodnocovanie pre kontextové, mnohoruké bandit algoritmy je vysoko požadované riešenie na zlepšenie adaptívnych webových systémov, pretože proces môže byť spustený \emph{offline}, teda bez priamej interakcie s používateľmi, čím sa zabráni nasadení suboptimálnych algoritmov. Napriek mnohým výhodám offline učenia a vyhodnocovania, viacero problémov bráni širšej adopcii v praxi. Neexistuje žiadna metóda, ktorá by na základe dát vybrala najlepší estimátor a vedela automaticky vyladiť hyper-parametere estimátora. Existujúce algoritmy často nie sú škálovateľné na veľké počty akcií, čo je bežný prípad v dnešných e-commerce odporúčačoch. V tejto práci sa snažíme vyriešiť dva praktické problémy pre každú oblasť, off-policy vyhodnocovanie a off-policy učenie. Pre off-policy vyhodnocovanie: (1) Navrhujeme nový algoritmus založený na krížovej validácii, ktorý umožní výber najlepšieho estimátora a vyladenie jeho hyper-parametrov napriek tomu, že v offline vyhodnocovaní nemáme prístup k žiadnej validačnej vzorke. (2) Offline vyhodnocovanie s veľkým množstvom akcií pomocou návrhu nového prístupu, ktorý sa učí nízko-dimenzionálne reprezentácie akcií a tým pádom sa lepšie škáluje z narastajucím počtom akcií. Pri off-policy učení sa adresujeme dva problémy, ktoré vznikajú kvôli nepresnému modelu: (1) Riešime nadmernú sebadôveru použitím pesimistických odhadov v offline učení pre kombinatorické priestory akcií a zároveň dosahujeme priaznivú výpočtovú zložitosť. (2) Reformulujeme populárnu definíciu odmeny, ktorá sa často používa pre doladenie jazykových modelov, aby odppovedali podľa ľudských preferencií, vďaka ktorej vieme predísť hackovaniu odmeny v procese učenia.en
dc.description.abstractOff-policy learning and evaluation for contextual multi-armed bandits are a highly desirable solution for improving the performance of adaptive web-based systems as the process can be run \emph{offline}, that is, without directly interacting with the users, preventing the deployment of sub-optimal policies. However, multiple practical considerations, such as the lack of a data-driven model selection procedure and limited scaling of the algorithms to large action spaces, prevent a wider adoption of off-policy techniques. In this thesis, we study both off-policy evaluation and off-policy learning and address two problems in each to make off-policy methods more practical. In off-policy evaluation, we address: (1) Estimator selection and hyper-parameter tuning by designing a cross-validation method that bypasses the lack of ground truth validation data. (2) Off-policy evaluation with large action spaces by proposing a novel estimator that scales well with a growing number of actions by learning the similarities between the actions. In off-policy learning, we address the problems arising due to the noise in the reward model by: (1) Applying pessimistic value estimation to address the overconfidence in off-policy learning for large combinatorial action spaces while keeping the optimization computationally tractable. (2) Reformulating a popular learning objective when aligning large language models to prevent reward hacking.cs
dc.description.markPcs
dc.identifier.citationČIEF, M. Off-policy vyhodnocovanie a učenie v adaptívnych systémoch [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2025.cs
dc.identifier.other166445cs
dc.identifier.urihttp://hdl.handle.net/11012/251048
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectoffline bandit algoritmyen
dc.subjectodporúčačeen
dc.subjectodporúčanie listoven
dc.subjectučenie s odmenou a trestom definovanou človekomen
dc.subjectoffline bandit algorithmscs
dc.subjectrecommenderscs
dc.subjectlearning to rankcs
dc.subjectreinforcement learning from human feedbackcs
dc.titleOff-policy vyhodnocovanie a učenie v adaptívnych systémochen
dc.title.alternativeOff-policy evaluation and learning in adaptive systemscs
dc.typeTextcs
dc.type.driverdoctoralThesisen
dc.type.evskpdizertační prácecs
dcterms.dateAccepted2025-05-26cs
dcterms.modified2025-05-26-14:33:35cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid166445en
sync.item.dbtypeZPen
sync.item.insts2025.06.04 10:01:57en
sync.item.modts2025.06.03 15:37:10en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačové grafiky a multimédiícs
thesis.levelDoktorskýcs
thesis.namePh.D.cs
Files
Original bundle
Now showing 1 - 5 of 6
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.05 MB
Format:
Adobe Portable Document Format
Description:
file final-thesis.pdf
Loading...
Thumbnail Image
Name:
appendix-1.pdf
Size:
378.13 KB
Format:
Adobe Portable Document Format
Description:
file appendix-1.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-Ciefreviewsupervisor.pdf
Size:
34.93 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Vedouci prace-Ciefreviewsupervisor.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-anonym_phdreview_MatejCief.pdf
Size:
77.03 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-anonym_phdreview_MatejCief.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-posudekdizertacecieffinal_signed.pdf
Size:
215.88 KB
Format:
Adobe Portable Document Format
Description:
file Posudek-Oponent prace-posudekdizertacecieffinal_signed.pdf
Collections