PATRIK, N. Analýza obsahu dokumentů pomocí grafových neuronových sítí [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Student pracoval na zajímavém a náročnějším tématu a zdá se mi, že nakonec otestoval smysluplný systém a vytvářel vlastní anotace. Výsledky ale nejsou příliš přesvědčivé a experimentů mělo být více. Student druhý rok řešení vůbec nekomunikoval a svou práci nijak nekonzultoval. I první rok byla jeho aktivita nižší.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Informace k zadání | Téma přímo navazuje na projekty, které řešíme ve skupině a můj plán byl, že se student přímo do projektů zapojí a jeho práce bude součástí open source balíčků zaměřených na zpracování dokumentů, které vyvíjíme. Bohužel student byl v kontaktu pouze první rok, druhý rok vůbec nekomunikoval a svou práci vůbec nekonzultoval. Podle odevzdaného textu soudím, že student nakonec provedl nějaké smysluplné experimenty, ale výsledky nejsou příliš přesvědčivé. Čekal jsem, že experimentů bude mnohem více, že student bude experimentovat s různou velikostí sítí, s různým nastavením hyperparametrů a s různou reprezentací dat. | ||
Práce s literaturou | Student si vyhledal potřebné zdroje a nastudoval si je. | ||
Aktivita během řešení, konzultace, komunikace | Student na tématu pracoval dva roky. Už první rok měl tendenci se odmlčovat. Druhý rok pak už nekonzultoval vůbec, ani se neúčastnil prezentací na konci prvního semestru. | ||
Aktivita při dokončování | O dokončování nemám žádné informace, ale podle experimentů předpokládám, že práci student dokončoval těsně před termínem odevzdání. | ||
Publikační činnost, ocenění |
Although Mr. Nikolas's solution did not achieve good results, it is a very difficult topic of a research nature, overall I like the style how he handled the assignment, and due to the difficulty of the assignment, I rate the thesis as very good.
Kritérium | Známka | Body | Slovní hodnocení |
---|---|---|---|
Náročnost zadání | Semantic analysis of documents is a live research topic, and the use of graph neural networks is one of the most recent approaches. The assignment requires an intensive study of existing complex techniques from scientific papers and a good understanding of the principles of advanced neural network architectures. | ||
Rozsah splnění požadavků zadání | All required assignment points have been met. I consider the extension of the Label Studio CE tool to support so-called Active Learning to be a significant extension, which moves the technical solution from just scripts working with neural networks to the implementation of a client/server solution by using tools like Flask and Redis. | ||
Rozsah technické zprávy | The thesis is between the minimum and the usual scope. Everything important is said, the work does not contain a significant amount of unnecessary text. I appreciate the well-written Chapter 2, which gives the necessary basic understanding of graph neural networks, as well as the overview of state-of-the-art methods in Chapter 3. The scope and level of detail is ideal. | ||
Prezentační úroveň technické zprávy | 80 | The structure of the thesis is logical and does not force the reader to go back and forth. The text of the work is readable and understandable, just it would be great to supplement it with more figures or diagrams - e.g. architecture of models in Chapter 3.3 or examples of expected outputs for task definitions in Chapter 4.1. Other notes are of a cosmetic nature: I would like to see examples of documents from the datasets (Chapter 3.1) to understand their character. Figure 3.1 is rather of poor quality and Figure 5.1 is hard to read. A general description of tools like Label Studio or Tesseract OCR seems a bit unnecessary to me, or I would move them to a separate chapter outside of the actual implementation details. Table 7.1 is described as "Text entity detection/Semantic labeling", but in the table I only see Precision/Recall values, which according to the cited paper are related to the detection of bounding boxes (at least 0.5 IOU) of text fields. By the way, it is better to explain the metrics used directly in the text. | |
Formální úprava technické zprávy | 70 | The report is written in good English. The use of commas, articles and sometimes the composition of sentences could be improved. An overall good impression is needlessly marred by misspellings that would have been detected by a spell checker ("beggining", "finding best the parameters", "we trying", etc.). I'm not a fan of using the plural: "we use/introduce/..." The diploma thesis should be the work of one author. The obligatory question is: Who are we? I find it much more appropriate to use the passive: "X is used/introduced/..." The goal of theses is to write a report about what you have done and how it works for you. The text sometimes sounds like a teaching text: "Here we describe..." | |
Práce s literaturou | 95 | The literature consists of scientific articles, including recent ones. It is broad, relevant and fresh. I just miss some comparison of the approaches. What the LayoutLMv2 model can do better than the previous one, what are the results of models on the FUNSD dataset, etc. | |
Realizační výstup | 80 | The practical implementation is at a high level. In addition to scripts for working with the datasets and neural networks, it also includes the implementation of support for Active Learning in the Label Studio Community Edition tool. In addition, everything is containerized using Docker for easier work, which I also appreciate. | |
Využitelnost výsledků | From a scientific point of view, the results are far to be great, but they can help to further direct research and experiments in the field. It would require more analysis of what is wrong - the dataset or the model? When the model works and when it doesn't. Perhaps a simpler, but larger dataset, e.g. synthetically generated using various Word templates, would help. It is also not clear how fundamental problem the weak Tesseract OCR results is. It would be useful to show a few pictures - how the results look visually, on which documents and how the OCR fails. The support for Active Learning in Label Studio CE could be of practical use and the re-annotated dataset as well. |
eVSKP id 149893