Skip to main content
Login | Suomeksi | På svenska | In English

Browsing by Author "Jokinen, Olli"

Sort by: Order: Results:

  • Jokinen, Olli (2024)
    The rise of large language models (LLMs) has revolutionized natural language processing, par- ticularly through transfer learning and fine-tuning paradigms that enhance the understanding of complex textual data. This thesis builds upon the concept of fine-tuning to improve the under- standing of Finnish Wikipedia articles. Specifically, a BERT-based language model is fine-tuned to create high-quality document representations from Finnish texts. The learned representations are applied to downstream tasks, where the model’s performance is evaluated against baseline models. This thesis draws on the SPECTER paper, published in 2020, which introduced a training frame- work for fine-tuning a general-purpose document embedder. SPECTER was trained using a document-level training objective that leveraged document link information. Originally, SPECTER was designed for scientific articles, utilizing citations between articles. The training instances con- sisted of triplets of query, positive, and negative papers, with the aim of capturing the semantic similarity of the documents. This work extends the SPECTER framework to Finnish Wikipedia data. While scientific articles have citations, Wikipedia’s cross-references are used to build a document graph that captures the relatedness between articles. Additionally, Wikipedia data is publicly available as a full data dump, making it an attractive choice for the dataset in this thesis. One of the objectives is to demonstrate the flexibility of the SPECTER framework on a new dataset that has a similar networked structure to that of scientific articles. The fine-tuned model can be used as a general-purpose tool for various tasks and applications; however, in this thesis, its performance is measured in topic classification and cross-reference ranking. The Transformer-based language model produces fixed-length embeddings, which are used as features in the topic classification task and as vectors to measure the L2 distance of article vectors in the cross-reference prediction task. This thesis shows that the proposed model, WikiSpecter, optimized with a document-level objective, outperformed baseline models in both tasks. The performance indicates that Finnish Wikipedia provides relevant cross-references that help the model capture relationships across a range of topics.
  • Jokinen, Olli (2012)
    Tutkielmassa selvitetään keskitetyn tunnistautumispalvelun toteuttamista palveluperustaisten arkkitehtuurien mukaisissa web-sovellusympäristöissä. Painopisteenä ovat sovellusympäristöt, joissa ollaan siirtymässä palveluperustaisiin arkkitehtuureihin. Tutkielmassa käytetään esimerkkinä tällaisesta ympäristöstä Kapsi Internet-käyttäjät ry:n jäsenhallintatyökaluja, joiden tunnistautuminen muutetaan keskitetyn tunnistautumispalvelun tehtäväksi. Ensimmäiseksi tutkielmassa esitellään web-sovellusten kehitys varhaisista CGI-ohjelmista kohti palveluperustaisten arkkitehtuurien mukaisia web-sovelluksia ja esitellään tunnistautumisen tarpeet tällaisissa arkkitehtuureissa sekä käydään läpi turvallisuuden osatekijöitä ja tavallisia tunnistautumiseen liittyviä ongelmia web-sovelluksissa. Seuraavaksi hahmotellaan tunnistautumisongelman ratkaisuun tarkoitettu keskitetty tunnistautumispalvelu sekä pohditaan sen etuja ja haittoja verrattuna nykyisin yleisesti käytettyihin tunnistautumismekanismeihin. Sitten tutkitaan tunnistautumispalvelun ja web-sovelluksen väliseen rajapintaan käytettäviä protokollia (SAML, OpenID ja OAuth) ja esitellään OAuth-protokollaa käyttävä Kapsin web-sovellusarkkitehtuuri. Esitetyn arkkitehtuurin etuja ja haittoja sekä sen soveltamista muihin vastaaviin ympäristöihin tutkitaan myös. Arkkitehtuurin laajentamista keskitettyyn pääsynvalvontaan ja kertakirjautumiseen pohditaan tutkielman loppupuolella. Lopuksi pohditaan ulkoisen tunnistautumispalvelun käyttöä, esimerkkinä käytetään Facebookin tarjoamaa tunnistautumisrajapintaa. ACM Computing Classification System (CCS): Security and privacy → Authentication Security and privacy → Web application security Information systems → Web applications Applied computing → Service-oriented architectures