Kielimalli

Tilastollinen kielimalli on sanajonon sanojen todennäköisyysjakauma tai sellainen todennäköisyysfunktio, joka tuottaa jakauman. Jos sanajonossa, esimerkiksi lauseessa, on $n$ sanaa, antaa kielimalli koko sanajonolle todennäköisyyden $P(w_{1},\ldots ,w_{n})$ . Kielimalli voidaan määritellä myös sanan osille, kuten morfeemeille.

Todennäköisyyksien avulla kielimallit osaavat muun muassa ennustaa, miten jonkin lauseen tulisi jatkua, vastata kysymyksiin, tai muodostaa kehotteen avulla pitkiäkin tekstejä kuten keskusteluja, runoja, koodeja tai artikkeleita.^[1]

Kielimallin perustana käytetään olemassaolevaa tekstiaineistoa eli korpusta, jonka avulla malli opetetaan. Aineisto voi olla peräisin kirjoista, sanomalehdistä, tv-ohjelmien transskripteistä tai vaikka internetistä. Mitä suurempi opetusaineisto, sitä parempi yleensä mallin ennustuskyky. Suurten opetusmateriaalien vuoksi mallit saattavat joskus oppia niistä myös ei-haluttuja asioita, kuten ennakkoasenteita.^[1]

Kielimalleja voidaan käyttää erilaisissa tietokonelingvistiikan sovelluksissa, kuten puheentunnistuksessa, konekääntämisessä, luonnollisen kielen tuottamisessa, kielen jäsentämisessä, tekstintunnistuksessa tai tiedonhaussa.

Kielimallien tyyppejä^[2]

1-grammi-malli eli unigram-malli: saneen todennäköisyys ei riipu muista saneista
2-grammi-malli: vain edellinen sane määrittää seuraavan saneen todennäköisyyden
n-grammi-malli: ottaa huomioon n − 1 edellistä sanetta
neuroverkkokielimallit
ehdollistettu kielimalli: ottaa kehotteen lisäksi huomioon kontekstivektorin
Transformer, jonka kehitti Google vuonna 2017^[3]

Joitain kuuluisia kielimalleja

OpenAI:n GPT (Generative pre-trained transformer)
- versiot GPT-2, GPT-3, GPT-3.5, GPT-4, joita on käytetty ChatGPT/InstructGPT -sovelluksissa^[4] ja Bing-hakukoneessa.^[5]

Meta Platforms/Facebookin LLaMA ^[6]
- vuotanut julkisuuteen ja ajettavissa kotikoneella.

Google AI: LaMDA (Language Model for Dialogue Applications)^[7], PaLM (Pathways Language Model)
- sovelluskohde Google Bard

DeepMind: Chinchilla

BERT: Bidirectional Encoder Representations from Transformers (BERT)
- Googlen vuonna 2018 julkaisema ensimmäinen transformer-perustainen kielimalli

Suomen kielen kielimalleja

FinBERT^[8]^[9]
Finnish GPT-3^[10]
Viking

Lähteet

↑ ^a ^b Tekoälyn uudet kielimallit hämmästyttävät | Vaasan yliopisto www.uwasa.fi. 20.9.2021. Viitattu 17.2.2023.
↑ Hauhio, Iikka: Kielimallien luovuuden kriteerit, s. 10-11. Helsingin yliopisto, 2022. Teoksen verkkoversio.
↑ https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
↑ ChatGPT: Optimizing Language Models for Dialogue openai.com. 30.11.2022. en
↑ https://blogs.bing.com/search/march_2023/Confirmed-the-new-Bing-runs-on-OpenAI%E2%80%99s-GPT-4
↑ https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
↑ https://blog.google/technology/ai/lamda/
↑ Kotimaiseen kielimalliin tarvittiin miljardeja sanoja – nyt tekoäly osaa kirjoittaa vaikka satuja suomeksi Yle Uutiset. 20.12.2021. Viitattu 17.2.2023.
↑ TurkuNLP/FinBERT github.com. 28.1.2023. Viitattu 17.2.2023.
↑ TurkuNLP turkunlp.org. Viitattu 20.2.2023.