Datorlingvistik (CL) är tillämpningen av datavetenskap på analys, syntes och förståelse av skrivet och talat språk. Datorlingvistik används i omedelbar maskinöversättning, system för taligenkänning (SR), synteser för text till tal (TTS), system för interaktivt röstsvar (IVR), sökmotorer, textredigerare och språkundervisningsmaterial. Det tvärvetenskapliga studieområdet kräver expertis inom maskininlärning (ML), djupinlärning (DL), artificiell intelligens (AI), kognitiv databehandling och neurovetenskap.
En datoriserad förståelse av språk ger människan insikter om tänkande och intelligens. Datorer som är språkligt kompetenta bidrar inte bara till att underlätta mänsklig interaktion med maskiner och programvara, utan gör också att textresurser och andra resurser på internet blir lättillgängliga på flera språk. Verksamhetsmålen för datorlingvistik är bland annat:
- Översättning av text från ett språk till ett annat.
- Hämtning av text som rör ett visst ämne.
- Analysering av text eller talat språk med avseende på sammanhang, känslor eller andra affektiva kvaliteter.
- Svar på frågor, inklusive frågor som kräver slutsatser och beskrivande eller diskursiva svar.
- Summering av text.
- Byggande av dialogagenter som kan utföra komplexa uppgifter, t.ex. att göra ett köp, planera en resa eller schemalägga underhåll.
- Skapande av chattrobotar som klarar Turing-testet.
De flesta arbeten inom beräkningslingvistik – som har både teoretiska och tillämpade inslag – syftar till att förbättra förhållandet mellan datorer och grundläggande språk. Det handlar om att bygga artefakter som kan användas för att bearbeta och producera språk. För att bygga sådana artefakter krävs att datavetare analyserar enorma mängder skrivet och talat språk i både strukturerade och ostrukturerade format.
Typiskt sett är datalingvister anställda vid universitet, statliga forskningslaboratorier eller stora företag. Inom den privata sektorn anställer vertikala företag som Caterpillar vanligtvis datalingvister för att verifiera den korrekta översättningen av tekniska manualer. Tekniska programvaruföretag som Microsoft anställer vanligtvis lingvister för att arbeta med naturlig språkbehandling (NLP) och hjälpa programmerare att skapa röststyrda användargränssnitt som så småningom kommer att göra det möjligt för människor att kommunicera med datorutrustning som om de vore en annan person.
Det finns fler jobbmöjligheter för språkexperter som kan hjälpa utvecklare att förbättra sökmotorer på Internet, bygga virtuella assistenter och integrera taligenkänning med andra språkbehandlingstekniker. Efterfrågan ökar också på datalingvister inom den offentliga sektorn när myndigheterna brottas med den ständiga ökningen av ostrukturerade data.
Och även om begreppet datoriserad lingvistik ofta förknippas med artificiell intelligens, föregår det utvecklingen av artificiell intelligens, enligt Association for Computational Linguistics.