epr是什么| 种植牙是什么意思| 户籍类型是什么| 什么东西可以美白| 入伏吃什么| 什么食物降血压| 什么是斜视| 女人肾虚吃什么| 爸爸的舅舅叫什么| 看中医挂什么科| 20点是什么时辰| 淡盐水是什么水| 警犬都是什么品种| 天丝是什么| 觅是什么意思| 唾液酸苷酶阳性是什么意思| 早孕反应最早什么时候出现| 一的五行属性是什么| 月亮五行属什么| 出汗对身体有什么好处| 人生价值是什么| 两个a是什么牌子| otc代表什么| 经常发烧是什么原因| 大咖什么意思| 婷婷玉立什么意思| 梦见自己升职了是什么预兆| 榴莲蜜什么味道| 干戈是什么意思| 属羊五行属什么| 暖寿是什么意思| 劝君更尽一杯酒的下一句是什么| 宬字五行属什么| 铁杵是什么| 脱发严重应该去医院挂什么科| 天贵星是什么意思| 病毒性感冒吃什么药效果好| 大马猴是什么意思| 眼睛充血用什么药| 三月14号是什么星座| 艾滋病检查什么项目| 早晨起床口干口苦是什么原因| 什么门比较好| 下饭菜都有什么菜| 低钾吃什么药| 早上起来手麻是什么原因| 左后背疼什么原因| 耐受性是什么意思| bp是什么意思| 咳嗽有血是什么原因| 梦见佛祖是什么意思| 吃环孢素有什么副作用| 沙特是什么教派| 子宫内膜炎有什么症状| 松鼠咬人后为什么会死| 平肝潜阳是什么意思| 什么原因引起甲亢| 做活检前要注意什么| 出马什么意思| 什么叫无产阶级| 金色葡萄球菌用什么药| 12年属什么生肖| 细菌感染引起的发烧吃什么药| 宝宝什么时候长牙| 空集是什么意思| 乙亥五行属什么| 威胁什么意思| 贪嗔痴是什么意思| 天克地冲是什么意思| 什么是提示语| 司长是什么级别的官| 睡觉咳嗽是什么原因| 颈椎病用什么药膏| 周岁什么意思| 财鱼是什么鱼| 什么叫做基本工资| 五个月宝宝可以吃什么水果| 胆囊息肉挂什么科| 蚊子最怕什么东西| 梦见长大水是什么意思| 脖子左侧疼是什么原因| 查高血压挂什么科| 更年期出汗多是什么原因| nnd什么意思| 新鲜橄榄菜长什么样子| 武汉都有什么区| 立刀旁与什么有关| 肠溶片是什么意思| 什么病不能吃鲤鱼| 神经内科和神经外科有什么区别| 口大是什么字| 4月23是什么星座| 水军什么意思| 莲花白是什么菜| 氯化镁是什么| 渗透压是什么| pha是什么意思| nct是什么意思| 基因突变是什么病| 聚乙烯醇是什么材料| 一感冒就咳嗽是什么原因| 什么是感觉| 梦见着大火了是什么征兆| 乳腺结节钙化是什么意思| 孕早期适合吃什么食物| 全血是什么意思| 头晕恶心呕吐是什么原因| 扎手指放血治什么| 神经大条是什么意思| 网球肘吃什么药| 泡脚去湿气用什么泡最好| 嘴唇起水泡是什么原因| 禾加末念什么| 顾名思义什么意思| 口苦什么原因| 龙肉指的是什么肉| 无意识是什么意思| 经常感觉口渴口干是什么原因| 登对是什么意思| mk属于什么档次| 鲁迅是什么样的人| 支付宝提现是什么意思| 腿肿吃什么药消肿最快最有效| 过期的洗面奶可以用来做什么| 高血压喝什么茶最好| 为什么崴脚了休息一晚脚更疼| 二月花是什么花| 安五行属性是什么| 布吉岛什么意思| 368什么意思| 壬申日是什么意思| 耵聍是什么| 蛋糕裙搭配什么上衣| 幡然是什么意思| 血糖高吃什么可以降下来| 献血和献血浆有什么区别| 国资委什么级别| 一只什么| 电镀对人体有什么危害| 哺乳期感冒可以吃什么药| 颈椎病用什么枕头最好| 谐音是什么意思| 布拉吉是什么| 金童玉女指什么生肖| 什么的天空| kipling是什么牌子| 什么是低筋面粉| 痛风急性期吃什么药| 高足是什么意思| 眼睛干涩吃什么中成药| 吃什么有利于排便| 七夕节是什么意思| 坐围和臀围有什么区别| 生抽和老抽有什么区别| 螃蟹不能和什么食物一起吃| 弃猫效应是什么| 足及念什么| 心凉是什么意思| 一本万利是什么意思| 鹅蛋什么人不能吃| 糙皮病是什么病| pick是什么意思| 微信限额是什么意思| 尿隐血是什么意思| hpv什么病毒| 舌尖发麻是什么原因引起的| 丙五行属什么| 什么叫牙周炎| 向日葵代表什么象征意义| 胃体隆起是什么意思| 脑供血不足中医叫什么| 送老爸什么礼物| 飞机用什么燃油| 凤仙花什么时候开花| 大马士革是什么意思| 夜盲症缺什么| 擦什么能阻止毛发生长| 什么是k金| 胆固醇高不能吃什么| 脚上有痣代表什么| 杀虫剂中毒有什么症状| 猫的舌头为什么有刺| 核桃什么时候成熟| 凉粉是用什么做的| 什么什么的大树| 无产阶级是什么意思| 宋徽宗叫什么| 乙肝15阳性什么意思| 黑蝴蝶代表什么| 好事多磨是什么意思| 过度是什么意思| 蛇缠身是什么病| 肚子疼是为什么| 公卿是什么意思| 如果怀孕了会有什么预兆| 什么样的夜晚| media是什么意思| 怀孕肚子会有什么反应| 空腹血糖17已经严重到什么时候| 天津市市长是什么级别| 梦见和老公吵架是什么意思| 四大金刚是什么意思| 靖国神社是什么地方| 上吐下泻吃什么药| 问诊是什么意思| 阴道发臭是什么原因| 猫传腹是什么病| 西安五行属什么| hpv16有什么症状| 皮肤病用什么药膏好| 白虎是什么意思| 肠胃不好吃什么药| 上海松江有什么好玩的地方| 什么叫变应性鼻炎| 心脏供血不足是什么原因引起的| 又吐又拉是什么原因| 戴隐形眼镜用什么眼药水| 梦见穿裤子是什么意思| 静脉血栓是什么症状| ng是什么意思| 狗摇尾巴是什么意思| 长沙有什么特产| 纳甲是什么意思| 吃什么对心脏好改善供血不足| 阴道清洁度三度什么意思| 梦见自己的头发长长了是什么意思| 痔疮什么样子| 1996年属什么的| 四不像是指什么动物| 羽丝绒是什么材料| 孩子上吐下泻吃什么药| 汴去掉三点水念什么| daddy是什么意思| 火耗归公是什么意思| 手脚发烫是什么原因造成的| 虎口是什么穴位| geneva是什么牌子手表| 送什么礼品好| 火龙果什么季节成熟| 举足轻重是什么意思| 做梦拉粑粑是什么意思| 涤纶是什么面料| 5.23是什么星座| 真菌感染脚气用什么药| 什么油锯好| 小本创业做什么生意好| 小便黄是什么原因引起的| 岳绮罗是什么来历| 七月十日是什么星座| 仙风道骨指什么生肖| 花生什么时候收| 茉莉花什么时候开花| 大姨妈来能吃什么水果| 骨密度高是什么意思| 辛卯五行属什么| 什么是PC出轨| 笋壳鱼是什么鱼| 幽门螺旋杆菌是什么症状| 公历是什么历| 梦见生娃娃是什么意思| 肠胀气是什么原因引起的怎么解决| p53阳性是什么意思| 夏季吃什么水果好| 唐朝以后是什么朝代| 百度Vai al contenuto

世锦赛丁俊晖内战10-5胜周跃龙 次轮约战梁文博

Da Wikipedia, l'enciclopedia libera.
百度   刘伟平要求,要深刻理解增强“四个意识”的重大意义,切实把思想和行动统一到落实党中央、国务院的决策部署上来。

La linguistica computazionale si concentra sullo sviluppo di formalismi descrittivi del funzionamento di una lingua naturale, che siano tali da poter essere trasformati in programmi eseguibili da computer.

I problemi che affronta la linguistica computazionale – come intuibile dal nome stesso della disciplina – consistono nel trovare una mediazione fra il linguaggio umano, oggetto di studio in costante evoluzione, e le capacità di comprensione della macchina, limitate a quanto può essere descritto mediante regole formali.

Storia della disciplina

[modifica | modifica wikitesto]

All'inizio della seconda metà del Novecento, due diversi filoni di ricerca costruirono le fondamenta sulle quali oggi poggia la linguistica computazionale:

a) gli studi di padre Roberto Busa intorno all'utilizzo del computer come mezzo di immagazzinamento e di analisi del testo (anni Cinquanta e Sessanta), che sfociarono nella creazione del primo corpus elettronico dell'opera di Tommaso d'Aquino[1];
b) l'applicazione di metodi formali alle suddette analisi testuali (anni Sessanta e Settanta), che procedette di pari passo ai progressi fatti nel settore dell'Intelligenza Artificiale.

Il neonato settore dell'Elaborazione del Linguaggio Naturale (in inglese Natural Language Processing), fu lungamente influenzato dai metodi deduttivi utilizzati dalla grammatica generativa di Noam Chomsky: questa teoria linguistica, prescindendo dall'uso, cerca di individuare delle regole astratte che descrivano la competenza della lingua posseduta da un parlante.

Di fianco alla tradizione razionalista se ne sviluppò una seconda che dava invece la priorità alla raccolta di ingenti quantità di testi: i corpora. Questo indirizzo (prevalente in Gran Bretagna e negli Stati Uniti) sfruttava metodi statistici per estrarre dai testi regolarità linguistiche, punti di partenza per la descrizione della struttura del linguaggio. Il primo grande successo del "metodo empirista" è datato 1964, anno di comparsa del Brown Corpus di Francis e Kucera: si tratta del primo esempio di corpus nato per lo studio di una varietà linguistica contemporanea, in tal caso l'inglese americano.

La crescita delle dimensioni dei corpora - sempre più fondamentali per verificare l'efficacia degli strumenti - e quella parallela del web - dalle infinite risorse testuali - hanno sancito il prevalere del secondo approccio. Infatti, con l'aumento delle dimensioni del materiale da analizzare, occorrevano tecnologie che potessero affrontare l'immensa varietà delle realizzazioni linguistiche: le astrazioni dall'uso della metodologia razionalista, che avevano portato alla creazione dei cosiddetti "modelli giocattolo" (applicazioni di analisi linguistica inefficaci in contesti reali), erano inadeguate a tale scopo. Inoltre, nacquero linguaggi standard di marcatura come XML che aumentarono l'usabilità e la facilità di scambio reciproco dei corpora e permisero di esplicitare le strutture dei testi.

Oggi la Linguistica Computazionale può contare su numerosi gruppi di ricerca nel panorama scientifico internazionale; un buon numero di centri sono presenti anche sul territorio italiano (per esempio l'Istituto di Linguistica Computazionale del Consiglio Nazionale delle Ricerche, fondato da Antonio Zampolli) e più d'una università italiana ha posto l'Informatica umanistica come materia fondamentale di percorsi di studio a metà fra l'Informatica e gli studi umanistici. Dopo una lunga contrapposizione fra approccio razionalista ed empirista, ci si orienta sempre più verso la messa a punto di strumenti che, al tempo stesso, incorporino la conoscenza rappresentata come regole astratte e come moduli statistici. Siamo tuttavia ancora distanti dal simulare con le tecnologie informatiche una competenza linguistica paragonabile a quella umana, per limiti che non sono solo tecnici, ma che concernono anche la nostra comprensione delle modalità con cui il linguaggio viene elaborato dalla mente umana.

Analizzare il testo

[modifica | modifica wikitesto]

Il problema principale, quando si vuole avviare l'analisi computazionale del testo, è stabilire dei criteri di identificazione per quella che è la sua unità di base: la parola.

La tokenizzazione, ovvero l'operazione mediante la quale si suddivide il testo in Token, è relativamente semplice per lingue che adoperano gli spazi per delimitare le parole; molto complessa per lingue a sistema ortografico continuo (l'operazione richiede algoritmi estremamente complicati). Se ci limitiamo al primo caso, il token è definibile semplicemente come una qualunque sequenza di caratteri delimitata dagli spazi; tuttavia, tale definizione lascia spazio a numerose eccezioni. Pensiamo ad esempio ai segni di punteggiatura, che compaiono attaccati alle parole: l'apostrofo compare di norma in mezzo a due parole diverse che, in virtù della definizione, verrebbero erroneamente identificate come una parola unica.

L'ambiguità della punteggiatura costituisce un problema anche quando dobbiamo identificare l'unità linguistica superiore alla parola, ovvero la frase. Potremmo definire le frasi -semplificando- come sequenze di parole separate da punto e spazio e comincianti con una maiuscola; ma ci sono anche abbreviazioni come "Mr. Johnson" che, secondo questa euristica, verrebbero scisse in frasi distinte.

Stringhe ed espressioni regolari

[modifica | modifica wikitesto]

Come si capisce dagli esempi precedenti, la tokenizzazione deve basarsi su criteri a volte complessi per tenere conto delle possibili eccezioni. La ricerca di stringhe, cioè sequenze di caratteri che soddisfino certi criteri, viene effettuata per mezzo delle espressioni regolari, notazioni algebriche che descrivono formalmente dei pattern di stringhe. Vari linguaggi di programmazione, ad esempio Perl, consentono di specificare pattern di stringhe tramite la sintassi delle espressioni regolari (d'ora in poi ER) e verificano se in un testo esistono pattern corrispondenti. Ogni linguaggio restituisce un diverso risultato, nel caso la corrispondenza sia verificata: la stringa che soddisfa il pattern, la sua riga di occorrenza, un valore booleano ecc.

Tramite le ER, possiamo formulare euristiche a struttura condizionale cioè basate sulla verifica di una serie di condizioni. L'esempio che segue mostra un'euristica per individuare il punto come confine di frase.

/\b[a-z]+\.\s+[A-Z]/

Se il punto è preceduto da una parola in lettere minuscole (\b indica il confine di token, la sequenza "[a-z]+" indica l'occorrenza di una o più lettere minuscole), seguito da uno o più spazi e infine da una maiuscola, allora quel punto è confine di frase ed andrà considerato come un token indipendente.

Il caso dell'abbreviazione (vedi sopra) non viene così risolto, perciò serviranno dei perfezionamenti di questa euristica. Ciò che conta però è che, grazie alle ER, possiamo formalizzare in modo semplice le regole per tokenizzare il testo correttamente, regole leggibili dai programmi che si occupano di tale operazione: i tokenizzatori.

Tipi di token

[modifica | modifica wikitesto]

Se ci interessasse sapere quanto un testo tokenizzato è ricco dal punto di vista lessicale, può esserci utile classificare i token in tipi di token, ovvero raggruppare in classi dei tokens con qualche tipo di somiglianza reciproca. Ad esempio potremmo raggrupparli in base alla forma grafica: due tokens appartengono allo stesso tipo se sono identici a prescindere dalla posizione nel testo. Si dovrebbe poi fare astrazione dalla rappresentazione tipografica del testo, per escludere differenze del tipo minuscole/maiuscole, stampato/corsivo ecc. Quando forme tipografiche diverse di una stessa parola vengono ricondotte a una forma standard, si dice che sono ricondotte a una forma normalizzata.

Si definisce vocabolario di un testo l'insieme delle parole tipo che ricorrono al suo interno. Per farci un'idea della ricchezza lessicale di un testo, tenendo conto delle diverse lunghezze possibili, calcoliamo il rapporto fra i tipi di token -raggruppati in base alla loro forma normalizzata- e le unità di token (Type token ratio o TTR):

La TTR sarà sempre compresa fra 0 e 1: più vicino a 1 è il valore ottenuto, più variato e ricco sarà il testo analizzato.

Un altro indice interessante della ricchezza lessicale di un testo è il rapporto fra il numero di hapax in esso presenti e la lunghezza del testo, dove per "hapax" s'intendono le parole che ricorrono una volta sola.

Il valore ottenuto ci dice in che percentuale il testo sia composto da parole "uniche"; valori bassi corrispondono a testi molto ripetitivi.


In base alla loro frequenza, cioè al numero di occorrenze, potremmo ordinare le parole di un testo in una lista decrescente (dalle più frequenti alle meno frequenti). Indicando poi con un numero crescente le posizioni delle parole, chiameremmo questo numero rango della parola. Se osserviamo quali sono le parole del testo che occorrono più spesso, noteremo che ai primissimi ranghi ci sono le "parole grammaticali", grossomodo definibili come quelle parole che non sono associate ad un referente della realtà concreta o astratta, ma servono ad esprimere una serie di relazioni interne al sistema della lingua: ne sono un esempio articoli e preposizioni; queste parole costituiscono il tessuto connettivo di ogni testo, indipendentemente dall'argomento. In fondo alla lista ci saranno invece le "parole lessicalmente piene", la cui presenza è strettamente dipendente dall'argomento trattato. Va ricordato inoltre che le parole grammaticali sono una classe chiusa, cioè il loro numero complessivo in una lingua è basso e resta più o meno costante nel tempo, altro fattore che ne determina la massiccia presenza in qualunque tipo di testo. Un'interessante relazione esistente fra il rango della parola e la sua frequenza è espressa dalla Legge di Zipf.

Andamento del vocabolario

[modifica | modifica wikitesto]

La distribuzione delle parole cambia col procedere del testo, per cui potremmo interessarci ad una visione più dinamica su di esso, il che significa studiare come varia nel tempo la composizione del suo lessico. Un simile interesse è facilmente motivabile con la ricerca di una qualche regolarità statistica che ci consenta di prevedere la distribuzione finale delle parole, sulla base di osservazioni solo parziali dei dati. Abbastanza intuitivamente, il vocabolario cresce con grande rapidità a inizio testo, ma rallenta non appena le parole cominciano a ripetersi. Anche nei testi lessicalmente molto vari, la ripetizione perlomeno delle parole grammaticali è inevitabile. Un altro fattore a favore della ripetitività è inoltre la coerenza lessicale, perché quando parliamo di uno stesso argomento tendiamo a riutilizzare sempre i medesimi termini.

Il rapporto inverso alla TTR -ovvero la lunghezza del testo diviso per il suo vocabolario- ci restituisce la frequenza media delle parole in quel testo (f), un indice inverso della sua ricchezza lessicale. Ma se considerassimo le variazioni di T e vT nel procedere del testo, noteremmo che inizialmente il rapporto T/vT è uguale 1, per cominciare a crescere man mano che le parole si ripresentano. In testi dal contenuto omogeneo l'andamento è quello delle funzioni non decrescenti: ; occasionalmente può avvenire un'inversione di tendenza, con se nelle ultime h parole il vocabolario cresce in modo significativo, rispecchiando con ogni probabilità una qualche discontinuità del contenuto.

Teorema del limite centrale

[modifica | modifica wikitesto]

Le parole corte sono generalmente più facili delle parole lunghe, quindi potrebbe essere interessante indagare come le parole di un testo si distribuiscono se le suddividiamo in base al parametro della lunghezza. La lunghezza media delle parole di tutto il testo avrà inevitabilmente un valore basso, per via dell'incidenza nel dato delle parole grammaticali (brevi ed assai frequenti in ogni tipo di testo). Proviamo invece a confrontare i valori della lunghezza media in una serie di campioni di testo, per vedere quanto si discostano dalla media dell'intera popolazione: disponendo su un grafico le medie ottenute, noteremo che la loro distribuzione assume la forma a campana tipica della curva normale, e che il numero di esse che si discostano dalla media globale tanto più diminuisce quanto più aumenta lo scostamento. L'osservazione è anticipata dal Teorema del Limite Centrale, il quale permette di stabilire con quanta esattezza si possono generalizzare conclusioni tratte dall'evidenza quantitativa di un campione. Per il teorema, data una serie di campioni d'ampiezza n estratti da una popolazione, le loro medie tendono a distribuirsi secondo una curva normale; l'approssimazione a tale curva migliora al crescere di n, indipendentemente da come la popolazione di partenza si distribuisce intorno alla sua media. Ne possiamo evincere che

  • laddove le medie si disperdono maggiormente attorno all'asse principale non ci è possibile generalizzare le osservazioni sul campione all'intera popolazione;
  • più aumentano le dimensioni del campione, più sono affidabili le nostre generalizzazioni.

Dai testi ai corpora

[modifica | modifica wikitesto]

Un corpus è un insieme di testi che sono stati selezionati in modo da essere funzionali per l'analisi linguistica. Grazie al crescente interesse per i metodi statistici in linguistica computazionale e alla coscienza di quanto sia importante il dato linguistico vero e proprio ai fini dell'indagine, i corpora costituiscono oggi la principale fonte di dati per la disciplina. L'evoluzione dei computer inoltre ha giocato un ruolo fondamentale, poiché il calcolatore ci consente di immagazzinare quantità sempre crescenti di testi e di esplorarli più rapidamente ed efficacemente.

I corpora possono essere classificati in varie tipologie, a seconda dei criteri usati per selezionare i testi che lo compongono. Esistono:

  • corpora specialistici, ideati per studiare uno specifico settore della lingua (quello della medicina, della burocrazia ecc.) e corpora generali, i cui testi vengono selezionati trasversalmente rispetto alle diverse varietà di una lingua, per poterla poi esplorare nel suo insieme;
  • corpora di lingua scritta, di lingua parlata o misti;
  • corpora monolingue o multilingue;
  • corpora sincronici, i cui testi appartengono tutti a uno stesso momento nel tempo, e "corpora diacronici", comprendenti testi appartenenti a periodi differenti;
  • corpora annotati e non.

I corpora annotati, oggi sempre più diffusi, sono corpora in cui vengono codificate informazioni sulla struttura linguistica del testo a vari livelli (sintattico, semantico ecc.).

Rappresentatività dei corpora

[modifica | modifica wikitesto]

I corpora devono servire come fonte di dati al fine dell'indagine linguistica, ma non possono che racchiudere un sottoinsieme di tutti i prodotti linguistici in una data lingua. Affinché le osservazioni fatte sulla base di un corpus siano generalizzabili al più vasto insieme della lingua, occorre che questo corpus sia rappresentativo di quella lingua (o di quel settore della lingua) in un particolare momento, ovvero costituisca un "modello in scala ridotta" dell'oggetto d'indagine. Da una parte esso dovrà comprendere il più alto numero di testi possibile, dall'altra i testi dovranno essere selezionati in modo tale da rispettare le proporzioni esistenti nell'insieme principale. Siccome il parlato è prevalente rispetto allo scritto, per esempio sarebbe errato generalizzare al complesso della lingua osservazioni tratte da un corpus di scritti. Nel caso il corpus riesca a riprodurre l'intero ambito di variabilità dei tratti e proprietà di una lingua, possiamo ritenerlo un campione affidabile per quest'ultima e trarre conclusioni generalizzabili dalla sua osservazione. La disciplina che si occupa della selezione scientifica dei testi che andranno a comporre un corpus è la Linguistica dei corpora.

L'annotazione dei corpora

[modifica | modifica wikitesto]

Come detto in precedenza, i corpora annotati sono corpora in cui viene codificata dell'informazione linguistica in associazione al testo. L'esplicitazione nella codifica di livelli d'informazione come la struttura sintattica o i ruoli semantici di una frase rende tali livelli accessibili al computer, il che ha determinato l'importanza dell'annotazione linguistica nella linguistica computazionale di oggi. Ognuno dei livelli di descrizione della lingua pone degli specifici problemi nella rappresentazione dell'informazione:

  • nell'annotazione morfologica occorre effettuare la lemmatizzazione (si riconduce la parola al proprio lemma) di ogni token del testo ed assegnare a ciascuno la rispettiva categoria grammaticale;
  • nell'annotazione sintattica bisogna esplicitare l'analisi sintattica delle frasi del testo, cosa che si potrà fare diversamente a seconda dei vari approcci teorici. La rappresentazione per costituenti -in cui si individuano i sintagmi che compongono la frase e si analizzano le loro relazioni d'incassamento- e la rappresentazione a dipendenze -che descrive la frase in termini di dipendenze fra parole indicanti relazioni grammaticali (soggetto, oggetto ecc.)- sono i due approcci fondamentali alla rappresentazione del livello sintattico;
  • nell'annotazione semantica è necessaria la codifica esplicita del significato delle espressioni linguistiche del testo. Si potrebbero classificare le parole lessicali in base a una serie di categorie concettuali predefinite, tali da catturarne i tratti più importanti del significato (PERSONA, LUOGO, PROCESSO); marcarne altrimenti i ruoli semantici, che descrivono la funzione semantica svolta da un sintagma nell'evento espresso dal verbo;
  • l'annotazione pragmatica può interessare vari fenomeni riguardanti la funzione comunicativa di un enunciato o relazioni fra elementi linguistici che vanno al di là della singola frase. Ad esempio, in corpora contenenti trascrizioni di parlato dialogico torna utile identificare la funzione illocutoria degli enunciati (definibile come il tipo di azione che compiamo nell'emettere un particolare enunciato: domanda, richiesta, ordine ecc.). Potremmo anche aver bisogno di evidenziare le relazioni di anafora e catafora, quei fenomeni per cui ai fini della corretta interpretazione di un elemento è necessario fare riferimento al contesto linguistico rispettivamente precedente e successivo.

Illustro in breve, nel seguito, come possano essere rappresentate queste conoscenze nei corpora.

Per quanto gli schemi d'annotazione possibili differiscano, esistono delle costanti, individuabili in tre tipi fondamentali d'informazione. Questi, singolarmente o combinati fra loro, costituiscono una sorta di "struttura portante" di qualsiasi schema:

1) l'informazione categoriale, espressa come etichette che associano delle categorie alle unità del testo. Le annotazioni della categoria grammaticale e del lemma, o anche dei ruoli semantici, sono tipicamente realizzate in forma d'informazione categoriale. Il modo più intuitivo per rappresentare questo tipo d'informazione su XML è quello che fa uso di attributi associati all'elemento di riferimento;

<frase> Giovanni <token pos="verbo" lemma="tornare">torna</token> a casa </frase>

2) l'informazione strutturale concerne l'identificazione di unità strutturali nel testo e la loro organizzazione in strutture gerarchiche. La sintassi è il livello più strettamente legato a questo tipo d'informazione; le relazioni gerarchiche fra i costituenti sono rappresentate in XML con l'inclusione di elementi più piccoli in elementi più grandi.

<frase> <Cos>Giovanni</Cos> <Cos><cos>torna</cos><cos>a casa</cos></Cos> </frase>

I costituenti con l'etichetta "cos" sono inclusi nel costituente "Cos", di grado superiore;

3) l'informazione relazionale collega fra loro unità linguistiche diverse, permettendo di rendere conto delle relazioni reciproche (ad esempio le dipendenze fra soggetto ed oggetto, o fra pronome anaforico e pronome antecedente).

In XML l'informazione relazionale presuppone che a ogni elemento sia stato assegnato un identificatore univoco nella forma di un attributo ID, in modo tale da poter essere eventualmente richiamato per mezzo di un attributo IDREF.

<testo> <frase> <token ID="n1">Ricordi</token> <token ID="n2">Luigi</token> <token ID="n3">?</token> </frase> <frase> <token ID="n4">Non</token> <token ID="n5" riferimento="n2">lo</token> <token ID="n6">vedo</token> <token ID="n7">da</token> <token ID="n8">anni</token> <token ID="n9">.</token> </frase> </testo>

Per uno stesso livello di descrizione sono ovviamente utilizzabili anche più tipi d'informazione; anzi, è raro che un livello possa essere descritto con un solo tipo d'informazione. Gli schemi di annotazione tendono a contaminarli fra di loro, in modo che difficilmente uno di questi tipi si presenta allo stato "puro" nel corpus. D'altra parte, individuare come vengono codificati e valutare con quanta efficacia descrittiva vengono espressi rappresentano passaggi fondamentali per la verifica della validità degli schemi di annotazione.

La nuova frontiera

[modifica | modifica wikitesto]

Già si è detto che l'annotazione rende accessibili nuovi livelli d'informazione linguistica al calcolatore. L'annotazione di un testo da parte di esseri umani richiede però un grande dispendio di tempo ed energia e può presentare problemi d'incoerenza. Un approccio completamente opposto è quello secondo cui si cerca di arricchire il calcolatore con le conoscenze linguistiche necessarie a comprendere la struttura e il contenuto del testo, simulando il comportamento di un lettore umano.

Gli strumenti realizzati in quest'ottica differiscono fra loro per la complessità delle conoscenze di cui sono dotati e per il livello di astrazione delle rappresentazioni che producono. Basti pensare alla differenza esistente fra uno stemmer e un analizzatore morfologico. Il primo è dotato di una lista delle terminazioni possibili in una lingua e dell'ordine in cui si dispongono all'interno di una parola, ma inevitabilmente non riesce a riconoscere le radici irregolari. Gli analizzatori invece hanno a disposizione un lessico di radici lessicali, uno di affissi, regole di combinazione fra radici ed affissi e regole di normalizzazione che possano ricondurre le varie forme di una stessa radice a un unico esponente lessicale; grazie a queste conoscenze sono in grado di compiere in autonomia l'analisi morfologica di una parola.

Chiaramente ciò rappresenta solo un primo passo per avvicinare il computer alla comprensione del testo, a causa della presenza di ambiguità (espressioni linguistiche che possono essere interpretate in più modi) a più livelli: un problema che richiede applicazioni anche estremamente complesse per essere risolto in percentuali accettabili all'interno di una collezione di testi. Il cammino della linguistica computazionale verso macchine in grado d'interagire come esseri umani è ancora lungo e complesso ed è strettamente legato alla nostra comprensione dello strumento linguistico: non è difficile immaginarlo procedere di pari passo con quello di altre discipline come la linguistica generale, la psicologia e le scienze cognitive.

Un computer abile nella produzione e comprensione orali e scritte del linguaggio umano è prima di tutto un computer in grado di funzionare nel modo a noi ora noto, oltre ad essere poi una delle principali innovazioni ed estensioni dell'informatica attuale, che è figlia degli strumenti matematici della logica classica e dell'analisi standard. Pertanto, tra i filoni di ricerca aperti e più promettenti per una innovativa estensione dell'informatica quale è linguistica computazionale, troviamo le più innovative estensioni della logica classica (ipercubo logico) e della matematica (topologia e analisi non standard, dai rinnovi di Markov alla teoria degli spazi probabilistici non commutativi).

  1. ^ Armando Torno, Il gesuita che mise San Tommaso nel pc, in Corriere della Sera, 11 agosto 2011, p. 39.
  • Lenci, Alessandro et al., Testo e computer. Elementi di linguistica computazionale, Roma, Carocci, 2005.
  • Pierazzo, Elena, La codifica dei testi. Un'introduzione, Roma, Carocci, 2005.
  • Jurafsky, Daniel e Martin, James H., Speech and Language Processing. An introduction to Natural Language Processing, New Jersey, Prentice Hall, 2000.
  • Garside, Roger et al., Corpus Annotation: Linguistic Information from Computer Text Corpora, London, Longman, 1997.

Voci correlate

[modifica | modifica wikitesto]

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
Controllo di autoritàThesaurus BNCF 17705 · LCCN (ENsh85077224 · GND (DE4035843-4 · BNF (FRcb11939297d (data) · J9U (ENHE987007529215905171
  Portale Linguistica: accedi alle voci di Wikipedia che trattano di linguistica
胃疼吃什么止痛药 什么是abo文 朝鲜的货币叫什么 紫菜吃多了有什么坏处 novo是什么牌子
开眼镜店需要什么条件 人为什么不可以偏食 毛囊炎用什么药 牛建读什么 醪糟发酸是什么原因
乙肝小二阳是什么意思 一什么 吃榴莲不能和什么一起吃 大便一粒粒的是什么原因 拿铁是什么咖啡
孕妇熬夜对胎儿有什么影响 醋有什么功效和作用 工段长是什么级别 鞭长莫及什么意思 鹅吃什么
过是什么结构的字xianpinbao.com 内裤发黄是什么原因呢hcv9jop8ns3r.cn 蒙脱石散不能和什么药一起吃hcv8jop5ns3r.cn 铁锈是什么颜色的bfb118.com 淋巴结用什么药效果好dayuxmw.com
五月初五是什么星座hcv8jop2ns7r.cn 什么茶hcv9jop5ns7r.cn 朋友的反义词是什么hcv8jop0ns1r.cn 肉是什么结构hcv9jop4ns4r.cn 为什么手臂上有很多很小的点hcv8jop6ns9r.cn
七星鱼吃什么食物hcv7jop6ns6r.cn 女性尿出血是什么原因xinjiangjialails.com 得艾滋病的人有什么症状wuhaiwuya.com 中暑了吃什么hcv9jop7ns0r.cn 中国的国花是什么花jasonfriends.com
92是什么hebeidezhi.com 为什么不想上班hcv9jop1ns6r.cn 处暑是什么节气hcv8jop6ns0r.cn 原发性肝ca什么意思hcv8jop5ns3r.cn 血尿是什么原因引起的男性hcv8jop6ns8r.cn
百度