Estrazzjoni terminoloġika

metodu awtomatiku ta' analiżi ta' test sabiex jiġu identifikati frażijiet li jissodisfaw il-kriterji ta' termini

L-estrazzjoni terminoloġika (magħrufa wkoll bħala estrazzjoni tat-termini, estrazzjoni tal-glossarji, jew rikonoxximent tat-termini) hija kompitu speċjalizzat tal-estrazzjoni tal-informazzjoni. L-għan tal-estrazzjoni terminoloġika hu li b’mod awtomatiku jiġu estratti termini rilevanti minn corpus partikolari ta’ kliem.[1]

Fl-era tas-semantika tal-internet (jiġifieri l-ipproċessar tad-data fuq l-internet biex tkun tista’ tinqara u tiġi miflija b’mod awtomatizzat), għadd dejjem jikber ta’ komunitajiet u networks ta’ impriżi bdew jaċċessaw l-internet u jinteroperaw fih. L-immudellar ta’ dawn il-komunitajiet u tal-ħtiġijiet ta’ informazzjoni tagħhom huwa importanti għal diversi applikazzjonijiet tal-web, bħal web crawler[2] skont is-suġġett (jiġifieri applikazzjoni informatika li tgħarrex għal testi jew kliem disponibbli fuq l-internet skont suġġett partikolari u toħloq corpus minnhom), servizzi tal-web[3], sistemi ta’ rakkomandazzjonijiet lingwistiċi[4], eċċ. L-iżvilupp tal-estrazzjoni terminoloġika huwa essenzjali wkoll għall-industrija lingwistika.

Wieħed mill-ewwel passi tal-immudellar ta’ dominju ta’ għarfien hu li jinġabar vokabularju ta’ termini rilevanti għal dominju partikolari, li jikkostitwixxi l-manifestazzjoni lingwistika tas-superfiċe ta’ kunċetti ta’ dominju partikolari. Inkitbu kotba sħaħ dwar diversi metodi li jippermettu l-estrazzjoni terminoloġika awtomatika ta’ termini tekniċi minn imħażen elettroniċi ta’ dokumenti skont suġġett speċifiku għal dominju partikolari.[5][6][7][8][9][10][11][12][13][14][15][16][17]

Is-soltu, l-approċċi rigward l-estrazzjoni terminoloġika awtomatika jużaw proċessuri lingwistiċi (eż. l-immarkar ta’ partijiet tat-taħdit bil-miktub, il-ġbir f’daqqa ta’ frażijiet, eċċ.) biex jiġu estratti kandidati terminoloġiċi, jiġifieri frażijiet nominali terminoloġiċi plawżibbli sintattikament. Il-frażijiet nominali jinkludu kliem kompost (eż. “karta tal-kreditu”), frażijiet nominali aġġettivali (eż. ”uffiċċju tal-informazzjoni lokali”), u frażijiet nominali prepożizzjonali (eż. “bord tad-diretturi”). Imbagħad, l-entrati terminoloġiċi jiġu ffiltrati mil-lista ta’ kandidati billi jintużaw metodi ta’ apprendiment statistiku u awtomatizzat. Ladarba dawn it-termini jiġu ffiltrati, minħabba l-livell baxx ta’ ambigwità u l-ispeċifiċità kbira tagħhom, dawn ikunu utli ħafna għall-ħolqien ta’ kunċetti marbuta ma’ dominju partikolari ta’ għarfien jew biex jappoġġaw il-ħolqien ta’ ontoloġija ta’ dominju jew ta’ bażi terminoloġika. Barra minn hekk, l-estrazzjoni terminoloġika hija punt ta’ tluq utli ħafna għas-similarità semantika, għall-ġestjoni tal-għarfien, għat-traduzzjoni umana u għat-traduzzjoni awtomatizzata, eċċ.[18]

Estrazzjoni terminoloġika bilingwi

immodifika

Il-metodi għall-estrazzjoni terminoloġika jistgħu jiġu applikati għal corpora paralleli. Flimkien mal-istatistika tal-okkorrenzi konġunti pereżempju, jistgħu jinkisbu kandidati għat-traduzzjonijiet tat-termini.[19] It-terminoloġija bilingwi tista’ tiġi estratta wkoll minn corpora komparabbli (jiġifieri corpora li jkun fihom testi bl-istess tip ta’ test jew tal-istess dominju, iżda mhux it-tqabbil ta’ traduzzjonijiet differenti tal-istess dokument).[20]

Referenzi

immodifika
  1. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.
  2. ^ "Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues. (PDF)" (bl-Ingliż). Miġbur 2021-03-02.
  3. ^ Subbarao Kambhampati, Jianchun Fan (2005-03-01). "A snapshot of public web services". ACM SIGMOD Record. 34 (1): 24–32.
  4. ^ Luc Moreau, Yan Zheng Wei (2005-07-01). "A market-based approach to recommender systems". ACM Transactions on Information Systems. 23 (3): 227–266.
  5. ^ "Bourigault D. and Jacquemin C. Term Extraction+Term Clustering: an integrated platform for computer-aided terminology. (PDF) Arkivjat 19-06-2006" (PDF) (bl-Ingliż). Arkivjat mill-oriġinal fl-2006-06-19. Miġbur 2021-03-02.Manutenzjoni CS1: BOT: url-oriġinali status mhux magħruf (link)
  6. ^ Collier, N.; Nobata, C.; Tsujii, J. (2002). "Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain". Terminology. 7 (2): 239–257.
  7. ^ K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
  8. ^ K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
  9. ^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Glossary extraction and utilization in the information search and delivery system for IBM Technical Support". IBM Systems Journal. 43 (3): 546–563.
  10. ^ Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151-179.
  11. ^ Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473–479.
  12. ^ Y. Park, R. J. Byrd, B. Boguraev. "Automatic glossary extraction: beyond terminology identification", International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics - Taipei, Taiwan, 2002.
  13. ^ Sclano, F. and Velardi, P.. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
  14. ^ R. Navigli, P. Velardi (2008). "Mining the Web to Create Specialized Glossaries". IEEE Intelligent Systems. 23 (5): 18–25.
  15. ^ Udo Hahn, Joachim Wermter (2005-10-02). "Finding new terminology in very large corpora": 137–144. Ċitazzjoni journal għandha bżonn |journal= (għajnuna)
  16. ^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.
  17. ^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.
  18. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.
  19. ^ "Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment". Terminology. 19 (1): 1–30" (bl-Ingliż). Miġbur 2021-03-02.
  20. ^ "Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag" (PDF). Arkivjat minn l-oriġinal (PDF) fl-2021-05-11. Miġbur 2021-03-02.