Estrazzjoni terminoloġika

L-estrazzjoni terminoloġika (magħrufa wkoll bħala estrazzjoni tat-termini, estrazzjoni tal-glossarji, jew rikonoxximent tat-termini) hija kompitu speċjalizzat tal-estrazzjoni tal-informazzjoni. L-għan tal-estrazzjoni terminoloġika hu li b’mod awtomatiku jiġu estratti termini rilevanti minn corpus partikolari ta’ kliem.^[1]

Fl-era tas-semantika tal-internet (jiġifieri l-ipproċessar tad-data fuq l-internet biex tkun tista’ tinqara u tiġi miflija b’mod awtomatizzat), għadd dejjem jikber ta’ komunitajiet u networks ta’ impriżi bdew jaċċessaw l-internet u jinteroperaw fih. L-immudellar ta’ dawn il-komunitajiet u tal-ħtiġijiet ta’ informazzjoni tagħhom huwa importanti għal diversi applikazzjonijiet tal-web, bħal web crawler^[2] skont is-suġġett (jiġifieri applikazzjoni informatika li tgħarrex għal testi jew kliem disponibbli fuq l-internet skont suġġett partikolari u toħloq corpus minnhom), servizzi tal-web^[3], sistemi ta’ rakkomandazzjonijiet lingwistiċi^[4], eċċ. L-iżvilupp tal-estrazzjoni terminoloġika huwa essenzjali wkoll għall-industrija lingwistika.

Wieħed mill-ewwel passi tal-immudellar ta’ dominju ta’ għarfien hu li jinġabar vokabularju ta’ termini rilevanti għal dominju partikolari, li jikkostitwixxi l-manifestazzjoni lingwistika tas-superfiċe ta’ kunċetti ta’ dominju partikolari. Inkitbu kotba sħaħ dwar diversi metodi li jippermettu l-estrazzjoni terminoloġika awtomatika ta’ termini tekniċi minn imħażen elettroniċi ta’ dokumenti skont suġġett speċifiku għal dominju partikolari.^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12]^[13]^[14]^[15]^[16]^[17]

Is-soltu, l-approċċi rigward l-estrazzjoni terminoloġika awtomatika jużaw proċessuri lingwistiċi (eż. l-immarkar ta’ partijiet tat-taħdit bil-miktub, il-ġbir f’daqqa ta’ frażijiet, eċċ.) biex jiġu estratti kandidati terminoloġiċi, jiġifieri frażijiet nominali terminoloġiċi plawżibbli sintattikament. Il-frażijiet nominali jinkludu kliem kompost (eż. “karta tal-kreditu”), frażijiet nominali aġġettivali (eż. ”uffiċċju tal-informazzjoni lokali”), u frażijiet nominali prepożizzjonali (eż. “bord tad-diretturi”). Imbagħad, l-entrati terminoloġiċi jiġu ffiltrati mil-lista ta’ kandidati billi jintużaw metodi ta’ apprendiment statistiku u awtomatizzat. Ladarba dawn it-termini jiġu ffiltrati, minħabba l-livell baxx ta’ ambigwità u l-ispeċifiċità kbira tagħhom, dawn ikunu utli ħafna għall-ħolqien ta’ kunċetti marbuta ma’ dominju partikolari ta’ għarfien jew biex jappoġġaw il-ħolqien ta’ ontoloġija ta’ dominju jew ta’ bażi terminoloġika. Barra minn hekk, l-estrazzjoni terminoloġika hija punt ta’ tluq utli ħafna għas-similarità semantika, għall-ġestjoni tal-għarfien, għat-traduzzjoni umana u għat-traduzzjoni awtomatizzata, eċċ.^[18]

Estrazzjoni terminoloġika bilingwi

Il-metodi għall-estrazzjoni terminoloġika jistgħu jiġu applikati għal corpora paralleli. Flimkien mal-istatistika tal-okkorrenzi konġunti pereżempju, jistgħu jinkisbu kandidati għat-traduzzjonijiet tat-termini.^[19] It-terminoloġija bilingwi tista’ tiġi estratta wkoll minn corpora komparabbli (jiġifieri corpora li jkun fihom testi bl-istess tip ta’ test jew tal-istess dominju, iżda mhux it-tqabbil ta’ traduzzjonijiet differenti tal-istess dokument).^[20]

Referenzi

^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.
^ "Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues. (PDF)" (bl-Ingliż). Miġbur 2021-03-02.
^ Subbarao Kambhampati, Jianchun Fan (2005-03-01). "A snapshot of public web services". ACM SIGMOD Record. 34 (1): 24–32.
^ Luc Moreau, Yan Zheng Wei (2005-07-01). "A market-based approach to recommender systems". ACM Transactions on Information Systems. 23 (3): 227–266.
^ "Bourigault D. and Jacquemin C. Term Extraction+Term Clustering: an integrated platform for computer-aided terminology. (PDF) Arkivjat 19-06-2006" (PDF) (bl-Ingliż). Arkivjat mill-oriġinal fl-2006-06-19. Miġbur 2021-03-02.Manutenzjoni CS1: BOT: url-oriġinali status mhux magħruf (link)
^ Collier, N.; Nobata, C.; Tsujii, J. (2002). "Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain". Terminology. 7 (2): 239–257.
^ K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
^ K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Glossary extraction and utilization in the information search and delivery system for IBM Technical Support". IBM Systems Journal. 43 (3): 546–563.
^ Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151-179.
^ Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473–479.
^ Y. Park, R. J. Byrd, B. Boguraev. "Automatic glossary extraction: beyond terminology identification", International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics - Taipei, Taiwan, 2002.
^ Sclano, F. and Velardi, P.. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
^ R. Navigli, P. Velardi (2008). "Mining the Web to Create Specialized Glossaries". IEEE Intelligent Systems. 23 (5): 18–25.
^ Udo Hahn, Joachim Wermter (2005-10-02). "Finding new terminology in very large corpora": 137–144. Ċitazzjoni journal għandha bżonn |journal= (għajnuna)
^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.
^ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.
^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.
^ "Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment". Terminology. 19 (1): 1–30" (bl-Ingliż). Miġbur 2021-03-02.
^ "Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag" (PDF). Arkivjat minn l-oriġinal (PDF) fl-2021-05-11. Miġbur 2021-03-02.

[1] Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.

[2] "Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues. (PDF)" (bl-Ingliż). Miġbur 2021-03-02.

[3] Subbarao Kambhampati, Jianchun Fan (2005-03-01). "A snapshot of public web services". ACM SIGMOD Record. 34 (1): 24–32.

[4] Luc Moreau, Yan Zheng Wei (2005-07-01). "A market-based approach to recommender systems". ACM Transactions on Information Systems. 23 (3): 227–266.

[5] "Bourigault D. and Jacquemin C. Term Extraction+Term Clustering: an integrated platform for computer-aided terminology. (PDF) Arkivjat 19-06-2006" (PDF) (bl-Ingliż). Arkivjat mill-oriġinal fl-2006-06-19. Miġbur 2021-03-02.Manutenzjoni CS1: BOT: url-oriġinali status mhux magħruf (link)

[6] Collier, N.; Nobata, C.; Tsujii, J. (2002). "Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain". Terminology. 7 (2): 239–257.

[7] K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.

[8] K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2

[9] L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Glossary extraction and utilization in the information search and delivery system for IBM Technical Support". IBM Systems Journal. 43 (3): 546–563.

[10] Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151-179.

[11] Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473–479.

[12] Y. Park, R. J. Byrd, B. Boguraev. "Automatic glossary extraction: beyond terminology identification", International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics - Taipei, Taiwan, 2002.

[13] Sclano, F. and Velardi, P.. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.

[14] R. Navigli, P. Velardi (2008). "Mining the Web to Create Specialized Glossaries". IEEE Intelligent Systems. 23 (5): 18–25.

[15] Udo Hahn, Joachim Wermter (2005-10-02). "Finding new terminology in very large corpora": 137–144. Ċitazzjoni journal għandha bżonn |journal= (għajnuna)

[16] Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.

[17] Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.

[18] Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.

[19] "Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment". Terminology. 19 (1): 1–30" (bl-Ingliż). Miġbur 2021-03-02.

[20] "Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag" (PDF). Arkivjat minn l-oriġinal (PDF) fl-2021-05-11. Miġbur 2021-03-02.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]