Previous |  Up |  Next

Article

Keywords:
dělení slov; segmentace; PatGen; přebíjející vzory; bootstarpping; stratifikace
Summary:
Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v distribucích TeXu, ale i v dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších "segmentačních" aplikací.
References:
1. Antoš, David, Sojka, Petr: Generování vzorů dělení slov v UNICODE. V Kasprzak a Sojka [12], strany 23–32.
2. Antoš, David, Sojka, Petr: Pattern Generation Revisited. V Pepping [19], strany 7–17.
3. Antoš, David, Sojka, Petr: Generování vzorů pomocí knihovny PATLIB a programu OPATGEN. Zpravodaj CSTUG, 12(1):3–12, 2002.
4. Beeton, Barbara: Hyphenation Exception Log. TUGboat, 5(1):15, květen 1984.
5. Beeton, Barbara: Hyphenation Exception Log. TUGboat, 6(3):121, listopad 1985.
6. Beeton, Barbara: Hyphenation Exception Log. TUGboat, 7(3):146–147, říjen 1986.
7. Beeton, Barbara: Hyphenation Exception Log. TUGboat, 10(3):336–341, listopad 1989.
8. Beeton, Barbara: Hyphenation Exception Log. TUGboat, 13(4):452–457, prosinec 1992.
9. Proceedings of EACL 2003 Workshop on Computational Linguistics for South Asian Languages - Expanding Synergies with Europe. duben 2003
10. Haller, Jiří: Jak se dělí slova. Státní pedagogické nakladatelství Praha, 1956.
11. Haralambous, Yannis: A Small Tutorial on the Multilingual Features of PATGEN2. dostupné na CTAN jako info/patgen2.tutorial, leden 1994.
12. Sborník SLT 2001. Brno, Czech Republic, únor 2001. Konvoj.
13. Knuth, Donald E.: The TeXbook. volume A of Computers and Typesetting. Addison-Wesley, Reading, MA, USA, 1986. MR 0378456
14. Chlebíková, Jana: Ako rozděliť (slovo) Československo. Zpravodaj CSTUG, 1(4):10–13, 1991.
15. Lhotka, Ladislav: České dělení pro TeX. Zpravodaj CSTUG, 1(4):10–13, 1991. DOI 10.5300/1991-4/8
16. Liang, Franklin M.: Word Hy-phen-a-tion by Com-put-er. PhD thesis, Department of Computer Science, Stanford University, USA, srpen 1983.
17. Liang, Franklin M., Breitenlohner, Peter: PATtern GENeration program for the TeX82 hyphenator. dokumentace programu PATGEN verze 2.3 z distribuce web2c na CTAN, 1999.
18. Lieskovský, Ján: Systém pro práci se seznamy slov. Bakalářská práce, Masarykova univerzita v Brně, Fakulta informatiky, 2003.
19. EuroTeX 2001. Kerkrade, The Netherlands, září 2001. NTG.
20. Sojka, Petr: Notes on Compound Word Hyphenation in TeX. TUGboat, 16(3):290–297, 1995.
21. Sojka, Petr: Hyphenation on Demand. TUGboat, 20(3):241–247, 1999.
22. Sojka, Petr: Competing Patterns for Language Engineering. V Sojka et al. [24], strany 157–162.
23. Sojka, Petr, Antoš, David: Context Sensitive Pattern Based Segmentation: A Thai Challenge. V Hall a Rao [9].
24. Proceedings of the Third International Workshop on Text, Speech and Dialogue—TSD 2000. Lecture Notes in Artificial Intelligence LNCS/LNAI 1902, Brno, září 2000. Springer-Verlag.
25. Sojka, Petr, Ševeček, Pavel: Hyphenation in TeX - Quo Vadis?. TUGboat, 16(3):280–289, 1995.
Partner of
EuDML logo