Previous |  Up |  Next

Article

Title: The Unreasonable Effectiveness of Pattern Generation (English)
Title: Nepochopitelná efektivita generování vzorů dělení slov (Czech)
Author: Sojka, Petr
Author: Sojka, Ondřej
Language: English
Journal: Zpravodaj Československého sdružení uživatelů TeXu
ISSN: 1211-6661 (print)
ISSN: 1213-8185 (online)
Volume: 29
Issue: 1
Year: 2019
Pages: 73-86
Summary lang: English
.
Category: informatics
.
Summary: Languages are constantly evolving, and so are their hyphenation rules and needs. The effectiveness and utility of TeX's hyphenation have been proven by its usage in almost all typesetting systems in use today. The current Czech hyphenation patterns were generated in 1995, and no hyphenated word database was freely available. We have developed a new Czech word database and have used the patgen program to generate new effective Czech hyphenation patterns efficiently and evaluated their generalization qualities. We have achieved full coverage on the training dataset of 3,000,000 words, and developed a validation procedure of new patterns for Czech based on the testing database of 105,000 words approved by the Czech Academy of Science linguists. Our pattern generation case study exemplifies a practical solution to the widespread dictionary problem. The study has proven the versatility, effectiveness, and extensibility of Liang's approach to hyphenation developed for TeX. The unreasonable effectiveness of the pattern technology has led to applications that are and will be used, even more widely now, nearly 40 years after its inception. (English)
Summary: Jazyky se vyvíjí a spolu s nimi i jejich potřeby a pravidla dělení slov. Mechanismus vzorů dělení slov v TeXu převzala většina dnešních sazebních systémů, což prokazuje jeho efektivitu a užitečnost. Současné vzory dělení slov pro češtinu ale vznikly v roce 1995, kdy ještě neexistovala žádná volně šiřitelná databáze slov. Vyvinuli jsme novou českou databázi slov, použili jsme program patgen k vygenerování nových efektivních vzorů dělení slov pro češtinu a vyhodnotili jsme jejich generalizační schopnosti. Na trénovací datové sadě 3 milionů slov jsme dosáhli plného pokrytí. Dále jsme vyvinuli postup pro validaci nových vzorů dělení slov pro češtinu s využitím databáze 105 tisíc slov schválených lingvisty Akademie věd České republiky. Naše případová studie generování vzorů dělení slov představuje praktické řešení častého slovníkového problému. Studie dokazuje pružnost, efektivitu a rozšiřitelnost Liangova přístupu k dělení slov vyvinutého pro TeX. Nepochopitelná efektivita mechanismu vzorů dělení slov dala vzniknout aplikacím, které ho využívají i téměř 40 let po jeho vzniku. (Czech)
Keyword: hyphenation patterns
Keyword: patgen
Keyword: unreasonable effectiveness
Keyword: Czech
Keyword: patgen
Keyword: vzory dělení slov
Keyword: nepochopitelná efektivita
Keyword: čeština
DOI: 10.5300/2019-1-4/73
.
Date available: 2022-04-13T11:32:04Z
Last updated: 2023-08-10
Stable URL: http://hdl.handle.net/10338.dmlcz/150175
.
Reference: 1. Pereira, Fernando, Norvig, Peter, Halevy, Alon: The Unreasonable Effectiveness of Data.IEEE Intelligent Systems. 2009, vol. 24, no. 02, s. 8–12. ISSN 1541-1672. Dostupné z DOI: 10.1109/MIS.2009.36 10.1109/MIS.2009.36
Reference: 2. Wigner, Eugene P.: The Unreasonable Effectiveness of Mathematics in the Natural Sciences.Richard Courant Lecture in Mathematical Sciences delivered at New York University, May 11, 1959. Communications on Pure and Applied Mathematics. 1960, vol. 13, no. 1, s. 1–14. Dostupné z DOI: 10.1002/cpa.3160130102 MR 0824292, 10.1002/cpa.3160130102
Reference: 3. Hamming, Richard W.: The Unreasonable Effectiveness of Mathematics.The American Mathematical Monthly. 1980, vol. 87, no. 2, s. 81–90. ISSN 00029890, 19300972. ISSN 00029890, 19300972. Dostupné také z: https://www.jstor.org/stable/2321982. MR 0559142, 10.1080/00029890.1980.11994966
Reference: 4. Liang, Franklin M.: Word Hy-phen-a-tion by Com-put-er.1983. Dostupné také z: https://tug.org/docs/liang/. Disertační práce. Stanford University.
Reference: 5. Sojka, Petr: Competing Patterns in Language Engineering and Computer Typesetting.2005. Disertační práce. Faculty of Informatics.
Reference: 6. Reutenauer, Arthur, Miklavec, Mojca: TeX hyphenation patterns.[online]. TUG [cit. 2019-11-14]. Dostupné z: https://tug.org/tex-hyphen/.
Reference: .7 Lemberg, Werner: A database of German words with hyphenation information.Dostupné také z: https://repo.or.cz/wortliste.git.
Reference: 8. Sojka, Petr, Ševeček, Pavel: Hyphenation in TeX - Quo Vadis?.TUGboat. 1995, vol. 16, no. 3, s. 280–289.
Reference: 9. : Internetová jazyková příručka (Internet Language Reference Book).[online]. Institute of Czech language, Czech Academy of Sciences [cit. 2019-07-18]. Dostupné z: http://prirucka.ujc.cas.cz/?id=135.
Reference: 10. Sojka, Petr: Hyphenation on Demand.TUGboat. 1999, vol. 20, no. 3, s. 241–247. https://tug.org/TUGboat/tb20-3/tb64sojka.pdf.
Reference: 11. Sojka, Ondřej, Sojka, Petr: cshyphen repository.Dostupné také z: https://github.com/tensojka/cshyphen.
Reference: 12. Sojka, Petr: Notes on Compound Word Hyphenation in TeX.TUGboat. 1995, vol. 16, no. 3, s. 290–297.
Reference: 13. Jakubíčekm Milos, Kilgarriff, Adam, Kovář, Vojtěch, Rychlý, Pavel, Suchomel, Vít: The TenTen Corpus Family.In: Proc. of 7th International Corpus Linguistics Conference (CL). Lancaster, 2013, s. 125–127.
Reference: 14. Suchomel, Vít, Pomikálek, Jan: Efficient Web Crawling for Large Text Corpora.In: KILGARRIFF, Adam; SHAROFF, Serge (eds.). Proc. of the seventh Web as Corpus Workshop (WAC). Lyon, 2012, s. 39–43. Dostupné také z: https://sigwac.org.uk/raw-attachment/wiki/WAC7/wac7-proc.pdf.
Reference: 15. Šmerk, Pavel: Fast Morphological Analysis of Czech.In: SOJKA, Petr; HORÁK, Aleš (eds.). Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2009. Karlova Studánka, Czech Republic: Masaryk University, 2009, s. 13–16. ISBN 978-80-210-5048-8. Dostupné také z: http://nlp.fi.muni.cz/raslan/2009/.
Reference: 16. Scannell, Kevin Patrick: Hyphenation patterns for minority languages.TUGboat. 2003, vol. 24, no. 2, s. 236–239. 10.1162/tacl_a_00033
Reference: 17. Shao, Yan, Hardmeier, Christina, Nivre, Joakim: Universal Word Segmentation: Implementation and Interpretation.ransactions of the Association for Computational Linguistics. 2018, vol. 6, s. 421–435. Dostupné z DOI: 10.1162/tacl_a_00033 10.18653/v1/P16-1162
Reference: 18. Sennrich, Rico, Haddor, Barry, Birch, Alexandra: Neural Machine Translation of Rare Words with Subword Units.Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).Berlin, Germany: Association for Computational Linguistics, 2016, s. 1715-1725. Dostupné z DOI: 10.18653/v1/P16-1162 10.18653/v1/W18-5811
Reference: 19. Zeldes, Amir: A Characterwise Windowed Approach to Hebrew Morphological Segmentation.In: Proc. of the Fifteenth Workshop on Computational Research in Phonetics, Phonology, and Morphology. Brussels, Belgium: Association for Computational Linguistics, 2018, s. 101–110. Dostupné z DOI: 10.18653/v1/W18-5811
Reference: 20. Lample, Guillaume, Sablayrolles, Alexandre, Ranzato, Marc'Aurelio, Denoyer, Ludovic, Jégou, Hervé: Large Memory Layers with Product Keys.[online]. 2019 [cit. 2019-07-18]. Dostupné z arXiv: 1907.05242 [cs.CL].
.

Files

Files Size Format View
ZpravodajCSTUG_029-2019-1_7.pdf 551.8Kb application/pdf View/Open
Back to standard record
Partner of
EuDML logo