Previous |  Up |  Next

Article

Title: Towards New Czechoslovak Hyphenation Patterns (English)
Title: Na cestě k novým československým vzorům dělení (Czech)
Author: Sojka, Petr
Author: Sojka, Ondřej
Language: English
Journal: Zpravodaj Československého sdružení uživatelů TeXu
ISSN: 1211-6661 (print)
ISSN: 1213-8185 (online)
Volume: 30
Issue: 3
Year: 2020
Pages: 118-126
Summary lang: English
.
Category: informatics
.
Summary: Space- and time-effective segmentation and hyphenation of natural languages stay at the core of every document preparation system, web browser, or mobile rendering system. Recently, the unreasonable effectiveness of pattern generation has been shown - it is possible to use hyphenation patterns to solve the dictionary problem for a single language without compromise. In this article, we will show how we applied the marvelous effectiveness of patgen for the generation of the new Czechoslovak hyphenation patterns that cover two languages. We show that the development of more universal hyphenation patterns is feasible, allows for significant quality improvements and space savings. We evaluate the new approach and the new Czechoslovak hyphenation patterns. (English)
Summary: Prostorově a časově efektivní segmentace a dělení slov přirozených jazyků zůstává jádrem každého systému pro přípravu dokumentů, webového prohlížeče nebo zlomu dokumentů na mobilních zařízeních. Nedávno jsme ukázali obrovskou účinnost generování vzorů a bylo prokázáno, že je možné použít vzory dělení slov k vyřešení slovníkového problému (automatické segmentace) pro jeden jazyk bez kompromisů (100% pokrytí). V tomto článku ukazujeme, jak jsme použili úžasnou účinnost patgenu pro generování vzorů dělení slov, které pokrývají dva jazyky zároveň, pro nové, společné vzory československého dělení. Ukazujeme, že je možné vyvinout univerzálnější vzory dělení slov, což umožňuje jak kvalitativní zlepšení, tak i úsporu místa oproti předchozí dvojici vzorů pro jednotlivé jazyky. Hodnotíme nový přístup a nové společné československé vzory dělení. (Czech)
Keyword: hyphenation
Keyword: hyphenation patterns
Keyword: patgen
Keyword: syllabification
Keyword: syllabic hyphenation
Keyword: Czech
Keyword: Slovak
Keyword: Czechoslovak patterns
Keyword: patgen
Keyword: vzory dělení slov
Keyword: československé dělení
Keyword: efektivní segmentace
Keyword: slabičné dělení pro více jazyků
DOI: 10.5300/2020-3-4/118
.
Date available: 2022-04-13T12:32:46Z
Last updated: 2023-08-10
Stable URL: http://hdl.handle.net/10338.dmlcz/150285
.
Reference: 1. Keary, Major: On Hyphenation - Anarchy of Pedantry.PC Update, The magazine of the Melbourne PC User Group. 2005. Available also from: https://web.archive.org/web/20050310054738/http://www.melbpc.org.au/pcupdate/9100/9112article4.htm.
Reference: 2. Marchand, Yannick, Adsett, Connie R., Damper, Robert I.: Automatic Syllabification in English: A Comparison of Different Algorithms.Language and Speech. 2009, vol. 52, no. 1, pp. 1–27. Available from doi: 10.1177/0023830908099881. 10.1177/0023830908099881
Reference: 3. Bartlett, Susan, Kondrak, Grzegorz, Cherry, Colin: Automatic Syllabification with Structured SVMs for Letter-to-Phoneme Conversion.In: Proceedings of ACL-08: HLT. Columbus, Ohio: Association for Computational Linguistics, 2008, pp. 568–576. Available also from: https://www.aclweb.org/anthology/P08-1065.
Reference: 4. Trogkanis, Nikolaos, Elkan, Charles: Conditional Random Fields for Word Hyphenation.In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden: Association for Computational Linguistics, 2010, pp. 366–374. Available also from: https://www.aclweb.org/anthology/P10-1038.
Reference: 5. Liang, Franklin M.: Word Hy-phen-a-tion by Com-put-er.1983. PhD thesis. Stanford University.
Reference: 6. Shao, Yan, Hardmeier, Christian, Nivre, Joakim: Universal Word Segmentation: Implementation and Interpretation.Transactions of the Association for Computational Linguistics. 2018, vol. 6, pp. 421–435. Available from DOI: 10.1162/tacl_a_00033. 10.1162/tacl_a_00033
Reference: 7. Reutenauer, Arthur, Miklavec, Mojca: TeX hyphenation patterns.TUG, [n.d.]. Available also from: https://tug.org/tex-hyphen/. Accessed 2019-11-24.
Reference: 8. : The Oxford Spelling Dictionary.Oxford University Press, 1990. The Oxford Library of English Usage.
Reference: 9. : Webster's Third New International Dictionary of the English Language Unabridged.Springfield, Massachusetts, U.S.A: Merriam-Webster Inc., 2002.
Reference: 10. : The Chicago Manual of Style.17th ed. Chicago: University of Chicago Press, 2017. isbn 9780226287058.
Reference: 11. Sojka, Petr: Notes on Compound Word Hyphenation in TeX.TUGboat. 1995, vol. 16, no. 3, 290–297. Available also from: https://tug.org/TUGboat/tb16-3/tb48soj2.pdf.
Reference: 12. Sojka, Petr, Ševeček, Pavel: Hyphenation in TeX - Quo Vadis?.TUGboat. 1995, vol. 16, no. 3, 280–289. Available also from: https://tug.org/TUGboat/tb16-3/tb48soj1.pdf.
Reference: 13. Sojka, Petr: Hyphenation on Demand.TUGboat. 1999, vol. 20, no. 3, 241–247. Available also from: https ://tug.org/TUGboat/tb20-3/tb64sojka.pdf.
Reference: 14. Sojka, Petr: Slovenské vzory dělení: čas pro změnu?.(Slovak Hyphenation Patterns: A Time for Change?) CSTUG Bulletin. 2004, vol. 14, no. 3–4, 183–189. Available from doi: 10.5300/2004-3-4/183. 10.5300/2004-3-4/183
Reference: 15. Sojka, Petr, Sojka, Ondřej: The Unreasonable Effectiveness of Pattern Generation.TUGboat. 2019, vol. 40, no. 2, pp. 187–193. Available also from: https://tug.org/TUGboat/tb40-2/tb125sojka-patgen.pdf.
Reference: 16. Jakubíčekm Milos, Kilgarriff, Adam, Kovář, Vojtěch, Rychlý, Pavel, Suchomel, Vít: The TenTen Corpus Family.In: Proc. of the 125 7th International Corpus Linguistics Conference (CL). Lancaster, 2013, pp. 125–127.
Reference: 17. Kilgarriff, Adam, Rychlý, Pavel, Smrž, Pavel, Tugwell, David: The Sketch Engine.In: Proceedings of the Eleventh EURALEX International Congress. Lorient, France, 2004, pp. 105–116.
Reference: 18. Sojka, Petr, Sojka, Ondřej: The Unreasonable Effectiveness of Pattern Generation.Zpravodaj CSTUG. 2019, vol. 29, no. 1–4, 73–86. Available from DOI: 10.5300/2019-1-4/73. 10.5300/2019-1-4/73
Reference: 19. Chlebíková, Jana: Ako rozděliť (slovo) Československo.(How to hyphenate the word Czechoslovakia). Zpravodaj CSTUG. 1991, vol. 1, no. 4, 10–13. Available from DOI: 10.5300/1991-4/10. 10.5300/1991-4/10
Reference: 20. Sojka, Petr: Slovenské vzory dělení: čas pro změnu?.In: Proceedings of SLT 2004, 4th seminar on Linux and TEX. Znojmo: Konvoj, 2004, 67–72. Available also from: https://fi.muni.cz/usr/sojka/papers/skhyp.pdf.
Reference: 21. Sojka, Ondřej, Sojka, Petr: cshyphen repository.[N.d.]. Available also from: https://github.com/tensojka/cshyphen.
.

Files

Files Size Format View
ZpravodajCSTUG_030-2020-3_3.pdf 656.0Kb application/pdf View/Open
Back to standard record
Partner of
EuDML logo