blob: a18e2e218d944e37b388465fb5620087716f379e [file] [log] [blame]
use pipeline::Pipeline;
pub fn make_pipeline() -> Pipeline {
Pipeline {
queue: vec![
("trimmer-ro".into(), trimmer),
("stopWordFilter-ro".into(), stop_word_filter),
("stemmer-ro".into(), stemmer),
],
}
}
make_trimmer!(
"A-Za-z\\xAA\\xBA\\xC0-\\xD6\\xD8-\\xF6\\xF8-\\u02B8\\u02E0-\\u02E4\\u1D00-\\u1D25\
\\u1D2C-\\u1D5C\\u1D62-\\u1D65\\u1D6B-\\u1D77\\u1D79-\\u1DBE\\u1E00-\\u1EFF\\u2071\\u207F\
\\u2090-\\u209C\\u212A\\u212B\\u2132\\u214E\\u2160-\\u2188\\u2C60-\\u2C7F\\uA722-\\uA787\
\\uA78B-\\uA7AD\\uA7B0-\\uA7B7\\uA7F7-\\uA7FF\\uAB30-\\uAB5A\\uAB5C-\\uAB64\\uFB00-\\uFB06\
\\uFF21-\\uFF3A\\uFF41-\\uFF5A"
);
make_stop_word_filter!([
"",
"acea",
"aceasta",
"această",
"aceea",
"acei",
"aceia",
"acel",
"acela",
"acele",
"acelea",
"acest",
"acesta",
"aceste",
"acestea",
"aceşti",
"aceştia",
"acolo",
"acord",
"acum",
"ai",
"aia",
"aibă",
"aici",
"al",
"ale",
"alea",
"altceva",
"altcineva",
"am",
"ar",
"are",
"asemenea",
"asta",
"astea",
"astăzi",
"asupra",
"au",
"avea",
"avem",
"aveţi",
"azi",
"aş",
"aşadar",
"aţi",
"bine",
"bucur",
"bună",
"ca",
"care",
"caut",
"ce",
"cel",
"ceva",
"chiar",
"cinci",
"cine",
"cineva",
"contra",
"cu",
"cum",
"cumva",
"curând",
"curînd",
"când",
"cât",
"câte",
"câtva",
"câţi",
"cînd",
"cît",
"cîte",
"cîtva",
"cîţi",
"că",
"căci",
"cărei",
"căror",
"cărui",
"către",
"da",
"dacă",
"dar",
"datorită",
"dată",
"dau",
"de",
"deci",
"deja",
"deoarece",
"departe",
"deşi",
"din",
"dinaintea",
"dintr-",
"dintre",
"doi",
"doilea",
"două",
"drept",
"după",
"dă",
"ea",
"ei",
"el",
"ele",
"eram",
"este",
"eu",
"eşti",
"face",
"fata",
"fi",
"fie",
"fiecare",
"fii",
"fim",
"fiu",
"fiţi",
"frumos",
"fără",
"graţie",
"halbă",
"iar",
"ieri",
"la",
"le",
"li",
"lor",
"lui",
"lângă",
"lîngă",
"mai",
"mea",
"mei",
"mele",
"mereu",
"meu",
"mi",
"mie",
"mine",
"mult",
"multă",
"mulţi",
"mulţumesc",
"mâine",
"mîine",
"mă",
"ne",
"nevoie",
"nici",
"nicăieri",
"nimeni",
"nimeri",
"nimic",
"nişte",
"noastre",
"noastră",
"noi",
"noroc",
"nostru",
"nouă",
"noştri",
"nu",
"opt",
"ori",
"oricare",
"orice",
"oricine",
"oricum",
"oricând",
"oricât",
"oricînd",
"oricît",
"oriunde",
"patra",
"patru",
"patrulea",
"pe",
"pentru",
"peste",
"pic",
"poate",
"pot",
"prea",
"prima",
"primul",
"prin",
"puţin",
"puţina",
"puţină",
"până",
"pînă",
"rog",
"sa",
"sale",
"sau",
"se",
"spate",
"spre",
"sub",
"sunt",
"suntem",
"sunteţi",
"sută",
"sînt",
"sîntem",
"sînteţi",
"să",
"săi",
"său",
"ta",
"tale",
"te",
"timp",
"tine",
"toate",
"toată",
"tot",
"totuşi",
"toţi",
"trei",
"treia",
"treilea",
"tu",
"tăi",
"tău",
"un",
"una",
"unde",
"undeva",
"unei",
"uneia",
"unele",
"uneori",
"unii",
"unor",
"unora",
"unu",
"unui",
"unuia",
"unul",
"vi",
"voastre",
"voastră",
"voi",
"vostru",
"vouă",
"voştri",
"vreme",
"vreo",
"vreun",
"vă",
"zece",
"zero",
"zi",
"zice",
"îi",
"îl",
"îmi",
"împotriva",
"în",
"înainte",
"înaintea",
"încotro",
"încât",
"încît",
"între",
"întrucât",
"întrucît",
"îţi",
"ăla",
"ălea",
"ăsta",
"ăstea",
"ăştia",
"şapte",
"şase",
"şi",
"ştiu",
"ţi",
"ţie",
]);
make_stemmer!(Algorithm::Romanian);