Molekulu pieraksts datorā

Publicēts 2008-09-06, etiķetes: ,

Ķīmijai attīstoties un padziļinoties zināšanām par ķīmisko savienojumu struktūru, radās nepieciešamība attēlot to uz papīra. Tam tika izdomāti dažādi savienojumu pieraksta veidi. Molekulas struktūras grafiskais pieraksts jeb struktūrformulas ļāva iegūt labāku izpratni par vielu uzbūvi un to ķīmisko dabu.

Attīstoties datoriem, radās nepieciešamība pierakstīt šo informāciju datoram saprotamā veidā. Mūsdienās pastāv daudzi molekulu pieraksta formāti, kas šo uzdevumu veic mazliet atšķirīgā veidā un dod iespēju pierakstīt dažāda veida informāciju atkarībā no tam paredzētā lietošanas veida un nolūka.

Šeit es nedomāju sniegt detalizētu informāciju par visiem ķīmijas failu formātiem, bet gan dot vispārīgu pārskatu par to galvenajiem tipiem un pamatprincipiem, kas ievēroti tos veidojot, kā arī minēšu dažus biežāk sastopamos failu formātus un došu norādes tālākai lasīšanai.

Ķīmisko savienojumu pieraksts datorā parasti balstās uz dažiem galvenajiem principiem. Kā svarīgākos pieraksta tipus varētu minēt:
Pirmais pieraksta veids tieši nesniedz nekādu informāciju par molekulas telpisko uzbūvi, taču dod pietiekami, lai pateiktu, kas tā ir par molekulu un uzkonstruētu tās struktūrformulu. Šajā gadījumā parasti tiek norādīts atomu tips, to saistība un dažos gadījumos arī saistības veids. Kā piemērus ķīmijas failu formātiem, kas izmanto šo veidu, varētu minēt SMILES, OpenSMILES, Sybyl line notation un InChI.

Otrā tipa pieraksti ir visplašāk izplatītie un tiek izmantoti lielākajā daļā ķīmisko formātu. Šeit tiek pierakstīts katra atoma tips, koordinātes (iekšējās vai ārējās) un to savstarpējā saistība, kā arī vesela rinda citas informācijas atkarībā no konkrētā faila formāta un tam paredzētā lietojuma. Šeit kā piemērus varētu minēt Molfile un PDB.

Trešā tipa formāti ir balstīti uz XML un te kā piemēru varētu minēt CML (Chemical Markup Language), kas ir galvenais šāda tipa formāts ķīmijā un uzskatāms par standartu ķīmiskās informācijas (struktūru, reakciju, spektru u.c.) apmaiņai.

Dažādas ķīmijas programmas atbalsta dažādus failu formātus, tāpēc bieži nepieciešams pārvērst failus no viena formāta uz citu. Šim nolūkam var izmantot jau manis aprakstīto programmu OpenBabel. Kā standarta formātus, kurus atbalsta vairums ķīmijas programmu varētu minēt Molfile un PDB.

Turpmākajos rakstos es aprakstīšu vairāk katru no minētajām failu formātu grupām.


edit post

JabRef un citāciju organizēšana

Publicēts 2008-08-19, etiķetes: , ,

Kā jau daždien tas gadās ikdienas steigā ātri vien ierokamies darbu gūzmā. Zinātnieku un studentu gadījumā tas bieži vien ir saistīts ar lieliem literatūras kalniem, kuros ātri vien var apmaldīties un aizmirst, kas jau ir izskatīts un kuras bija vērtīgākās publikācijas konkrētai tēmai, tāpēc nepieciešama kāda sistēma, kas ļautu šo informāciju organizēt. Tāda sistēma ir atsauču organizēšana (angl. reference management).

Atsauču organizēšanas programmas ļauj izveidot literatūras (žurnālu rakstu, grāmatu, prezentāciju u.c.) sarakstu jeb datu bāzi, ko iespējams izmantot bibliogrāfijas (izmantotās literatūras) sarakstu veidošanai referātos, kursa darbos, publikācijās kā arī grāmatās. Turklāt kopā ar attiecīgo programmatūru tas nodrošina automātisku atsauču numurēšanu tekstā un atbilstošu literatūras saraksta izveidi, kas lielā mērā atvieglo publikāciju rakstīšanu, jo nav jāseko līdzi un jāmaina visi numuri ikreiz, kad tiek ielikta jauna atsauce, vai pamainīta nodaļu kārtība. Vēl viens ieguvums ir tas, ka citācijas tiek automātiski formatētas atbilstoši norādītajām veidnēm. Zinātnisko žurnālu izdevniecības reizēm pašas izplata šādas veidnes, kas ļauj formatēt rakstus atbilstoši konkrētā izdevuma prasībām. Tas ļauj izvairīties no daudzām sīkām tipogrāfiskām kļūdām, kā arī ietaupīt laiku.

Analoģiskas datu bāzes, kuras cenšas savākt visu kādā nozarē vai žurnālā publicēto rakstu atsauces, sauc par bibliogrāfijas datu bāzēm. Bibliogrāfijas datu bāzes pretēji atsauču datu bāzēm, kas paredzētas individuālai lietošanai vai lietošanai kolektīva ietvaros, ir ļoti apjomīgas un parasti tiek izvietotas speciāli tam paredzētos serveros. Kā piemēru šeit var minēt Medline datu bāzi, kur apkopoti bibliogrāfiskie dati no medicīnas, farmācijas, šūnu bioloģijas, bioķīmijas un citām nozarēm, un informāciju šajā datu bāzē iespējams meklēt izmantojot, piemēram, PubMed meklēšanas servisu. Informāciju par mazu organisko molekulu bioloģiskajām aktivitātēm var atrast izmantojot PubChem.

Atsauču organizēšanas programmas ļauj veidot katras atsauces aprakstu atbilstoši citējamās literatūras tipam un ievadīt tam raksturīgo informāciju. Tā pat iespējams pievienot atslēgas vārdus, piezīmes utt.

Viena no šādām atsauču organizēšanas programmām ir JabRef. Tā ir rakstīta programmēšanas valodā Java, kas, kā jau esmu iepriekš minējis, ļauj tai darboties jebkurā operētājsistēmā, kur ir pieejama Javas virtuālā mašīna (Windows, Linux, Macintosh u.c.). Citāciju datu bāze tiek glabāta BibTeX formātā, kas uzskatāms par vienu no standarta formātiem bibliogrāfijas datu bāzēm un ļauj tiešā veidā šīs atsauces ievietot rakstu darbos, ja tiek izmantota TeX dokumentu sagatavošanas sistēma. Arī vairāki teksta redaktori (tai skaitā OpenOffice Writer, MS Word) atbalsta BibTeX failu izmantošanu un/vai atsauču organizēšanu dažādās pakāpēs, taču līdz šim mana pieredze ir bijusi tāda, ka to iespējas vēl ir visai ierobežotas un pati lietošana - neparocīga, lai gan pie tā tiek strādāts un sagaidāms, ka situācija krietni uzlabosies.

Jabref, protams, nav vienīgā šāda veida programma. Ir pieejams vesels saraksts ar tām, kur daudzas turklāt ir atvērtā pirmkoda projekti, ar dažādu tehnisko risinājumu un operētājsistēmu atbalstu. Sīkāku aprakstu atstāšu citai reizei, kad būs vairāk laika. ;)


edit post