SHOGUN  v3.0.0
 All Classes Namespaces Files Functions Variables Typedefs Enumerations Enumerator Friends Macros Groups Pages
CSVFile.h
Go to the documentation of this file.
1 /*
2  * This program is free software; you can redistribute it and/or modify
3  * it under the terms of the GNU General Public License as published by
4  * the Free Software Foundation; either version 3 of the License, or
5  * (at your option) any later version.
6  *
7  * Written (W) 2013 Evgeniy Andreev (gsomix)
8  */
9 
10 #ifndef __CSVFILE_H__
11 #define __CSVFILE_H__
12 
13 #include <shogun/io/File.h>
14 
15 #include <shogun/io/LineReader.h>
16 #include <shogun/io/Parser.h>
18 #include <shogun/lib/v_array.h>
19 
20 namespace shogun
21 {
22 
26 class CCSVFile : public CFile
27 {
28 public:
30  CCSVFile();
31 
37  CCSVFile(FILE* f, const char* name=NULL);
38 
45  CCSVFile(int fd, const char* mode, const char* name=NULL);
46 
53  CCSVFile(const char* fname, char rw='r', const char* name=NULL);
54 
56  virtual ~CCSVFile();
57 
62  void set_transpose(bool value);
63 
68  void set_delimiter(char delimiter);
69 
74  void set_lines_to_skip(int32_t num_lines);
75 
81  int32_t get_stats(int32_t& num_tokens);
82 
90  virtual void get_vector(int8_t*& vector, int32_t& len);
91  virtual void get_vector(uint8_t*& vector, int32_t& len);
92  virtual void get_vector(char*& vector, int32_t& len);
93  virtual void get_vector(int32_t*& vector, int32_t& len);
94  virtual void get_vector(uint32_t*& vector, int32_t& len);
95  virtual void get_vector(float64_t*& vector, int32_t& len);
96  virtual void get_vector(float32_t*& vector, int32_t& len);
97  virtual void get_vector(floatmax_t*& vector, int32_t& len);
98  virtual void get_vector(int16_t*& vector, int32_t& len);
99  virtual void get_vector(uint16_t*& vector, int32_t& len);
100  virtual void get_vector(int64_t*& vector, int32_t& len);
101  virtual void get_vector(uint64_t*& vector, int32_t& len);
103 
112  virtual void get_matrix(
113  uint8_t*& matrix, int32_t& num_feat, int32_t& num_vec);
114  virtual void get_matrix(
115  int8_t*& matrix, int32_t& num_feat, int32_t& num_vec);
116  virtual void get_matrix(
117  char*& matrix, int32_t& num_feat, int32_t& num_vec);
118  virtual void get_matrix(
119  int32_t*& matrix, int32_t& num_feat, int32_t& num_vec);
120  virtual void get_matrix(
121  uint32_t*& matrix, int32_t& num_feat, int32_t& num_vec);
122  virtual void get_matrix(
123  int64_t*& matrix, int32_t& num_feat, int32_t& num_vec);
124  virtual void get_matrix(
125  uint64_t*& matrix, int32_t& num_feat, int32_t& num_vec);
126  virtual void get_matrix(
127  float32_t*& matrix, int32_t& num_feat, int32_t& num_vec);
128  virtual void get_matrix(
129  float64_t*& matrix, int32_t& num_feat, int32_t& num_vec);
130  virtual void get_matrix(
131  floatmax_t*& matrix, int32_t& num_feat, int32_t& num_vec);
132  virtual void get_matrix(
133  int16_t*& matrix, int32_t& num_feat, int32_t& num_vec);
134  virtual void get_matrix(
135  uint16_t*& matrix, int32_t& num_feat, int32_t& num_vec);
137 
146  virtual void get_ndarray(
147  uint8_t*& array, int32_t*& dims, int32_t& num_dims);
148  virtual void get_ndarray(
149  char*& array, int32_t*& dims, int32_t& num_dims);
150  virtual void get_ndarray(
151  int32_t*& array, int32_t*& dims, int32_t& num_dims);
152  virtual void get_ndarray(
153  float32_t*& array, int32_t*& dims, int32_t& num_dims);
154  virtual void get_ndarray(
155  float64_t*& array, int32_t*& dims, int32_t& num_dims);
156  virtual void get_ndarray(
157  int16_t*& array, int32_t*& dims, int32_t& num_dims);
158  virtual void get_ndarray(
159  uint16_t*& array, int32_t*& dims, int32_t& num_dims);
161 
170  virtual void get_sparse_matrix(
171  SGSparseVector<bool>*& matrix, int32_t& num_feat, int32_t& num_vec);
172  virtual void get_sparse_matrix(
173  SGSparseVector<uint8_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
174  virtual void get_sparse_matrix(
175  SGSparseVector<int8_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
176  virtual void get_sparse_matrix(
177  SGSparseVector<char>*& matrix, int32_t& num_feat, int32_t& num_vec);
178  virtual void get_sparse_matrix(
179  SGSparseVector<int32_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
180  virtual void get_sparse_matrix(
181  SGSparseVector<uint32_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
182  virtual void get_sparse_matrix(
183  SGSparseVector<int64_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
184  virtual void get_sparse_matrix(
185  SGSparseVector<uint64_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
186  virtual void get_sparse_matrix(
187  SGSparseVector<int16_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
188  virtual void get_sparse_matrix(
189  SGSparseVector<uint16_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
190  virtual void get_sparse_matrix(
191  SGSparseVector<float32_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
192  virtual void get_sparse_matrix(
193  SGSparseVector<float64_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
194  virtual void get_sparse_matrix(
195  SGSparseVector<floatmax_t>*& matrix, int32_t& num_feat, int32_t& num_vec);
197 
206  virtual void get_string_list(
207  SGString<uint8_t>*& strings, int32_t& num_str,
208  int32_t& max_string_len);
209  virtual void get_string_list(
210  SGString<int8_t>*& strings, int32_t& num_str,
211  int32_t& max_string_len);
212  virtual void get_string_list(
213  SGString<char>*& strings, int32_t& num_str,
214  int32_t& max_string_len);
215  virtual void get_string_list(
216  SGString<int32_t>*& strings, int32_t& num_str,
217  int32_t& max_string_len);
218  virtual void get_string_list(
219  SGString<uint32_t>*& strings, int32_t& num_str,
220  int32_t& max_string_len);
221  virtual void get_string_list(
222  SGString<int16_t>*& strings, int32_t& num_str,
223  int32_t& max_string_len);
224  virtual void get_string_list(
225  SGString<uint16_t>*& strings, int32_t& num_str,
226  int32_t& max_string_len);
227  virtual void get_string_list(
228  SGString<int64_t>*& strings, int32_t& num_str,
229  int32_t& max_string_len);
230  virtual void get_string_list(
231  SGString<uint64_t>*& strings, int32_t& num_str,
232  int32_t& max_string_len);
233  virtual void get_string_list(
234  SGString<float32_t>*& strings, int32_t& num_str,
235  int32_t& max_string_len);
236  virtual void get_string_list(
237  SGString<float64_t>*& strings, int32_t& num_str,
238  int32_t& max_string_len);
239  virtual void get_string_list(
240  SGString<floatmax_t>*& strings, int32_t& num_str,
241  int32_t& max_string_len);
243 
245  /*virtual void get_vector(void*& vector, int32_t& len, DataType& dtype);*/
246 
254  virtual void set_vector(const int8_t* vector, int32_t len);
255  virtual void set_vector(const uint8_t* vector, int32_t len);
256  virtual void set_vector(const char* vector, int32_t len);
257  virtual void set_vector(const int32_t* vector, int32_t len);
258  virtual void set_vector(const uint32_t* vector, int32_t len);
259  virtual void set_vector(const float32_t* vector, int32_t len);
260  virtual void set_vector(const float64_t* vector, int32_t len);
261  virtual void set_vector(const floatmax_t* vector, int32_t len);
262  virtual void set_vector(const int16_t* vector, int32_t len);
263  virtual void set_vector(const uint16_t* vector, int32_t len);
264  virtual void set_vector(const int64_t* vector, int32_t len);
265  virtual void set_vector(const uint64_t* vector, int32_t len);
267 
275  virtual void set_matrix(
276  const uint8_t* matrix, int32_t num_feat, int32_t num_vec);
277  virtual void set_matrix(
278  const int8_t* matrix, int32_t num_feat, int32_t num_vec);
279  virtual void set_matrix(
280  const char* matrix, int32_t num_feat, int32_t num_vec);
281  virtual void set_matrix(
282  const int32_t* matrix, int32_t num_feat, int32_t num_vec);
283  virtual void set_matrix(
284  const uint32_t* matrix, int32_t num_feat, int32_t num_vec);
285  virtual void set_matrix(
286  const int64_t* matrix, int32_t num_feat, int32_t num_vec);
287  virtual void set_matrix(
288  const uint64_t* matrix, int32_t num_feat, int32_t num_vec);
289  virtual void set_matrix(
290  const float32_t* matrix, int32_t num_feat, int32_t num_vec);
291  virtual void set_matrix(
292  const float64_t* matrix, int32_t num_feat, int32_t num_vec);
293  virtual void set_matrix(
294  const floatmax_t* matrix, int32_t num_feat, int32_t num_vec);
295  virtual void set_matrix(
296  const int16_t* matrix, int32_t num_feat, int32_t num_vec);
297  virtual void set_matrix(
298  const uint16_t* matrix, int32_t num_feat, int32_t num_vec);
300 
308  virtual void set_sparse_matrix(
309  const SGSparseVector<bool>* matrix, int32_t num_feat, int32_t num_vec);
310  virtual void set_sparse_matrix(
311  const SGSparseVector<uint8_t>* matrix, int32_t num_feat, int32_t num_vec);
312  virtual void set_sparse_matrix(
313  const SGSparseVector<int8_t>* matrix, int32_t num_feat, int32_t num_vec);
314  virtual void set_sparse_matrix(
315  const SGSparseVector<char>* matrix, int32_t num_feat, int32_t num_vec);
316  virtual void set_sparse_matrix(
317  const SGSparseVector<int32_t>* matrix, int32_t num_feat, int32_t num_vec);
318  virtual void set_sparse_matrix(
319  const SGSparseVector<uint32_t>* matrix, int32_t num_feat, int32_t num_vec);
320  virtual void set_sparse_matrix(
321  const SGSparseVector<int64_t>* matrix, int32_t num_feat, int32_t num_vec);
322  virtual void set_sparse_matrix(
323  const SGSparseVector<uint64_t>* matrix, int32_t num_feat, int32_t num_vec);
324  virtual void set_sparse_matrix(
325  const SGSparseVector<int16_t>* matrix, int32_t num_feat, int32_t num_vec);
326  virtual void set_sparse_matrix(
327  const SGSparseVector<uint16_t>* matrix, int32_t num_feat, int32_t num_vec);
328  virtual void set_sparse_matrix(
329  const SGSparseVector<float32_t>* matrix, int32_t num_feat, int32_t num_vec);
330  virtual void set_sparse_matrix(
331  const SGSparseVector<float64_t>* matrix, int32_t num_feat, int32_t num_vec);
332  virtual void set_sparse_matrix(
333  const SGSparseVector<floatmax_t>* matrix, int32_t num_feat, int32_t num_vec);
335 
344  virtual void set_string_list(
345  const SGString<uint8_t>* strings, int32_t num_str);
346  virtual void set_string_list(
347  const SGString<int8_t>* strings, int32_t num_str);
348  virtual void set_string_list(
349  const SGString<char>* strings, int32_t num_str);
350  virtual void set_string_list(
351  const SGString<int32_t>* strings, int32_t num_str);
352  virtual void set_string_list(
353  const SGString<uint32_t>* strings, int32_t num_str);
354  virtual void set_string_list(
355  const SGString<int16_t>* strings, int32_t num_str);
356  virtual void set_string_list(
357  const SGString<uint16_t>* strings, int32_t num_str);
358  virtual void set_string_list(
359  const SGString<int64_t>* strings, int32_t num_str);
360  virtual void set_string_list(
361  const SGString<uint64_t>* strings, int32_t num_str);
362  virtual void set_string_list(
363  const SGString<float32_t>* strings, int32_t num_str);
364  virtual void set_string_list(
365  const SGString<float64_t>* strings, int32_t num_str);
366  virtual void set_string_list(
367  const SGString<floatmax_t>* strings, int32_t num_str);
369 
378  static void tokenize(char delim, substring s, v_array<substring> &ret);
379 
380  virtual const char* get_name() const { return "CSVFile"; }
381 
382 private:
384  void init();
385 
387  void init_with_defaults();
388 
390  void skip_lines(int32_t num_lines);
391 
392 private:
394  CLineReader* m_line_reader;
395 
397  CParser* m_parser;
398 
400  CDelimiterTokenizer* m_line_tokenizer;
401 
403  CDelimiterTokenizer* m_tokenizer;
404 
406  bool is_data_transposed;
407 
409  char m_delimiter;
410 
412  int32_t m_num_to_skip;
413 };
414 
415 }
416 
417 #endif

SHOGUN Machine Learning Toolbox - Documentation